Im Quellenvergleich
Worin die Quellen übereinstimmen
Google hat das offene KI-Modell Gemma 4 12B veröffentlicht. Es verarbeitet Text, Bilder und Audio und läuft laut Unternehmen auf handelsüblichen Notebooks mit 16 Gigabyte Arbeitsspeicher. Das Modell ist unter der Apache-2.0-Lizenz veröffentlicht und über Hugging Face herunterladbar.
Worin sie sich unterscheiden
Art der Audio- und BildverarbeitungDas Modell verzichtet auf separate Encoder und verarbeitet Bilder und Audio direkt im Sprachmodell.123- Das Modell nutzt für Bilder ein leichtes Einbettungsmodul und projiziert Audiosignale direkt in den Text-Token-Raum.4
Leistungsvergleich mit dem 26B-Modell- In Benchmarks erreicht das 12B-Modell fast die Werte des größeren 26B-Modells: Im GPQA Diamond erzielt es 78,8 Prozent (26B: 82,3 Prozent), im MMLU Pro 77,2 Prozent (26B: 82,6 Prozent). Damit übertrifft es die Vorgängerversion Gemma 3 27B.4
- Laut Herstellerangaben ist es in Benchmarks fast genauso leistungsfähig wie das 26B-Modell.5
- Es erreicht in Benchmarks fast die Leistung des doppelt so großen 26B-Modells.1
- Laut Google erreicht es in Benchmarks fast die Leistung des größeren Modells.2
- Laut Google erreicht es eine Leistung nahe des größeren 26B-Modells, benötigt aber weniger Speicher.3
Verfügbarkeit über zusätzliche PlattformenDas Modell ist über Hugging Face und Kaggle herunterladbar.41- Entwickler können es unter anderem über Hugging Face herunterladen.3
Einordnung in die Gemma-4-Reihe- Das Unternehmen schließt damit eine Lücke in der Gemma-4-Reihe, die im April mit vier Modellen startete. Die bisherigen Modelle waren entweder für Mobilgeräte optimiert (E2B, E4B) oder für anspruchsvolle Aufgaben gedacht (26B Mixture of Experts, 31B Dense). Das 12B-Modell ist leistungsfähiger als die mobilen Versionen, benötigt aber keine teuren KI-Beschleuniger.5
- Innerhalb der Gemma-4-Familie liegt das 12B-Modell zwischen den Edge-Varianten für Smartphones und dem größeren 26B-Modell.2
Fähigkeit zur Videoanalyse- Das Modell beherrscht unter anderem Spracherkennung, Codegenerierung und Videoanalyse. Laut Developer Guide kann es mehrminütige Videoclips analysieren, indem es Einzelbilder und Audiospur gemeinsam auswertet.1
Leistung ohne dedizierte GPU- Ohne dedizierte GPU verlängern sich die Rechenzeiten jedoch.2