Im Quellenvergleich
Worin die Quellen übereinstimmen
Google hat das experimentelle Open-Source-Modell DiffusionGemma veröffentlicht. Es erzeugt Text nicht sequenziell Token für Token, sondern in Blöcken von 256 Tokens parallel mittels eines Diffusionsverfahrens. Das Modell hat 26 Milliarden Parameter, aktiviert während der Inferenz aber nur 3,8 Milliarden und passt mit Quantisierung in den 18-GB-VRAM einer High-End-Verbraucher-GPU. Die Modellgewichte stehen unter der Apache-2.0-Lizenz auf Hugging Face bereit. Google räumt ein, dass die Ausgabequalität niedriger ist als bei den regulären Gemma-4-Modellen und empfiehlt diese für Anwendungen mit höchsten Qualitätsansprüchen. Die Quellen berichten weitgehend übereinstimmend, weichen aber in Details ab.
Worin sie sich unterscheiden
Geschwindigkeitsvorteil gegenüber anderen ModellenDas Modell arbeitet bis zu viermal schneller als herkömmliche Modelle.12- Das Modell erreicht auf GPUs eine bis zu viermal schnellere Textgenerierung als herkömmliche autoregressive Modelle.3
- Das Modell erreicht auf einer NVIDIA H100-GPU über 1.000 Tokens pro Sekunde, was der zehnfachen Geschwindigkeit von GPT-5.4 mini entspreche.4
- Auf lokaler Hardware wie einer Nvidia DGX oder einer Gaming-GPU arbeitet das Modell viermal schneller.5
Geschwindigkeit auf einer RTX 5090- Auf einem RTX 5090 erreicht das Modell rund 700 Token pro Sekunde.5
- Auf einer GeForce RTX 5090 erreicht das Modell über 700 Token pro Sekunde.2
Einschränkungen bei Cloud-ServingDas Modell eignet sich nicht für stark frequentierte Cloud-Umgebungen.12- In der Cloud mit vielen gleichzeitigen Anfragen sind autoregressive Modelle oft effizienter.3
Geschwindigkeit auf Apple Silicon- Auf Architekturen mit gemeinsam genutztem Speicher wie Apple Silicon fällt der Vorsprung geringer aus.1
Nennung konkreter Token-pro-Sekunde-Werte auf H100- Auf einer NVIDIA H100-GPU erreicht das Modell über 1.000 Tokens pro Sekunde.4
- Nvidia nennt rund 1.000 Tokens pro Sekunde auf einer H100.1
- Auf einem Nvidia H100 erreicht das Modell über 1.000 Token pro Sekunde – etwa viermal so viel wie vergleichbare autoregressive Gemma-Modelle.5
- Auf einer Nvidia H100 erreicht das Modell über 1000 Token pro Sekunde.2
Anwendungsbeispiele- Das Modell eignet sich für geschwindigkeitskritische lokale Workflows wie Inline-Editierung oder Code-Ergänzung.3
- Das Modell eignet sich für lokale Echtzeit-Aufgaben, schnelles Prototyping und Experimente.4
- Stärken sieht Google bei nicht-linearen Aufgaben wie dem nachträglichen Einfügen von Text oder dem Vervollständigen von Lücken in Programmcode.1
- Google nennt Vorteile bei nicht-linearen Aufgaben wie Inline-Editierung, molekularer Sequenzierung und mathematischen Graphen.5
- Das Modell ermöglicht nichtlineare Aufgaben wie Inline-Editierung oder Code-Vervollständigung.2