Im Quellenvergleich

DiffusionGemma veröffentlicht

6 Quellen · 6 Meldungen · Stand 23.06.2026

Alle Inhalte werden von KI erstellt. Dieser Überblick fasst zusammen, worin sich mehrere Quellen einig sind und worin sie sich unterscheiden — die Bewertung bleibt dir überlassen.

Im Quellenvergleich

Worin die Quellen übereinstimmen

Google hat das experimentelle Open-Source-Modell DiffusionGemma veröffentlicht. Es erzeugt Text nicht sequenziell Token für Token, sondern in Blöcken von 256 Tokens parallel mittels eines Diffusionsverfahrens. Das Modell hat 26 Milliarden Parameter, aktiviert während der Inferenz aber nur 3,8 Milliarden und passt mit Quantisierung in den 18-GB-VRAM einer High-End-Verbraucher-GPU. Die Modellgewichte stehen unter der Apache-2.0-Lizenz auf Hugging Face bereit. Google räumt ein, dass die Ausgabequalität niedriger ist als bei den regulären Gemma-4-Modellen und empfiehlt diese für Anwendungen mit höchsten Qualitätsansprüchen. Die Quellen berichten weitgehend übereinstimmend, weichen aber in Details ab.

Worin sie sich unterscheiden

Geschwindigkeitsvorteil gegenüber anderen ModellenDas Modell arbeitet bis zu viermal schneller als herkömmliche Modelle.1 2

Das Modell erreicht auf GPUs eine bis zu viermal schnellere Textgenerierung als herkömmliche autoregressive Modelle.3
Das Modell erreicht auf einer NVIDIA H100-GPU über 1.000 Tokens pro Sekunde, was der zehnfachen Geschwindigkeit von GPT-5.4 mini entspreche.4
Auf lokaler Hardware wie einer Nvidia DGX oder einer Gaming-GPU arbeitet das Modell viermal schneller.5

Geschwindigkeit auf einer RTX 5090

Auf einem RTX 5090 erreicht das Modell rund 700 Token pro Sekunde.5
Auf einer GeForce RTX 5090 erreicht das Modell über 700 Token pro Sekunde.2

Einschränkungen bei Cloud-ServingDas Modell eignet sich nicht für stark frequentierte Cloud-Umgebungen.1 2

In der Cloud mit vielen gleichzeitigen Anfragen sind autoregressive Modelle oft effizienter.3

Geschwindigkeit auf Apple Silicon

Auf Architekturen mit gemeinsam genutztem Speicher wie Apple Silicon fällt der Vorsprung geringer aus.1

Nennung konkreter Token-pro-Sekunde-Werte auf H100

Auf einer NVIDIA H100-GPU erreicht das Modell über 1.000 Tokens pro Sekunde.4
Nvidia nennt rund 1.000 Tokens pro Sekunde auf einer H100.1
Auf einem Nvidia H100 erreicht das Modell über 1.000 Token pro Sekunde – etwa viermal so viel wie vergleichbare autoregressive Gemma-Modelle.5
Auf einer Nvidia H100 erreicht das Modell über 1000 Token pro Sekunde.2

Anwendungsbeispiele

Das Modell eignet sich für geschwindigkeitskritische lokale Workflows wie Inline-Editierung oder Code-Ergänzung.3
Das Modell eignet sich für lokale Echtzeit-Aufgaben, schnelles Prototyping und Experimente.4
Stärken sieht Google bei nicht-linearen Aufgaben wie dem nachträglichen Einfügen von Text oder dem Vervollständigen von Lücken in Programmcode.1
Google nennt Vorteile bei nicht-linearen Aufgaben wie Inline-Editierung, molekularer Sequenzierung und mathematischen Graphen.5
Das Modell ermöglicht nichtlineare Aufgaben wie Inline-Editierung oder Code-Vervollständigung.2

Quellen (6)

DiffusionGemma: Google beschleunigt Gemma 4 mit Technik zur Bilderzeugung — golem_ki
Google DeepMind veröffentlicht DiffusionGemma – ein Modell, das lokale KI 4x schneller ausführt — ars_technica
Google veröffentlicht diffusionsbasiertes Textgenerierungsmodell "DiffusionGemma" – Über 1000 Token pro Sekunde auf lokaler GPU — itmedia_ai
DiffusionGemma: Googles offenes Sprachmodell generiert Text in Blöcken — the_decoder
DiffusionGemma: 4x schnellere Textgenerierung — google_deepmind
Google bringt eine KI auf den Markt, die zehnmal schneller Texte generiert als ChatGPT (und kostenlos ist) — hipertextual_tech

Vollständige Übersicht mit allen Meldungen öffnen →