Im Quellenvergleich
Worin die Quellen übereinstimmen
Anthropic hat Claude Sonnet 5 veröffentlicht. Das Modell ist ab sofort in den Claude-Apps und über die API verfügbar. Es wird als das agentischste Modell der Sonnet-Reihe beschrieben, das selbstständig planen, Browser und Terminals nutzen kann. In Benchmarks übertrifft es den Vorgänger Sonnet 4.6 und nähert sich der Leistung des teureren Opus 4.8 an. Der Einführungspreis bis zum 31. August 2026 beträgt 2 Dollar pro Million Input-Token und 10 Dollar pro Million Output-Token; danach steigt er auf 3 bzw. 15 Dollar. Das Modell halluziniert seltener und weist schädliche Anfragen besser ab als Sonnet 4.6.
Worin sie sich unterscheiden
Sicherheitsbewertung- Sicherheitstests zeigten insgesamt weniger unerwünschtes Verhalten als bei Sonnet 4.6, etwa bei der Ablehnung bösartiger Anfragen und bei Halluzinationen.1
- Das Modell zeigt weniger Halluzinationen als sein Vorgänger, aber etwas mehr Fehlverhalten als Opus 4.8.2
- Das Modell halluziniert seltener und weist schädliche Anfragen besser ab, bleibt aber hinter Opus 4.8 und Claude Mythos Preview bei der Sicherheit zurück.3
- Das Modell lehne bösartige Anfragen besser ab und widerstehe Prompt-Injection-Angriffen zuverlässiger als der Vorgänger.4
- In Sicherheitstests zeigte der Sonnet 5 weniger unerwünschtes Verhalten als der Sonnet 4.6.5
Cybersicherheitsfähigkeiten- Die Fähigkeit zu Cybersicherheitsaufgaben sei deutlich geringer als bei aktuellen Opus-Modellen.1
- Cybersicherheitsfunktionen sind standardmäßig aktiviert.2
- Anthropic betont, das Modell sei nicht gezielt auf Cybersecurity-Aufgaben trainiert und schneide bei gefährlichen Cyber-Fähigkeiten deutlich schlechter ab als Opus 4.8 und Mythos 5. Dennoch hat das Unternehmen standardmäßig Cyber-Schutzmaßnahmen aktiviert, die gefährliche Nutzung in Echtzeit blockieren.4
- Bei einer Prüfung zur Entwicklung von Exploits für den Firefox 147 scheiterte das Modell in allen Versuchen.5
Benchmark-Ergebnisse im agentischen Programmieren (SWE-bench Pro)Im Codierungstest SWE-bench Pro erreicht Sonnet 5 63,2 Prozent, Sonnet 4.6 58,1 Prozent und Opus 4.8 69,2 Prozent.26- In einem Benchmark erreicht es 63,2 Prozent bei agentischem Programmieren (Opus 4.8: 69,2 Prozent).3
- Im SWE-bench Pro stieg die Trefferquote von 58,1 auf 63,2 Prozent.5
Wissensarbeit im Vergleich zu Opus 4.8- In einem Wissensarbeitstest übertrifft es Opus sogar.2
- Bei Wissensarbeit übertrifft es Opus 4.8 sogar leicht.3
- Beim Wissensarbeit-Benchmark GDPval-AA v2 übertrifft Sonnet 5 Opus 4.8 knapp (1618 zu 1615).4
Technisches Detail zum Tokenizer- Sonnet 5 nutzt einen aktualisierten Tokenizer, der die gleiche Eingabe in 1,0 bis 1,35 mal so viele Tokens umwandeln kann.2
Unternehmenskontext und Börsengang- Der Launch erfolgt vor Anthropics Börsengang. Das Unternehmen meldete zuletzt einen Jahresumsatz von über 47 Milliarden Dollar bei einer Bewertung von 965 Milliarden Dollar. Analysten sehen in der Bruttomarge den entscheidenden, noch unbekannten Wert. Sonnet 5 soll helfen, experimentelle Nutzung in verlässliche Umsätze zu verwandeln.2
Preisvergleich mit anderen Modellen- Es ist günstiger als Opus 4.8, GPT-5.5 und Gemini 3.1 Pro, aber teurer als Gemini 3.5 Flash.3
- Opus 4.8 kostet derzeit fünf Dollar Input und 25 Dollar Output.6
Einführungspreis als kostenneutraler Wechsel- Laut Anthropic ist der Einführungspreis darauf kalibriert, den Wechsel „etwa kostenneutral“ zu halten.2
Standard für Free- und Pro-NutzerIn den Claude-Apps ist Sonnet 5 nun die Standardoption, auch für Gratisnutzer.65- Das Modell ist ab sofort der Standard für Free- und Pro-Nutzer.2
Berichte von Partnern- Frühe Partner wie Cursor und Zapier berichten, dass das Modell mehrstufige Aufgaben zuverlässig abschließt, die frühere Modelle abbrachen.2
Weitere Benchmark-Ergebnisse (Terminal-Bench, Computer Use)- Im Terminal-Bench 2.1 erreichte Sonnet 5 80,4 Prozent, Sonnet 4.6 67 Prozent, Opus 4.8 82,7 Prozent.6
- Bei der Nutzung von Werkzeugen (Computer Use) erreichte Sonnet 5 eine Erfolgsrate von 81,2 Prozent, Sonnet 4.6 78,5 Prozent, Opus 4.8 83,4 Prozent.6
- Im Terminal-Bench 2.1 stieg die Trefferquote von 67 auf 80,4 Prozent.5