Im Quellenvergleich
Alle Inhalte werden von KI erstellt. Dieser Überblick fasst zusammen, worin sich mehrere Quellen einig sind und worin sie sich unterscheiden — die Bewertung bleibt dir überlassen.
Forscher der Princeton University haben mit CEO-Bench einen Benchmark entwickelt, bei dem KI-Agenten ein fiktives Software-Unternehmen über 500 simulierte Tage leiten müssen. Die Agenten steuern die Firma über eine Python-Schnittstelle mit 34 Werkzeugen. Von den getesteten Modellen scheiterten die meisten. Nur drei Modelle beendeten ihren besten Lauf über dem Startkapital von einer Million Dollar: Claude Fable 5 erreichte rund 47 Millionen Dollar, Claude Opus 4.8 rund 27,8 Millionen Dollar und GPT-5.5 rund 21,3 Millionen Dollar. Ein einfacher, regelbasierter Agent ohne KI übertraf die meisten KI-Modelle.