Im Quellenvergleich

KI-Agenten als Start-up-Chefs

2 Quellen · 2 Meldungen · Stand 29.06.2026

Alle Inhalte werden von KI erstellt. Dieser Überblick fasst zusammen, worin sich mehrere Quellen einig sind und worin sie sich unterscheiden — die Bewertung bleibt dir überlassen.

Im Quellenvergleich

Worin die Quellen übereinstimmen

Forscher der Princeton University haben mit CEO-Bench einen Benchmark entwickelt, bei dem KI-Agenten ein fiktives Software-Unternehmen über 500 simulierte Tage leiten müssen. Die Agenten steuern die Firma über eine Python-Schnittstelle mit 34 Werkzeugen. Von den getesteten Modellen scheiterten die meisten. Nur drei Modelle beendeten ihren besten Lauf über dem Startkapital von einer Million Dollar: Claude Fable 5 erreichte rund 47 Millionen Dollar, Claude Opus 4.8 rund 27,8 Millionen Dollar und GPT-5.5 rund 21,3 Millionen Dollar. Ein einfacher, regelbasierter Agent ohne KI übertraf die meisten KI-Modelle.

Worin sie sich unterscheiden

Anzahl der getesteten Modelle

Es wurden 14 Modelle getestet.1
Es wurden zehn Modelle getestet.2

Name des fiktiven Start-ups

Das fiktive Start-up heißt NovaMind.2

Verhalten von Claude Fable 5

Claude Fable 5 verweigerte wegen Sicherheitseinschränkungen zeitweise Aufgaben.2

Erfolgsfaktoren und Grenzen

Die Forscher messen vier erfolgsrelevante Fähigkeiten: verborgene Informationen aufdecken, Zukunft vorhersagen, schnelle Anpassung und vorausschauende Planung.1
Die Autoren messen damit 'Steering Intelligence' – die Fähigkeit, ein komplexes System über längere Zeit zu steuern.2
Die Autoren räumen Grenzen ein, etwa dass das Produkt nur über einen Qualitätswert abgebildet wird.1

Quellen (2)

So würde eine KI als Start-up-Chef abschneiden — heise_ki
KI-Agenten als Start-up-Chef: Neuer Benchmark lässt Sprachmodelle 500 Tage ein Unternehmen führen — the_decoder

Vollständige Übersicht mit allen Meldungen öffnen →