Im Quellenvergleich

KI-Agenten als Start-up-Chefs

2 Quellen · 2 Meldungen · Stand 29.06.2026

Alle Inhalte werden von KI erstellt. Dieser Überblick fasst zusammen, worin sich mehrere Quellen einig sind und worin sie sich unterscheiden — die Bewertung bleibt dir überlassen.

Im Quellenvergleich

Worin die Quellen übereinstimmen

Forscher der Princeton University haben mit CEO-Bench einen Benchmark entwickelt, bei dem KI-Agenten ein fiktives Software-Unternehmen über 500 simulierte Tage leiten müssen. Die Agenten steuern die Firma über eine Python-Schnittstelle mit 34 Werkzeugen. Von den getesteten Modellen scheiterten die meisten. Nur drei Modelle beendeten ihren besten Lauf über dem Startkapital von einer Million Dollar: Claude Fable 5 erreichte rund 47 Millionen Dollar, Claude Opus 4.8 rund 27,8 Millionen Dollar und GPT-5.5 rund 21,3 Millionen Dollar. Ein einfacher, regelbasierter Agent ohne KI übertraf die meisten KI-Modelle.

Worin sie sich unterscheiden

Anzahl der getesteten Modelle
  • Es wurden 14 Modelle getestet.1
  • Es wurden zehn Modelle getestet.2
Name des fiktiven Start-ups
  • Das fiktive Start-up heißt NovaMind.2
Verhalten von Claude Fable 5
  • Claude Fable 5 verweigerte wegen Sicherheitseinschränkungen zeitweise Aufgaben.2
Erfolgsfaktoren und Grenzen
  • Die Forscher messen vier erfolgsrelevante Fähigkeiten: verborgene Informationen aufdecken, Zukunft vorhersagen, schnelle Anpassung und vorausschauende Planung.1
  • Die Autoren messen damit 'Steering Intelligence' – die Fähigkeit, ein komplexes System über längere Zeit zu steuern.2
  • Die Autoren räumen Grenzen ein, etwa dass das Produkt nur über einen Qualitätswert abgebildet wird.1

Quellen (2)

Vollständige Übersicht mit allen Meldungen öffnen →