Mensch gegen Maschine: KI ist billiger und schneller, aber Doktoranden sind besser
In der Welt der wissenschaftlichen Forschung ist die Fähigkeit, Studien und Experimente zu reproduzieren, ein entscheidender Maßstab für Glaubwürdigkeit und Fortschritt. Doch wie gut können KI-Systeme diese Aufgabe im Vergleich zu menschlichen Forschern bewältigen? OpenAI hat mit PaperBench einen neuen Benchmark vorgestellt, der genau das testet – mit überraschenden Ergebnissen.
PaperBench: Ein neuer Maßstab für KI-Fähigkeiten
PaperBench fordert KI-Systeme heraus, wissenschaftliche Arbeiten eigenständig zu reproduzieren. Dafür müssen sie 20 ausgewählte Paper der renommierten ICML 2024-Konferenz nachvollziehen – von der Implementierung der Methoden bis zur Reproduktion der Ergebnisse. Die ausgewählten Arbeiten decken zwölf verschiedene Forschungsgebiete ab, darunter Deep Reinforcement Learning und probabilistische Methoden.
Um die Bewertung fair und objektiv zu gestalten, entwickelte OpenAI eine detaillierte Rubrik mit über 8.300 Kriterien, die in Zusammenarbeit mit den Original-Autoren erstellt wurde. Die KI-Systeme dürfen das Internet nutzen, aber nicht auf den Original-Code der Autoren zugreifen. Stattdessen müssen sie einen reproduzierbaren Code-Korpus erstellen und ein Skript namens „reproduce.sh“ bereitstellen, das alle Experimente automatisch ausführt.
KI vs. Mensch: Die Ergebnisse
Die ersten Tests zeigen deutliche Grenzen der aktuellen KI-Modelle:
- Claude 3.5 Sonnet (Anthropic) erreichte eine Replikationsrate von 21 %.
- OpenAIs o1 verbesserte sich mit einem speziellen Agenten-Framework auf 24,4 %.
- Kleinere Modelle wie GPT-40 (4,1 %) oder Gemini 2.0 Flash (3,2 %) schnitten deutlich schlechter ab.
Zum Vergleich rekrutierte OpenAI acht Doktoranden von Top-Universitäten wie Berkeley und Cambridge. Diese erreichten nach 48 Stunden Arbeit eine Replikationsrate von 41,4 % – also fast doppelt so viel wie das beste KI-System.
Ein paar Gedanken zum Thema, zum anhören:
Dauer: 13 min. 31 sek.

Warum sind Menschen (noch) besser?
Die Studie zeigt interessante Unterschiede im Arbeitsverhalten:
- KI-Systeme schreiben in der ersten Stunde viel Code, erreichen dann aber ein Plateau. Oft beenden sie ihre Arbeit vorzeitig, weil sie fälschlicherweise denken, fertig zu sein.
- Menschen brauchen länger für die Einarbeitung, verbessern ihre Arbeit dann aber kontinuierlich. Sie können strategischer vorgehen und komplexe Probleme besser lösen.
Nur Claude 3.5 Sonnet nutzte die verfügbare Zeit konsequent aus – ein Hinweis darauf, dass fortgeschrittene Modelle bereits bessere Planungsfähigkeiten entwickeln.
Wirtschaftlichkeit und Zukunftsperspektiven
OpenAI setzte einen KI-basierten Richter ein, um die Ergebnisse zu bewerten. Dieser erreichte eine Genauigkeit von 83 % im Vergleich zu menschlichen Experten – bei Kosten von nur 66 Dollar pro Paper (statt mehrerer tausend Dollar für menschliche Bewerter).
Dennoch stellt sich die Frage: Lohnt sich der Einsatz von KI für solche Aufgaben? Aktuell sind Menschen noch überlegen, aber die Geschwindigkeit und Kosteneffizienz der KI machen sie zu einem wertvollen Werkzeug – besonders für Vorarbeiten oder einfachere Reproduktionen.
Fazit
PaperBench zeigt, dass KI-Systeme in der Forschung bereits beachtliche Fähigkeiten besitzen, aber noch nicht an die strategische Denkweise und Anpassungsfähigkeit von Menschen heranreichen. Die Kombination aus menschlicher Expertise und KI-Unterstützung könnte der Schlüssel für die Zukunft sein.
Weitere Informationen:
- Der Benchmark steht als Open Source auf GitHub zur Verfügung.
- OpenAI bietet auch eine vereinfachte Version namens PaperBench Code-Dev an, die sich auf die Code-Entwicklung konzentriert und die Kosten um 85 % reduziert.
Quellen: OpenAI, GitHub
Disclaimer: Dieser Blogbeitrag wurde von einem Menschen geschrieben – zumindest vorerst noch! 😉
Ich stehe in keiner Beziehung zu genannten Unternehmen, Organisationen oder Personen, es sei denn, ich habe dies ausdrücklich erwähnt. Habe ich das erwähnt…?
Bilder, Text, Audios und Videos können KI generiert sein…
Bis zum nächsten Beitrag…
