Mensch gegen Maschine: KI ist billiger und schneller

Mensch gegen Maschine: KI ist billiger und schneller, aber Doktoranden sind besser

In der Welt der wissenschaftlichen Forschung ist die Fähigkeit, Studien und Experimente zu reproduzieren, ein entscheidender Maßstab für Glaubwürdigkeit und Fortschritt. Doch wie gut können KI-Systeme diese Aufgabe im Vergleich zu menschlichen Forschern bewältigen? OpenAI hat mit PaperBench einen neuen Benchmark vorgestellt, der genau das testet – mit überraschenden Ergebnissen.

PaperBench: Ein neuer Maßstab für KI-Fähigkeiten

PaperBench fordert KI-Systeme heraus, wissenschaftliche Arbeiten eigenständig zu reproduzieren. Dafür müssen sie 20 ausgewählte Paper der renommierten ICML 2024-Konferenz nachvollziehen – von der Implementierung der Methoden bis zur Reproduktion der Ergebnisse. Die ausgewählten Arbeiten decken zwölf verschiedene Forschungsgebiete ab, darunter Deep Reinforcement Learning und probabilistische Methoden.

Um die Bewertung fair und objektiv zu gestalten, entwickelte OpenAI eine detaillierte Rubrik mit über 8.300 Kriterien, die in Zusammenarbeit mit den Original-Autoren erstellt wurde. Die KI-Systeme dürfen das Internet nutzen, aber nicht auf den Original-Code der Autoren zugreifen. Stattdessen müssen sie einen reproduzierbaren Code-Korpus erstellen und ein Skript namens „reproduce.sh“ bereitstellen, das alle Experimente automatisch ausführt.

KI vs. Mensch: Die Ergebnisse

Die ersten Tests zeigen deutliche Grenzen der aktuellen KI-Modelle:

  • Claude 3.5 Sonnet (Anthropic) erreichte eine Replikationsrate von 21 %.
  • OpenAIs o1 verbesserte sich mit einem speziellen Agenten-Framework auf 24,4 %.
  • Kleinere Modelle wie GPT-40 (4,1 %) oder Gemini 2.0 Flash (3,2 %) schnitten deutlich schlechter ab.

Zum Vergleich rekrutierte OpenAI acht Doktoranden von Top-Universitäten wie Berkeley und Cambridge. Diese erreichten nach 48 Stunden Arbeit eine Replikationsrate von 41,4 % – also fast doppelt so viel wie das beste KI-System.


Ein paar Gedanken zum Thema, zum anhören:

Dauer: 13 min. 31 sek.

Tipp: Den Podcast gibt es zum Downloaden und „mitnehmen“, für später. Einfach hier oben auf „Wie gut reproduzieren KI-Systeme wissenschaftliche Forschungsergebnisse“ klicken. Dann auf Herunterladen.
Zum Downloaden auf Mega, auf´s Bild klicken

Warum sind Menschen (noch) besser?

Die Studie zeigt interessante Unterschiede im Arbeitsverhalten:

  • KI-Systeme schreiben in der ersten Stunde viel Code, erreichen dann aber ein Plateau. Oft beenden sie ihre Arbeit vorzeitig, weil sie fälschlicherweise denken, fertig zu sein.
  • Menschen brauchen länger für die Einarbeitung, verbessern ihre Arbeit dann aber kontinuierlich. Sie können strategischer vorgehen und komplexe Probleme besser lösen.

Nur Claude 3.5 Sonnet nutzte die verfügbare Zeit konsequent aus – ein Hinweis darauf, dass fortgeschrittene Modelle bereits bessere Planungsfähigkeiten entwickeln.

Wirtschaftlichkeit und Zukunftsperspektiven

OpenAI setzte einen KI-basierten Richter ein, um die Ergebnisse zu bewerten. Dieser erreichte eine Genauigkeit von 83 % im Vergleich zu menschlichen Experten – bei Kosten von nur 66 Dollar pro Paper (statt mehrerer tausend Dollar für menschliche Bewerter).

Dennoch stellt sich die Frage: Lohnt sich der Einsatz von KI für solche Aufgaben? Aktuell sind Menschen noch überlegen, aber die Geschwindigkeit und Kosteneffizienz der KI machen sie zu einem wertvollen Werkzeug – besonders für Vorarbeiten oder einfachere Reproduktionen.

Fazit

PaperBench zeigt, dass KI-Systeme in der Forschung bereits beachtliche Fähigkeiten besitzen, aber noch nicht an die strategische Denkweise und Anpassungsfähigkeit von Menschen heranreichen. Die Kombination aus menschlicher Expertise und KI-Unterstützung könnte der Schlüssel für die Zukunft sein.

Weitere Informationen:

  • Der Benchmark steht als Open Source auf GitHub zur Verfügung.
  • OpenAI bietet auch eine vereinfachte Version namens PaperBench Code-Dev an, die sich auf die Code-Entwicklung konzentriert und die Kosten um 85 % reduziert.

Quellen: OpenAI, GitHub


Disclaimer: Dieser Blogbeitrag wurde von einem Menschen geschrieben – zumindest vorerst noch! 😉

Ich stehe in keiner Beziehung zu genannten Unternehmen, Organisationen oder Personen, es sei denn, ich habe dies ausdrücklich erwähnt. Habe ich das erwähnt…?

Bilder, Text, Audios und Videos können KI generiert sein…

Bis zum nächsten Beitrag…

Gerhard

KI-Firma Anthropic will endlich in große Sprachmodelle hineinschauen – das Ergebnis ist bizarr

Ein Blick ins Innere der KI: Was Anthropic über Sprachmodelle herausgefunden hat

Große Sprachmodelle (LLMs) faszinieren mit ihren erstaunlichen Fähigkeiten, doch ihr Innenleben bleibt weitgehend ein Rätsel. Wie kommen sie zu ihren Antworten? Welche Mechanismen stecken hinter ihren Entscheidungen? Forscher:innen der KI-Firma Anthropic haben sich genau diese Fragen gestellt und eine innovative Methode entwickelt, um tief in die Funktionsweise von neuronalen Netzwerken einzutauchen. Was sie dabei herausgefunden haben, ist nicht nur erstaunlich, sondern auch ein wenig bizarr.

Wie funktioniert ein Sprachmodell wirklich?

Anthropic, ein von ehemaligen OpenAI-Mitarbeitern gegründetes Unternehmen, hat sich auf die Erforschung sicherer und erklärbarer KI spezialisiert. In ihrer neuesten Studie nutzten sie eine Technik namens „Mechanistic Interpretability“, um zu entschlüsseln, wie Sprachmodelle auf bestimmte Eingaben reagieren. Dabei richteten sie ihr Augenmerk besonders auf sogenannte „aktivierte Neuronen“ – also die Komponenten des Netzwerks, die direkt mit der Generierung bestimmter Outputs verbunden sind.

Die Ergebnisse waren unerwartet: Einige Neuronen kodieren extrem spezifische Konzepte, die weit über simple Wortassoziationen hinausgehen. Laut den Forschern von Anthropic zeigen Sprachmodelle komplexe Verknüpfungen, die selbst für Experten schwer nachvollziehbar sind.

Bizarre Entdeckungen im KI-Kosmos

Eine der wohl verblüffendsten Erkenntnisse: Einzelne Neuronen scheinen ganze abstrakte Konzepte zu speichern. Ein Beispiel ist ein Neuron, das sowohl mit politischer Ideologie als auch mit bestimmten Musikgenres in Verbindung stand – eine Korrelation, die auf den ersten Blick völlig willkürlich erscheint.

Darüber hinaus entdeckten die Wissenschaftler versteckte Strukturen im Modell, die mehr bedeuten könnten als bislang angenommen. Ein Sprachmodell speichert also nicht nur oberflächliche Fakten (wie „Paris = Hauptstadt von Frankreich“), sondern entwickelt eigene komplexe Kategorien, die nicht direkt aus den Trainingsdaten ersichtlich sind.


Ein paar Gedanken zum Thema, zum anhören:

Dauer: 13 min. 12 sek.

Tipp: Den Podcast gibt es zum Downloaden und „mitnehmen“, für später. Einfach hier oben auf „Anthropic – Enthüllung des bizarren Innenlebens großer Sprachmodelle“ klicken. Dann auf Herunterladen.
Zum Downloaden auf Mega, auf´s Bild klicken

Was bedeutet das für die Zukunft der KI?

Diese Entdeckungen werfen neue Fragen zur Transparenz und Steuerbarkeit von KI auf. Wenn einzelne Neuronen unvorhersehbare Zusammenhänge speichern können, besteht die Gefahr, dass KI-Modelle Schlussfolgerungen ziehen, die nicht immer gewünscht oder nachvollziehbar sind. Das verstärkt die Debatte über die sogenannte „Black-Box-Problematik“: Wie sehr können wir einer Technologie vertrauen, die wir selbst nicht vollständig verstehen?

Laut Anthropic könnte die Entschlüsselung dieser Mechanismen langfristig dabei helfen, KI-Systeme sicherer und transparenter zu gestalten. Auch andere Unternehmen wie OpenAI und Google DeepMind arbeiten intensiv daran, die internen Prozesse von KI-Modellen besser nachvollziehbar zu machen.

Fazit: Die Black Box wird entschlüsselt – langsam

Die Forschung von Anthropic zeigt, dass Sprachmodelle weitaus komplexer sind als bisher angenommen. Die Entdeckung von versteckten neuronalen Strukturen könnte dazu beitragen, KI-Modelle nicht nur leistungsfähiger, sondern auch kontrollierbarer zu machen.

Doch bleibt die große Frage: Sind Large Language Models wirklich undurchschaubare „Black Boxes“ – oder fehlen uns einfach noch die richtigen Werkzeuge, um sie zu verstehen?


Disclaimer: Dieser Blogbeitrag wurde von einem Menschen geschrieben – zumindest vorerst noch! 😉

Ich stehe in keiner Beziehung zu genannten Unternehmen, Organisationen oder Personen, es sei denn, ich habe dies ausdrücklich erwähnt. Habe ich das erwähnt…?

Bilder, Text, Audios und Videos können KI generiert sein…

Bis zum nächsten Beitrag…

Gerhard