Research·Europe

19 Tage ohne menschliche Hilfe: KI-Benchmark MirrorCode lässt Modelle tagelang autonom programmieren

Global AI Watch · Editorial Team··5 min read
19 Tage ohne menschliche Hilfe: KI-Benchmark MirrorCode lässt Modelle tagelang autonom programmieren
Redaktionelle Einschätzung

MirrorCode's assessment of autonomous programming repositions AI development towards tackling large-scale software challenges efficiently.

Kernpunkte

  • 1Epoch AI testet mit dem Benchmark MirrorCode, ob KI-Modelle komplette Programme ohne Zugang zum Originalcode nachbauen können.
  • 2Claude Opus 4.7 führt mit 56 Prozent Lösungsrate und reimplementierte ein 16.000-Zeilen-Toolkit in 14 Stunden.
  • 3An den komplexesten Aufgaben scheitern jedoch noch alle getesteten Modelle.
  • 4Der Artikel 19 Tage ohne menschliche Hilfe: KI-Benchmark MirrorCode lässt Modelle tagelang autonom programmieren erschien zuerst auf The Decoder.

Epoch AI testet mit dem Benchmark MirrorCode, ob KI-Modelle komplette Programme ohne Zugang zum Originalcode nachbauen können. Claude Opus 4.7 führt mit 56 Prozent Lösungsrate und reimplementierte ein 16.000-Zeilen-Toolkit in 14 Stunden. An den komplexesten Aufgaben scheitern jedoch noch alle getesteten Modelle. Der Artikel 19 Tage ohne menschliche Hilfe: KI-Benchmark MirrorCode lässt Modelle tagelang autonom programmieren erschien zuerst auf The Decoder.

Free Daily Briefing

Top AI intelligence stories delivered each morning.

Subscribe Free →

Explore Trackers