Research·Europe
19 Tage ohne menschliche Hilfe: KI-Benchmark MirrorCode lässt Modelle tagelang autonom programmieren
Global AI Watch · Editorial Team··5 min read

Redaktionelle Einschätzung
MirrorCode's assessment of autonomous programming repositions AI development towards tackling large-scale software challenges efficiently.
Kernpunkte
- 1Epoch AI testet mit dem Benchmark MirrorCode, ob KI-Modelle komplette Programme ohne Zugang zum Originalcode nachbauen können.
- 2Claude Opus 4.7 führt mit 56 Prozent Lösungsrate und reimplementierte ein 16.000-Zeilen-Toolkit in 14 Stunden.
- 3An den komplexesten Aufgaben scheitern jedoch noch alle getesteten Modelle.
- 4Der Artikel 19 Tage ohne menschliche Hilfe: KI-Benchmark MirrorCode lässt Modelle tagelang autonom programmieren erschien zuerst auf The Decoder.
Epoch AI testet mit dem Benchmark MirrorCode, ob KI-Modelle komplette Programme ohne Zugang zum Originalcode nachbauen können. Claude Opus 4.7 führt mit 56 Prozent Lösungsrate und reimplementierte ein 16.000-Zeilen-Toolkit in 14 Stunden. An den komplexesten Aufgaben scheitern jedoch noch alle getesteten Modelle. Der Artikel 19 Tage ohne menschliche Hilfe: KI-Benchmark MirrorCode lässt Modelle tagelang autonom programmieren erschien zuerst auf The Decoder.
Free Daily Briefing
Top AI intelligence stories delivered each morning.