Research·Europe

19 Tage ohne menschliche Hilfe: KI-Benchmark MirrorCode lässt Modelle tagelang autonom programmieren

Global AI Watch · Editorial Team·26 June 2026·5 min read

Redaktionelle Einschätzung

MirrorCode's assessment of autonomous programming repositions AI development towards tackling large-scale software challenges efficiently.

Kernpunkte

1Epoch AI testet mit dem Benchmark MirrorCode, ob KI-Modelle komplette Programme ohne Zugang zum Originalcode nachbauen können.
2Claude Opus 4.7 führt mit 56 Prozent Lösungsrate und reimplementierte ein 16.000-Zeilen-Toolkit in 14 Stunden.
3An den komplexesten Aufgaben scheitern jedoch noch alle getesteten Modelle.
4Der Artikel 19 Tage ohne menschliche Hilfe: KI-Benchmark MirrorCode lässt Modelle tagelang autonom programmieren erschien zuerst auf The Decoder.

Epoch AI testet mit dem Benchmark MirrorCode, ob KI-Modelle komplette Programme ohne Zugang zum Originalcode nachbauen können. Claude Opus 4.7 führt mit 56 Prozent Lösungsrate und reimplementierte ein 16.000-Zeilen-Toolkit in 14 Stunden. An den komplexesten Aufgaben scheitern jedoch noch alle getesteten Modelle. Der Artikel 19 Tage ohne menschliche Hilfe: KI-Benchmark MirrorCode lässt Modelle tagelang autonom programmieren erschien zuerst auf The Decoder.

Free Daily Briefing

Top AI intelligence stories delivered each morning.

Subscribe Free →