Research·Europe
Neuer Benchmark zeigt: Claude Mythos und GPT-5.5 können echte Browser-Exploits selbstständig entwickeln
Global AI Watch · Editorial Team··4 min read

Redaktionelle Einschätzung
ExploitBench may catalyze new cybersecurity regulations, similar to ImageNet's impact on AI vision standards.
Kernpunkte
- 1Forscher der Carnegie Mellon University haben mit ExploitBench einen neuen Benchmark vorgestellt, der misst, wie weit KI-Agenten bei der Ausnutzung realer Sicherheitslücken in Googles V8-Engine kommen.
- 2Mythos liegt deutlich vor GPT-5.5, aber das kostet.
- 3Der Artikel Neuer Benchmark zeigt: Claude Mythos und GPT-5.5 können echte Browser-Exploits selbstständig entwickeln erschien zuerst auf The Decoder.
Forscher der Carnegie Mellon University haben mit ExploitBench einen neuen Benchmark vorgestellt, der misst, wie weit KI-Agenten bei der Ausnutzung realer Sicherheitslücken in Googles V8-Engine kommen. Mythos liegt deutlich vor GPT-5.5, aber das kostet. Der Artikel Neuer Benchmark zeigt: Claude Mythos und GPT-5.5 können echte Browser-Exploits selbstständig entwickeln erschien zuerst auf The Decoder.
Free Daily Briefing
Top AI intelligence stories delivered each morning.