Research·Europe

Neuer Benchmark zeigt: Claude Mythos und GPT-5.5 können echte Browser-Exploits selbstständig entwickeln

Global AI Watch · Editorial Team··4 min read
Neuer Benchmark zeigt: Claude Mythos und GPT-5.5 können echte Browser-Exploits selbstständig entwickeln
Redaktionelle Einschätzung

ExploitBench may catalyze new cybersecurity regulations, similar to ImageNet's impact on AI vision standards.

Kernpunkte

  • 1Forscher der Carnegie Mellon University haben mit ExploitBench einen neuen Benchmark vorgestellt, der misst, wie weit KI-Agenten bei der Ausnutzung realer Sicherheitslücken in Googles V8-Engine kommen.
  • 2Mythos liegt deutlich vor GPT-5.5, aber das kostet.
  • 3Der Artikel Neuer Benchmark zeigt: Claude Mythos und GPT-5.5 können echte Browser-Exploits selbstständig entwickeln erschien zuerst auf The Decoder.

Forscher der Carnegie Mellon University haben mit ExploitBench einen neuen Benchmark vorgestellt, der misst, wie weit KI-Agenten bei der Ausnutzung realer Sicherheitslücken in Googles V8-Engine kommen. Mythos liegt deutlich vor GPT-5.5, aber das kostet. Der Artikel Neuer Benchmark zeigt: Claude Mythos und GPT-5.5 können echte Browser-Exploits selbstständig entwickeln erschien zuerst auf The Decoder.

Free Daily Briefing

Top AI intelligence stories delivered each morning.

Subscribe Free →

Explore Trackers