GPT-5.5 supera a Claude Opus 4.7 en Terminal-Bench: la batalla del coding agéntico se decide en los benchmarks de tareas reales

Key Takeaways
- 1OpenAI lanzó GPT-5.5 («Spud») la semana pasada con cifras que reordenan el liderazgo en programación agéntica.
- 2Aamir Khollam lo cubre en Interesting Engineering desde el ángulo competitivo: GPT-5.5 alcanza 82,7% en Terminal-Bench 2.0, el benchmark estándar para medir la habilidad de un agente de IA de operar autónomamente en una terminal Unix completando tareas reales… Continúa leyendo » La noticia GPT-5.5 supera a Claude Opus 4.7 en Terminal-Bench: la batalla del coding agéntico se decide en los benchmarks de tareas reales fue publicada originalmente en Wwwhatsnew.com por Natalia Polo.
OpenAI lanzó GPT-5.5 («Spud») la semana pasada con cifras que reordenan el liderazgo en programación agéntica. Aamir Khollam lo cubre en Interesting Engineering desde el ángulo competitivo: GPT-5.5 alcanza 82,7% en Terminal-Bench 2.0, el benchmark estándar para medir la habilidad de un agente de IA de operar autónomamente en una terminal Unix completando tareas reales… Continúa leyendo » La noticia GPT-5.5 supera a Claude Opus 4.7 en Terminal-Bench: la batalla del coding agéntico se decide en los benchmarks de tareas reales fue publicada originalmente en Wwwhatsnew.com por Natalia Polo.