Mano-de-IA

OpenAI ha avivado la competencia de los «coding agents» con el anuncio ayer, día 15 de septiembre, de GPT-5 Codex, una versión de su modelo insignia pensada para ejecutar tareas de desarrollo con asistencia inteligente. De hecho, ya se está desplegando en Terminal, extensión de IDE y web con un plan de disponibilidad que ocurrirá en los próximos días.

La novedad llega con dos cifras alentadoras para OpenAI y para programadores que quieran hacer uso de su herramienta. Por un lado, ha obtenido un 74,5% en SWE-bench Verified, un benchmark de issues fiable. Pero también tenemos un salto de refactorización del 33,9% con GPT-5 a 51,3% con GPT-5 Codex. Algo que indica las mejoras en mantenimiento y edición multiarchivo.

Aun así, para superar a Claude Code, que es la IA referente en código actualmente tras alcanzar un 72,7% en el benchmark SWE-bench Verified, Codex deberá sobresalir en tres frentes: maximizar el rendimiento agente y scaffolding en entornos realistas, ampliar el contexto real junto con la orquestación multiagente y, por último, igualar la integración local con salvaguardas de seguridad y baja latencia. 4 años después desde que OpenAI presentara su primera versión de Codex en 2021, aún está por ver si la siguiente versión mejorará lo visto por el referente de Claude.

Rendimiento agente en SWE-bench

El 74,5% en SWE-bench Verifies es una señal positiva. Pero lo que realmente importa para los equipos de desarrollo es cuántas issues se cierran por hora, cuántos pasos necesita el agente y su coste real en latencia y tokens. Es aquí donde realmente se mide la productividad real, y no solo en el benchmark. Si OpenAI quiere superar a Clade Code, Codex deberá estabilizar el «scaffolding» (lectura de repo, aplicación de parches, ejecución de tests o recuperación de errores) para que su tasa de errores descienda y se traduzca en menos intentos.

Benchmark-SWE

La mejora de refactorización del 33,9% al 51,3% indica que se han producido avances en mantenimiento y edición multiarchivo. Sin embargo, la métric amás importante será la tasa de PRs, donde Claude brilla precisamente como herramienta de «agentic coding». En definitiva: más throughput y menos obstáculos.

Métrica de Rendimiento GPT-5 (Base) GPT-5 Codex (Especializado) Mejora Relativa
SWE-bench Verified 72.8% 74.5% +2.3%
Refactorización de Código 33.9% 51.3% +51.3%
Resistencia a Inyección de Prompts N/D 0.98 / 1.0 N/A
Rechazo de Malware N/D 1.0 / 1.0 N/A

Que entienda proyectos grandes y trabaje en varios archivos

Para competir en monorepos y apps potentes, Codex tiene que manejar contexto real de muchos archivos, mantener la coherencia de estilo y coordinar bien los cambios en módulos relacionados. De hecho, Claude Code destaca por un mapeo de todo el proyecto y su edición coordinada. Además, también deberá avanzar en su faceta «multiagente», siendo capaz de sincronizar tareas como generar código, escribir tests y revisar diffs al mismo tiempo de manera exitosa.

Esta práctica reduce ciclos de feedback y ayuda a que los cambios se produzcan con éxito siempre que el agente gestione bien el estado y los fallos de test. Si GPT-5 es capaz de crear una memoria de trabajo estable y una lectura fiable de dependencias, podrá recortar la ventaja de Claude Code en repos grandes.

Integración local, IDE y seguridad

El punto más importante lo encontramos en el uso diario de este asistente: latencia baja, control preciso de cambios y seguridad frente a inyecciones en código. Claude Code es fuerte con la integración local con terminal e IDE, aprobaciones explícitas, tests y PRs. Codex deberá igualar ese buen uso en Terminal, extensión de IDE y Web con diffs claros, historial de decisiones del agente y «guardrails» que eviten cualquier modificación peligrosa o filtrado de información.

OpenAI adelanta que se producirá un despliegue en los próximos días para medir la estabilidad, privacidad y tiempos en escenarios reales. Lo que será clave para ver si consiguen convencer por encima de Claude Code. Si Codex ofrece rapidez, controles ergonómicos y seguridad, sin sacrificar la precisión, podríamos estar ante un cambio de paradigma en los asistentes para programación.

Característica / Métrica GPT-5 Codex (OpenAI) Claude Code (Anthropic) Líder Actual
SWE-bench Verified 74.5% 72.7% GPT-5 Codex
Gestión de Contexto (Proyectos grandes) Mejorado, foco en multiarchivo Superior, con 'Memory Files' Claude Code
Integración Local (CLI/IDE) Despliegue inicial en VS Code, Cursor Integración madura y robusta Claude Code
Ecosistema Empresarial Integrado en planes ChatGPT Plan específico ($200/mes) con escaneo de seguridad Claude Code

 

Fuente: softzone

¿Quién está en línea?

Hay 6486 invitados y ningún miembro en línea