OpenAI, en colaboración con la firma de inversión Paradigm, confirmó el lanzamiento de EVMbench. Se trata de un nuevo estándar de evaluación diseñado para medir con precisión quirúrgica la capacidad de los agentes de IA para detectar, explotar y parchear vulnerabilidades en contratos inteligentes de la Ethereum Virtual Machine (EVM).
Este sistema utiliza un dataset de más de 120 vulnerabilidades reales extraídas de protocolos que han sufrido ataques en el pasado, poniendo a prueba la seguridad de un ecosistema que hoy custodia más de 100.000 millones de dólares en activos on-chain.
La introducción de EVMbench responde a una evolución estructural observada entre 2024 y 2025, donde los agentes de IA pasaron de ser simples bots de trading a sistemas autónomos capaces de interactuar con la composabilidad de DeFi.
Para entender la magnitud del cambio, debemos compararlo con el exploit de The DAO en 2016. En aquel entonces, la detección y la respuesta de la comunidad ante el drenaje de fondos tomó días de debate manual y coordinación humana intensa.
Con herramientas como EVMbench, un agente de IA actual puede identificar vectores de ataque y ejecutar una contramedida (o un exploit) en cuestión de milisegundos, operando al ritmo de la generación de bloques de la red. Esta diferencia cuantitativa marca el paso de una seguridad basada en la vigilancia humana a una basada en la defensa algorítmica.
Un cambio de paradigma estructural en los Agentes de IA
Uno de los puntos clave es la redefinición de la Auditoría y el Costo de Seguridad. Tradicionalmente, la seguridad de un protocolo dependía de firmas de auditoría humana cuyos servicios pueden costar hasta $150,000 y tardar semanas.
La democratización de herramientas como EVMbench permite que agentes de IA realicen escaneos exhaustivos en milisegundos por una fracción ínfima del costo computacional (estimado en menos de $1 por ejecución). Esto permite que protocolos pequeños tengan seguridad de alto nivel, pero también otorga a atacantes con pocos recursos una “supercomputadora de exploits”.
Por otro lado, también hay que tener en cuenta la aparición de “Actores Económicos No Humanos”: Estamos ante el nacimiento de una nueva categoría de participantes financieros. La blockchain permite que estos agentes operen wallets y ejecuten estrategias sin KYC ni intervención humana.
También nos encontramos hacia una “Carrera Armamentista” de Código, ya que a diferencia de otros sectores, en cripto el código es el dinero. EVMbench permite entrenar IAs ofensivas que pueden lanzar ataques automatizados masivos. Esto obligará a los desarrolladores a integrar IAs defensivas en el propio “core” de sus contratos inteligentes para parchear errores en tiempo real antes de que un atacante los vea. No es solo un cambio técnico, es una transición hacia mercados autónomos donde humanos y máquinas comparten el control del capital.
Pruebas preliminares indican que modelos avanzados han logrado desarrollar exploits por valor de $4,6 millones, demostrando que la IA ya puede comportarse como un atacante sofisticado de nivel estatal.
Este fenómeno podría redefinir incluso el MEV (Maximal Extractable Value). Los validadores de la red podrían empezar a utilizar agentes entrenados con EVMbench para identificar transacciones maliciosas en el mempool y “front-runnearlas” para proteger al usuario o capturar el beneficio, convirtiendo la seguridad en un modelo de negocio nativo de la red
Conclusión
El éxito de este protocolo temporal de OpenAI se medirá por la capacidad de los desarrolladores de Ethereum para integrar estas herramientas antes que los actores maliciosos. Lo que validará esta tendencia será el volumen de fondos recuperados por “white-hats” automáticos en comparación con los fondos perdidos en ataques convencionales durante el próximo semestre
