Un estudio recién publicado por Anthropic encontró que agentes avanzados de IA identificaron exploits simulados de contratos inteligentes valorados en $4.6M en objetivos posteriores a marzo de 2025, destacando un riesgo medible para el código de finanzas descentralizadas (DeFi).
El estudio de Anthropic evaluó múltiples modelos de vanguardia —incluyendo Claude Opus 4.5, Sonnet 4.5 y GPT‑5— frente a un benchmark seleccionado de contratos inteligentes del mundo real. Cuando se ejecutaron sobre 405 contratos explotados entre 2020 y 2025, los agentes reprodujeron colectivamente un valor estimado de $550.1M en exploits, una cifra usada para ilustrar la escala y la capacidad. Centrándose en contratos explotados después de marzo de 2025 para evitar contaminación por datos de entrenamiento, el equipo reporta aproximadamente $4.6M en exploits simulados atribuibles a la actividad de los agentes.
De forma separada, la investigación ejecutó agentes de prueba de concepto contra 2,849 contratos recién desplegados en Binance Smart Chain que no tenían vulnerabilidades conocidas en ese momento. En esa pasada, los agentes descubrieron dos errores previamente desconocidos (día cero); uno de esos hallazgos por GPT‑5 generó una ganancia simulada de $3,694 con un costo de API de aproximadamente $3,476. Una vulnerabilidad de día cero es un fallo de software previamente desconocido que puede ser explotado antes de que exista una corrección disponible.
Los autores señalan un ritmo agudo de crecimiento de capacidad: los ingresos por exploits derivados de agentes se duplicaron aproximadamente cada 1.3 meses durante el período observado. El informe también observa que más de la mitad de los exploits en blockchain en 2025 podrían, plausiblemente, haber sido ejecutados de forma autónoma por agentes actuales, subrayando el cambio en el perfil del atacante.
El equipo deliberadamente excluyó contratos explotados antes de marzo de 2025 de ciertos análisis para reducir el riesgo de que los modelos memorizaran ataques pasados. El benchmark combinó la reproducción retrospectiva de ataques conocidos con la sondeación práctica y prospectiva de despliegues recientes para evaluar tanto la replicación de exploits humanos como el descubrimiento de nuevos vectores de ataque.
Hallazgos y metodología del estudio de Anthropic
El estudio enmarca su cifra de $4.6M como un límite inferior conservador basado en actividad simulada impulsada por agentes. “Los resultados del benchmark no son solo retrospectivos: la explotación autónoma rentable puede ocurrir hoy”, afirma el estudio, resumiendo el riesgo práctico demostrado por los experimentos.
Para comerciantes y tesorerías institucionales, los hallazgos implican un riesgo elevado y acelerado de explotación algorítmica contra el código de protocolos, particularmente en contratos recién desplegados y lógica compleja de derivados o generación de rendimiento. Para los equipos de seguridad, el estudio funciona tanto como advertencia como plano de acción: las mismas capacidades de los agentes que permiten la automatización de ataques pueden reaprovecharse para auditorías continuas, fuzzing y pruebas de red-team para detectar debilidades emergentes más rápido que los procesos manuales.
Operativamente, el estrecho margen económico en el exploit de prueba de concepto —donde los costos de API se acercaron a la ganancia simulada— ilustra que la explotación no necesita ser altamente rentable por ataque para ser viable a escala cuando está automatizada.
El estudio de Anthropic cuantifica un riesgo presente y técnicamente reproducible: los agentes de IA pueden tanto recrear exploits históricos como encontrar nuevas vulnerabilidades, produciendo al menos $4.6M en valor de exploits simulados posteriores a marzo de 2025.
