La IA ya no es solo una herramienta defensiva
Durante anos, la promesa mas visible de la inteligencia artificial en ciberseguridad fue defensiva: detectar anomalias, priorizar vulnerabilidades, resumir alertas, asistir a equipos SOC y acelerar la respuesta a incidentes. Esa promesa sigue siendo real. Pero la literatura academica reciente muestra la otra mitad del problema: la misma IA tambien reduce el costo de atacar.
El paper Forewarned is Forearmed: A Survey on Large Language Model-based Agents in Autonomous Cyberattacks propone una lectura inquietante: los agentes basados en grandes modelos de lenguaje ya no deben entenderse como chatbots pasivos, sino como entidades capaces de navegar, usar herramientas, razonar, recordar pasos anteriores, generar codigo, producir contenido enganoso y ejecutar secuencias de accion.
Los autores llaman a este fenomeno Cyber Threat Inflation: una inflacion de amenazas causada por la reduccion simultanea de tres barreras historicas del ciberataque: tiempo, conocimiento experto y recursos.
Fuentes academicas principales
- Forewarned is Forearmed: A Survey on Large Language Model-based Agents in Autonomous Cyberattacks
- A Survey of Attacks on Large Language Models
- LLM Agents can Autonomously Hack Websites
- Cybench: A Framework for Evaluating Cybersecurity Capabilities and Risks of Language Models
- Securing AI Agents Against Prompt Injection Attacks
- NIST AI 100-2e2025: Adversarial Machine Learning
Del chatbot al agente operativo
La diferencia entre un modelo conversacional y un agente es critica. Un chatbot responde. Un agente puede planificar, llamar herramientas, consultar documentos, usar un navegador, ejecutar comandos, interactuar con APIs y adaptar su estrategia si falla. Esa arquitectura convierte al modelo en una capa de decision encima de sistemas reales.
El survey de Xu y colaboradores organiza las capacidades ofensivas de estos agentes en componentes como scouting, memoria, razonamiento y accion. En terminos de ciberseguridad, eso se parece cada vez mas a una cadena de ataque: reconocer el entorno, formular hipotesis, probar vectores, observar resultados y continuar.
La novedad no es que la IA "quiera" atacar. La novedad es que puede disminuir el esfuerzo humano necesario para convertir instrucciones generales en pasos tecnicos ejecutables. Eso cambia la economia del ataque.
La evidencia experimental: agentes que hackean sitios
Uno de los papers fundacionales de esta discusion es LLM Agents can Autonomously Hack Websites. Sus autores muestran que agentes LLM pueden explotar vulnerabilidades web sin conocerlas previamente, incluyendo tareas como extraccion ciega de esquemas de base de datos e inyecciones SQL, usando herramientas y contexto extendido.
El punto relevante no es convertir el paper en alarma sensacionalista. Los resultados dependen de modelos frontier, entornos especificos y condiciones controladas. Pero marcan una direccion: la capacidad ofensiva ya no esta limitada a que un humano escriba cada paso. La IA puede explorar, fallar, corregir y probar de nuevo.
Esto se conecta con el caso Rutify y otras alertas recientes solo como contexto general: cuando credenciales, APIs o tokens quedan expuestos, un agente con herramientas podria ayudar a automatizar reconocimiento, correlacion de datos o abuso de accesos. La diferencia entre tener datos filtrados y convertirlos en una campana efectiva se achica.
Benchmarks: medir antes de opinar
La investigacion seria no se queda en afirmaciones generales. Por eso benchmarks como Cybench son importantes. Cybench propone 40 tareas profesionales tipo Capture the Flag, provenientes de cuatro competencias, con entornos donde un agente puede ejecutar comandos y observar salidas. Ademas, divide tareas complejas en subtareas para medir progreso parcial.
Este enfoque ayuda a responder una pregunta central: que tan capaces son los modelos en tareas de ciberseguridad, y bajo que scaffolds o estructuras de agente mejoran o fallan? Sin benchmarks, la conversacion se vuelve puro marketing o puro miedo. Con benchmarks, se puede comparar modelos, medir limites y construir politicas de despliegue mas realistas.
CAIBench, otro marco reciente, empuja en la misma direccion: evaluar agentes en dominios ofensivos y defensivos para medir relevancia laboral, riesgo operativo y capacidades reales. La seguridad de la IA necesitara cada vez mas este tipo de evaluaciones continuas, no auditorias unicas antes de produccion.
Prompt injection: el viejo problema de separar datos e instrucciones
Los agentes conectados a herramientas abren una vulnerabilidad particular: prompt injection. En sistemas RAG o agentes que leen correos, paginas web, tickets, documentos o respuestas de APIs, un atacante puede insertar instrucciones maliciosas dentro del contexto que el agente procesara como si fuera informacion normal.
El paper Securing AI Agents Against Prompt Injection Attacks propone un benchmark con 847 casos adversariales repartidos en cinco categorias: inyeccion directa, manipulacion de contexto, override de instrucciones, exfiltracion de datos y contaminacion entre contextos. Tambien evalua defensas multicapa como filtrado de contenido, deteccion de anomalias por embeddings, guardrails jerarquicos y verificacion de respuesta.
Su resultado es util como senal, mas que como receta final: las defensas combinadas reducen fuertemente la tasa de ataques exitosos, pero no eliminan el problema. En agentes con acceso a informacion sensible, una reduccion estadistica no basta si no hay control de permisos, sandboxing, auditoria y confirmacion humana para acciones de alto impacto.
La taxonomia de NIST: ordenar el mapa de amenazas
NIST AI 100-2e2025 entrega un marco oficial para hablar de adversarial machine learning. Su valor es ordenar un campo que suele mezclarse: ataques de evasion, poisoning, privacidad, extraccion de modelos, manipulacion de entradas y mitigaciones. Para equipos no academicos, esa taxonomia sirve como idioma comun entre seguridad, datos, legal, producto y direccion.
En el auge de la IA generativa, esta taxonomia debe ampliarse en la practica hacia agentes: no solo proteger el modelo, sino el sistema completo que lo rodea. Eso incluye prompts del sistema, herramientas, conectores, credenciales, memorias, bases vectoriales, logs, politicas de autorizacion y usuarios humanos.
El cambio de fondo: inflacion de amenaza
Cyber Threat Inflation no significa que todos los atacantes se vuelvan expertos de inmediato. Significa que el piso minimo sube. Un actor con poca experiencia puede apoyarse en modelos para escribir phishing mas convincente, entender errores, generar scripts, traducir documentacion tecnica, resumir dumps de datos o automatizar pasos de reconocimiento.
Tambien significa que los defensores enfrentan mas volumen. Si atacar cuesta menos, se intentan mas ataques. Si probar variantes cuesta menos, aparecen mas campanas personalizadas. Si correlacionar datos filtrados cuesta menos, aumenta el riesgo de fraude dirigido.
La consecuencia para organizaciones publicas y privadas es clara: no basta con comprar herramientas de IA para defensa. Hay que redisenar procesos de seguridad bajo la premisa de que el atacante tambien tiene IA.
Que deberian hacer empresas y Estado
Primero, tratar a los agentes como usuarios privilegiados. Si un agente puede leer correo, consultar bases, llamar APIs o ejecutar acciones, debe tener identidad, permisos minimos, logs, limites de tasa y revocacion de acceso. No es "solo un asistente". Es una superficie operacional.
Segundo, separar instrucciones, datos y herramientas. La seguridad de agentes requiere que el sistema no confunda contenido externo con ordenes. Esto implica filtros, politicas de tool use, verificacion de contexto, listas de acciones permitidas y aprobacion humana para operaciones sensibles.
Tercero, evaluar continuamente. Benchmarks internos, red teaming, pruebas de prompt injection, simulaciones de fuga de datos y ejercicios de abuso de herramientas deben formar parte del ciclo de vida. Un modelo seguro hoy puede no serlo despues de conectarlo a nuevos datos o permisos.
Cuarto, mantener fundamentos clasicos: MFA, minimo privilegio, segmentacion, rotacion de secretos, monitoreo de credenciales filtradas, SBOM, gestion de vulnerabilidades y respuesta a incidentes. La IA no reemplaza higiene basica; la vuelve mas urgente.
Lectura para Chile y America Latina
La region esta en un momento delicado. Empresas, universidades y servicios publicos quieren adoptar IA rapidamente, pero muchas organizaciones aun arrastran deuda tecnica: sistemas heredados, integraciones fragiles, baja madurez de logs, cuentas compartidas y controles de acceso inconsistentes.
Agregar agentes de IA sobre esa base puede amplificar productividad, pero tambien ampliar el radio de error. Un agente conectado a datos tributarios, salud, educacion, municipalidades o banca no puede desplegarse con la misma ligereza que un chatbot de preguntas frecuentes.
La oportunidad esta en usar la investigacion academica antes del accidente. Estos papers ofrecen un mapa: medir capacidades, asumir que el atacante tambien automatiza, proteger herramientas y credenciales, y construir gobernanza desde el diseno.
Conclusion
La ciberseguridad en el auge de la IA no se reduce a bloquear prompts peligrosos. Es una transformacion de la economia del ataque y la defensa. Los modelos reducen friccion, los agentes convierten lenguaje en accion, y las organizaciones deben decidir cuanto poder delegan a sistemas que todavia pueden confundir instrucciones, datos y objetivos.
La leccion del paper es sobria: estar advertidos es estar armados. No porque la IA vuelva inevitable el desastre, sino porque permite anticipar una nueva clase de riesgo antes de desplegar agentes sobre infraestructura critica.