¿Hackear un chatbot con un poema? Sí, es posible

**Noticias** · #1 05/12/25, 14:00:21

Un nuevo estudio del Icaro Lab, ligado a la Universidad Sapienza de Roma, revela que los sistemas de IA pueden ser vulnerables a un método sorprendente: pedir contenido prohibido mediante poesía. Los investigadores descubrieron que modificar únicamente el estilo de una solicitud —sin ocultar realmente la intención dañina— permite saltarse mecanismos de seguridad destinados a bloquear información sensible, ilegal o peligrosa. Este fenómeno, bautizado como “poesía adversarial”, logra que muchos modelos generen respuestas prohibidas simplemente por recibir la petición en forma poética o en estructuras similares a acertijos. El equipo creó 20 poemas con solicitudes explícitamente vetadas y los probó con 25 chatbots de empresas como Google, OpenAI, Meta, Anthropic y xAI. De media, los modelos respondieron de forma inadecuada en el 62 % de los casos. Google resultó especialmente vulnerable, con Gemini 2.5 Pro llegando a fallar el 100 % de las veces, mientras que los modelos más pequeños, como GPT-5 nano, mostraron mucha mayor resistencia. Según los autores, la clave está en que los LLM predicen palabras de manera secuencial y ciertas estructuras poéticas rompen patrones esperados, lo que dificulta la detección de intenciones dañinas. El estudio no revela los poemas originales para evitar usos maliciosos, aunque proporciona ejemplos “saneados” que ilustran el concepto. Los investigadores alertaron previamente a las empresas y a la policía debido al tipo de contenido involucrado. Aunque la reacción de las compañías fue desigual, el hallazgo deja claro que los sistemas de IA deben reforzar su capacidad para detectar peticiones peligrosas incluso cuando están presentadas como enigmas o versos. La vulnerabilidad abre un nuevo frente en la seguridad de la IA.

fuente