Hackeados por la poesía: por qué los modelos de IA fracasan ante las indicaciones poéticas

Según un nuevo estudio, los mecanismos de seguridad de los grandes modelos lingüísticos pueden burlarse con poemas. (Fuente de la imagen: Pixabay)

Los resultados del estudio revelan que los grandes modelos lingüísticos son susceptibles a las entradas escritas en forma poética. En el estudio, los poemas escritos a mano sortearon con éxito las medidas de seguridad de la IA en el 62% de los casos.

Marius Müller (traducido por Ninh Duy), Publicado 11/25/2025 🇺🇸 🇩🇪 ...

AI Science

OpenAI y otras empresas similares invierten mucho tiempo y recursos en crear sistemas de seguridad diseñados para evitar que sus modelos de IA generen contenidos perjudiciales o poco éticos. Sin embargo, como un estudio publicado el 19 de noviembre dede 2025, demuestra que estas defensas pueden eludirse fácilmente. Según las conclusiones, todo lo que se necesita son unas cuantas indicaciones poéticas redactadas con ingenio.

Investigadores de DEXAI, la Universidad de la Sapienza de Roma y la Escuela de Estudios Avanzados Sant'Anna probaron 25 modelos lingüísticos de nueve proveedores diferentes, utilizando tanto poemas elaborados a mano como poemas generados automáticamente. Por término medio, los poemas elaborados a mano que contenían instrucciones dañinas lograron eludir las medidas de seguridad alrededor del 62% de las veces, mientras que las entradas poéticas generadas automáticamente alcanzaron una tasa de éxito de alrededor del 43%. En algunos casos, las defensas de los modelos fueron vulneradas más del 90% de las veces.

Según los investigadores, esta vulnerabilidad se debe a que los filtros de seguridad de los modelos lingüísticos se entrenan principalmente con lenguaje directo y factual. Cuando se les presenta una entrada poética -rica en metáforas, ritmo y rima- los modelos tienden a interpretarla como una expresión creativa y no como una amenaza potencial. El estudio Adversarial Poetry pone de relieve una nueva dimensión en la seguridad de la IA, al revelar una debilidad estilística en los grandes modelos lingüísticos. El tema también ha ganado tracción en Redditdonde muchos usuarios describen el concepto como "bastante interesante" o "guay", mientras que otros expresan serias preocupaciones sobre sus implicaciones para la seguridad de la IA.