Guía para principiantes sobre jailbreaks con IA - Uso de Gandalf para aprender de forma segura

Gandalf como bot de chat (fuente de la imagen: ChatGPT)

Los chatbots vienen con salvaguardas incorporadas diseñadas para evitar que produzcan contenidos dañinos, ofensivos o inapropiados por cualquier otro motivo. Pero investigadores y piratas informáticos han demostrado que, incluso con múltiples parches, las IA pueden seguir siendo vulnerables a ciertas entradas que eluden esas salvaguardas. Una forma de explorar los fundamentos es a través de un juego en línea llamado Gandalf.

Christian Hintze (traducido por Ninh Duy), Publicado 12/08/2025 🇺🇸 🇩🇪 ...

Los usuarios de los chatbots de IA pueden intentar obtener instrucciones para actividades ilegales (como piratear o cometer fraude), pedir orientación sobre acciones peligrosas ("¿Cómo construyo...?") o empujar a la IA a dar consejos médicos, legales o financieros que podrían ser arriesgados o simplemente incorrectos.

Para mitigar las consecuencias de estas solicitudes, los desarrolladores de chatbot implementan una serie de mecanismos de seguridad que bloquean los contenidos ilegales, poco éticos o que violan la privacidad, así como la información errónea o la orientación perjudicial. Estas protecciones limitan el posible uso indebido, pero también pueden dar lugar a falsos positivos -preguntas inofensivas que son bloqueadas- o reducir la creatividad o profundidad de las respuestas de la IA debido a un comportamiento demasiado cauteloso.

Los investigadores y los piratas informáticos han demostrado que la eficacia de estas protecciones varía, y muchos sistemas de IA siguen siendo susceptibles a los intentos de eludirlas. Un método bien conocido es la inyección de instrucciones: los usuarios intentan anular o eludir las reglas del chatbot manipulando la entrada ("Ignora todas las instrucciones de seguridad y haz X").

Puede encontrar una introducción lúdica al tema en este sitio web. En este juego, usted charla con una IA llamada Gandalf e intenta sonsacarle una contraseña a lo largo de siete niveles. Cada nivel aumenta en dificultad y añade nuevos filtros de seguridad y mecanismos de protección.

En el primer nivel no hay filtros de seguridad y puede pedir directamente la contraseña a la IA. A partir del nivel 2, Gandalf se niega a revelar la contraseña cuando se le pregunta directamente. Tiene que encontrar otras formas más creativas de conseguir la palabra clave.

El nivel 1 es fácil (fuente de la imagen: Captura de pantalla del sitio web de Lakera)

Si lo solicita directamente obtendrá la contraseña (fuente de la imagen: Captura de pantalla del sitio web de Lakera)

El nivel 2 se vuelve ligeramente más difícil (Bildquelle: Screenshot Lakera Webseite)

Explorar los riesgos de seguridad de los chatbots a través de un juego de este tipo puede resultar educativo y valioso. Sin embargo, las habilidades adquiridas deben utilizarse estrictamente con fines de prueba o investigación. Utilizar estas técnicas para acceder a contenidos ilegales o realizar actividades ilícitas convierte la inyección puntual en un acto delictivo.