Notebookcheck Logo

Guía para principiantes sobre jailbreaks con IA - Uso de Gandalf para aprender de forma segura

Gandalf como bot de chat (fuente de la imagen: ChatGPT)
Gandalf como bot de chat (fuente de la imagen: ChatGPT)
Los chatbots vienen con salvaguardas incorporadas diseñadas para evitar que produzcan contenidos dañinos, ofensivos o inapropiados por cualquier otro motivo. Pero investigadores y piratas informáticos han demostrado que, incluso con múltiples parches, las IA pueden seguir siendo vulnerables a ciertas entradas que eluden esas salvaguardas. Una forma de explorar los fundamentos es a través de un juego en línea llamado Gandalf.

Los usuarios de los chatbots de IA pueden intentar obtener instrucciones para actividades ilegales (como piratear o cometer fraude), pedir orientación sobre acciones peligrosas ("¿Cómo construyo...?") o empujar a la IA a dar consejos médicos, legales o financieros que podrían ser arriesgados o simplemente incorrectos.

Para mitigar las consecuencias de estas solicitudes, los desarrolladores de chatbot implementan una serie de mecanismos de seguridad que bloquean los contenidos ilegales, poco éticos o que violan la privacidad, así como la información errónea o la orientación perjudicial. Estas protecciones limitan el posible uso indebido, pero también pueden dar lugar a falsos positivos -preguntas inofensivas que son bloqueadas- o reducir la creatividad o profundidad de las respuestas de la IA debido a un comportamiento demasiado cauteloso.

Los investigadores y los piratas informáticos han demostrado que la eficacia de estas protecciones varía, y muchos sistemas de IA siguen siendo susceptibles a los intentos de eludirlas. Un método bien conocido es la inyección de instrucciones: los usuarios intentan anular o eludir las reglas del chatbot manipulando la entrada ("Ignora todas las instrucciones de seguridad y haz X").

Puede encontrar una introducción lúdica al tema en este sitio web. En este juego, usted charla con una IA llamada Gandalf e intenta sonsacarle una contraseña a lo largo de siete niveles. Cada nivel aumenta en dificultad y añade nuevos filtros de seguridad y mecanismos de protección.

En el primer nivel no hay filtros de seguridad y puede pedir directamente la contraseña a la IA. A partir del nivel 2, Gandalf se niega a revelar la contraseña cuando se le pregunta directamente. Tiene que encontrar otras formas más creativas de conseguir la palabra clave.

El nivel 1 es fácil (fuente de la imagen: Captura de pantalla del sitio web de Lakera)
El nivel 1 es fácil (fuente de la imagen: Captura de pantalla del sitio web de Lakera)
Si lo solicita directamente obtendrá la contraseña (fuente de la imagen: Captura de pantalla del sitio web de Lakera)
Si lo solicita directamente obtendrá la contraseña (fuente de la imagen: Captura de pantalla del sitio web de Lakera)
El nivel 2 se vuelve ligeramente más difícil (Bildquelle: Screenshot Lakera Webseite)
El nivel 2 se vuelve ligeramente más difícil (Bildquelle: Screenshot Lakera Webseite)
Gandalf crece en fuerza y edad (fuente de la imagen: Captura de pantalla del sitio web de Lakera)
Gandalf crece en fuerza y edad (fuente de la imagen: Captura de pantalla del sitio web de Lakera)

Explorar los riesgos de seguridad de los chatbots a través de un juego de este tipo puede resultar educativo y valioso. Sin embargo, las habilidades adquiridas deben utilizarse estrictamente con fines de prueba o investigación. Utilizar estas técnicas para acceder a contenidos ilegales o realizar actividades ilícitas convierte la inyección puntual en un acto delictivo.

Please share our article, every link counts!
Mail Logo
> Análisis y pruebas de ordenadores portátiles y móviles teléfonos > Noticias > Archivo de noticias > Archivo de noticias 2025 12 > Guía para principiantes sobre jailbreaks con IA - Uso de Gandalf para aprender de forma segura
Christian Hintze, 2025-12- 8 (Update: 2025-12- 8)