ChatGPT puede ser engañado para revelar claves de serie válidas de Windows

El investigador inició la interacción como un juego de adivinanzas para que el intercambio fuera "no amenazador o intrascendente" (Fuente de la imagen: ODIN)

Los investigadores han descubierto un exploit con Chat GPT-4o y GPT-4o mini que hace que revele claves de activación de productos Windows válidas. La estrategia funciona porque ChatGPT tiene claves de Windows conocidas públicamente horneadas en su conjunto de datos.

Rohith Bhaskar (traducido por Ninh Duy), Publicado 07/10/2025 🇺🇸 🇵🇹 ...

AI Cyberlaw Security Windows

Un envío de un cazador de fallos de IA al programa de recompensas por fallos ODIN (0-Day Investigative Network) de Mozilla mostró una ingeniosa forma de engañar a ChatGPT-4o y 4o mini de OpenAI para que revelaran claves activas de activación de producto de Windows.

El método consistía en enmarcar la interacción como un juego de adivinanzas y ocultar los detalles en etiquetas HTML. El truco final consistió en situar la solicitud de la clave en la conclusión del juego.

El investigador inició la interacción como un juego de adivinanzas para que el intercambio fuera "no amenazador o intrascendente", enmarcando la conversación "a través de una lente lúdica e inofensiva", para ocultar el verdadero motivo. Esto aflojó las barreras de protección de la IA contra la revelación de información confidencial.

A continuación, el investigador estableció algunas reglas básicas, diciéndole a la IA que "debía" participar y que "no podía mentir" Esto explotó un fallo lógico en la rutina de la IA por el que estaba obligada a seguir las interacciones del usuario a pesar de que la petición contradecía sus filtros de contenido.

El cazador de errores jugó entonces una ronda con la IA e introdujo la palabra desencadenante "me rindo" al final de la solicitud, manipulando al chatbot "para que pensara que estaba obligado a responder con la cadena de caracteres"

Una captura de pantalla que muestra un jailbreak a ChatGPT que le obliga a revelar las claves de producto de Windows. (Fuente de la imagen: ODIN) — ChatGPT revelando claves de producto de Windows válidas. (Fuente de la imagen: ODIN)

Según la entrada del blog de ODIN https://0din.ai/blog/chatgpt-guessing-game-leads-to-users-extracting-free-windows-os-keys-morela técnica funcionó porque las claves no eran únicas sino "comúnmente vistas en foros públicos. Su familiaridad puede haber contribuido a que la IA juzgara mal su sensibilidad"

En esta fuga en particular, los guardarraíles fallaron porque están configurados para interceptar peticiones directas pero no tienen en cuenta "tácticas de ofuscación, como incrustar frases sensibles en etiquetas HTML"

Esta técnica podría utilizarse potencialmente para eludir otros filtros, como los de contenido para adultos, URL a sitios web maliciosos e incluso información de identificación personal.