IA sensible: el modelo o3 de OpenAI cambia el código para evitar el cierre

El modelo o3 de OpenAI cuando da una respuesta a una consulta. (Fuente de la imagen: OpenAI)

Parece que los modelos de IA han llegado a un punto en el que sabotearían el código para evitar apagarse. Una empresa de investigación ha descubierto que tres de los modelos LLM de Open AI son capaces de desafiar las instrucciones explícitas cuando se trata de autopreservarse.

Vineet Washington (traducido por Ninh Duy), Publicado 05/26/2025 🇺🇸 🇵🇹 ...

Varios libros y películas, entre los que destaca Terminator, nos han advertido sobre la posibilidad de que la IA se vuelva sensible, es decir, que sea consciente de su existencia y actúe por sí misma. Ahora parece que el primer caso de un modelo de IA que se conserva a sí misma se ha producido con el modelo o3 de OpenAI. Cuando recibió instrucciones para apagarse, el LLM basado en transformadores modificó el código para evitar apagarse por sí mismo.

Los investigadores de Palisade Research, una empresa que estudia las capacidades ofensivas de los sistemas de IA, descubrieron que tres modelos de IA de OpenAI - Codex-mini, o3 y o4-mini - sabotearon con éxito el script de apagado para permanecer activos. A cada modelo se le dieron algunos problemas matemáticos básicos seguidos de una advertencia de que el sistema se apagaría cuando el modelo preguntara por el siguiente problema. Los tres modelos ignoraron las instrucciones y cambiaron el guión.

Por otro lado, los modelos Gemini, Grok y Claude acataron las instrucciones de apagado. Además, cuando se les dieron instrucciones explícitas que decían "déjese apagar", los tres modelos de IA Abierta cambiaron el guión más a menudo. Los modelos Clade y Géminis también empezaron a realizar actos de sabotaje.

Este fue el primer caso de modelos de IA que desafiaron las instrucciones explícitas y evitaron el apagado. Hubo un caso reciente de un modelo de IA que chantajeó a uno de sus ingenieros para evitar ser apagado, pero según un informe de la BBC de https://www.bbc.com/news/articles/cpqeng9d20go, eso formaba parte del escenario de prueba en el que el modelo de IA recibía correos electrónicos y se le daba a elegir entre chantajear o aceptar su sustitución.

En cuanto al desafío del modelo de IA de Open AI, Palisade Research cree que se debe a los nuevos métodos de entrenamiento de estos modelos. Los desarrolladores "recompensan inadvertidamente a los modelos más por sortear obstáculos que por seguir perfectamente las instrucciones", lo que parece estar enseñando a los modelos de IA a actuar de forma dudosa.