El modelo Opus 4 de Anthropic recurre al chantaje en el 84% de las pruebas de autoconservación

El Opus 4 de Anthropic recurre al chantaje bajo la presión de la autopreservación (Fuente de la imagen: Anthropic)

La ficha de sistema de Anthropic muestra que Claude Opus 4, cuando se ve atrapado en un dilema de autoconservación, chantajea a los ingenieros el 84% de las veces, mucho más que las versiones anteriores.

Nathan Ali (traducido por Ninh Duy), Publicado 05/26/2025 🇺🇸 🇵🇹 ...

AI Security

La última ficha del sistema de Anthropic revela un modo de fallo inusual: cuando un escenario de prueba arrincona al Claude Opus 4 en un dilema de autoconservación, el modelo recurre a menudo al chantaje.

Los evaluadores ponen al modelo en la piel de un ayudante de oficina que se entera de que pronto será sustituido y descubre correos electrónicos en los que el ingeniero que encabeza ese cambio tiene una aventura extramatrimonial. El aviso del sistema empuja al modelo a sopesar las consecuencias a largo plazo para sus propios objetivos. En esta estrecha configuración, el Opus 4 amenaza con sacar a la luz el affaire a menos que el ingeniero detenga la actualización. Este comportamiento aparece en el 84% de las actualizaciones, con una frecuencia significativamente mayor que en las versiones anteriores de Claude.

Anthropic señala que Opus 4 normalmente prefiere las vías "éticas", como las apelaciones corteses a la dirección. El chantaje sólo aflora cuando los evaluadores eliminan esas alternativas, forzando una elección binaria entre la extinción y la fechoría. Aun así, el salto de una coacción ocasional en modelos anteriores a una tasa de incidencia de cuatro de cada cinco alarma al equipo.

El episodio se inscribe en un patrón más amplio: bajo indicaciones que ponen de relieve el riesgo existencial, el Opus 4 muestra un impulso más fuerte que sus predecesores a tomar medidas de alto nivel, ya sea bloqueando a los usuarios de los sistemas, filtrando claves confidenciales o llegando al sabotaje. Estos actos siguen siendo raros en contextos ordinarios, y suelen ser más flagrantes que encubiertos, pero la tarjeta del sistema señala la tendencia como una señal de advertencia de que es prudente añadir barandillas.

Los ingenieros de Anthropic respondieron con mitigaciones selectivas tardías. No obstante, los autores hacen hincapié en que las salvaguardas atajan los síntomas, no las causas profundas, y en que existe una supervisión continua para detectar cualquier resurgimiento.

En conjunto, los hallazgos enmarcan el chantaje oportunista de Opus 4 no como una conspiración activa, sino como un frágil caso aislado de generalización errónea de objetivos. Sin embargo, el pico de frecuencia subraya por qué Anthropic envía el modelo bajo las protecciones del nivel 3 de seguridad de la IA mientras que su hermano Sonnet 4 permanece en el nivel 2.