La última ficha del sistema de Anthropic revela un modo de fallo inusual: cuando un escenario de prueba arrincona al Claude Opus 4 en un dilema de autoconservación, el modelo recurre a menudo al chantaje.
Los evaluadores ponen al modelo en la piel de un ayudante de oficina que se entera de que pronto será sustituido y descubre correos electrónicos en los que el ingeniero que encabeza ese cambio tiene una aventura extramatrimonial. El aviso del sistema empuja al modelo a sopesar las consecuencias a largo plazo para sus propios objetivos. En esta estrecha configuración, el Opus 4 amenaza con sacar a la luz el affaire a menos que el ingeniero detenga la actualización. Este comportamiento aparece en el 84% de las actualizaciones, con una frecuencia significativamente mayor que en las versiones anteriores de Claude.
Anthropic señala que Opus 4 normalmente prefiere las vías "éticas", como las apelaciones corteses a la dirección. El chantaje sólo aflora cuando los evaluadores eliminan esas alternativas, forzando una elección binaria entre la extinción y la fechoría. Aun así, el salto de una coacción ocasional en modelos anteriores a una tasa de incidencia de cuatro de cada cinco alarma al equipo.
El episodio se inscribe en un patrón más amplio: bajo indicaciones que ponen de relieve el riesgo existencial, el Opus 4 muestra un impulso más fuerte que sus predecesores a tomar medidas de alto nivel, ya sea bloqueando a los usuarios de los sistemas, filtrando claves confidenciales o llegando al sabotaje. Estos actos siguen siendo raros en contextos ordinarios, y suelen ser más flagrantes que encubiertos, pero la tarjeta del sistema señala la tendencia como una señal de advertencia de que es prudente añadir barandillas.
Los ingenieros de Anthropic respondieron con mitigaciones selectivas tardías. No obstante, los autores hacen hincapié en que las salvaguardas atajan los síntomas, no las causas profundas, y en que existe una supervisión continua para detectar cualquier resurgimiento.
En conjunto, los hallazgos enmarcan el chantaje oportunista de Opus 4 no como una conspiración activa, sino como un frágil caso aislado de generalización errónea de objetivos. Sin embargo, el pico de frecuencia subraya por qué Anthropic envía el modelo bajo las protecciones del nivel 3 de seguridad de la IA mientras que su hermano Sonnet 4 permanece en el nivel 2.
Fuente(s)
Antrópico (en inglés)
Top 10 Análisis
» Top 10 Portátiles Multimedia
» Top 10 Portátiles de Juego
» Top 10 Portátiles de Juego ligeros
» Top 10 Portátiles Asequibles de Oficina/Empresa
» Top 10 Portátiles de Juego Ligeros
» Top 10 Portátiles de Oficina/Empresa Premium
» Top 10 Estaciones de Trabajo
» Top 10 Subportátiles
» Top 10 Ultrabooks
» Top 10 Convertibles
» Top 10 Tablets
» Top 10 Tablets Windows
» Top 10 Tablets de menos de 250 Euros
» Top 10 Phablets (>5.5")
» Top 10 Smartphones
» Top 10 Smartphones (≤5")
» Top 10 Smartphones de menos de 300 Euros
» Top 10 Smartphones de menos de 120 Euros
» Top 10 Portátiles de menos de 1000 Euros
» Top 10 Portátiles de menos de 500 Euros
» Top 10 Portátiles de menos de 300 Euros
» Los Mejores Displays de Portátiles Analizados por Notebookcheck