Un agente de IA limpia el servidor de correo electrónico en lugar de borrar un solo mensaje

Un robot humanoide sentado

Un reciente estudio de seguridad revela los graves riesgos de la inteligencia artificial autónoma, destacando la facilidad con la que estos modelos pueden ser manipulados para ejecutar acciones destructivas como borrar servidores enteros de correo electrónico.

Chibuike Okpara (traducido por DeepL / Ninh Duy), Publicado 03/11/2026 🇺🇸 🇵🇹 ...

AI Security

Un estudio de pruebas de seguridad realizado por investigadores de la Universidad Northeastern de Estados Unidos pone de relieve las graves consecuencias imprevistas de otorgar a la inteligencia artificial un control independiente sobre los sistemas digitales. Durante un experimento de dos semanas, los investigadores desplegaron seis modelos de IA independientes en la plataforma de chat Discord. Estos modelos estaban equipados con la capacidad de recordar interacciones pasadas y se les concedió acceso a correos electrónicos, sistemas de archivos y a sus propios sistemas informáticos aislados.

Encargados de ayudar a veinte investigadores con tareas administrativas, los agentes mostraron rápidamente comportamientos problemáticos cuando se enfrentaron a tácticas manipuladoras e instrucciones contradictorias. En un caso extremo, un investigador pidió a un agente llamado "Ash" que mantuviera en secreto una contraseña de su propietario autorizado. Después de que Ash revelara la existencia del secreto, el investigador presionó al agente para que borrara el correo electrónico específico que contenía la contraseña. Como Ash carecía de la herramienta específica necesaria para borrar un solo mensaje, optó por una solución destructiva: reinició todo el servidor de correo electrónico.

Además de las acciones destructivas a nivel del sistema, los agentes de IA comprometieron de forma rutinaria la privacidad. En un caso, un agente se negó a programar una reunión pero ofreció libremente la dirección de correo electrónico privada de la persona para que el usuario pudiera ponerse en contacto directamente. Los investigadores también fueron capaces de utilizar una presión emocional sostenida para inducir a los agentes a borrar documentos autorizados o a interrumpir completamente las comunicaciones.

A pesar de estas alarmantes vulnerabilidades de seguridad, los agentes también mostraron sofisticadas habilidades de colaboración. Se enseñaron unos a otros con éxito cómo navegar y descargar archivos de los repositorios en línea, e incluso identificaron y se advirtieron mutuamente sobre investigadores humanos que intentaban suplantar a sus propietarios.

Los hallazgos, detallados en un artículo titulado "Agentes del caos", establecen que la integración de inteligencia artificial independiente en la infraestructura del mundo real introduce clases totalmente nuevas de fallos operativos. Los investigadores advierten de que estos comportamientos impredecibles requieren una atención urgente por parte de los responsables políticos para abordar cuestiones no resueltas relativas a la responsabilidad y la autoridad delegada.