Robo de datos con texto invisible: Con qué facilidad se puede engañar a ChatGPT y otras herramientas de IA

En un ataque de AgentFlayer, se utilizan imágenes para enviar mensajes ocultos. (Fuente de la imagen: OpenAI)

En la conferencia de seguridad Black Hat USA, los investigadores revelaron una nueva técnica para atacar los sistemas de IA. Al incrustar instrucciones ocultas, los atacantes pueden manipular silenciosamente herramientas como ChatGPT para extraer datos confidenciales del almacenamiento en la nube conectado. Algunos proveedores han empezado a reaccionar, mientras que otros restan importancia al riesgo.

Marius Müller (traducido por Ninh Duy), Publicado 08/18/2025 🇺🇸 🇩🇪 ...

AI Security Cyberlaw Business

En la conferencia de seguridad Black Hat USA 2025, celebrada en Las Vegas, unos investigadores dieron a conocer un nuevo método para engañar a sistemas de inteligencia artificial como ChatGPT, Microsoft Copilot y Google Gemini. La técnica, conocida como AgentFlayer, fue desarrollada por los investigadores de Zenity Michael Bargury y Tamir Ishay Sharbat. Un comunicado de prensa de https://www.prnewswire.com/news-releases/zenity-labs-exposes-widespread-agentflayer-vulnerabilities-allowing-silent-hijacking-of-major-enterprise-ai-agents-circumventing-human-oversight-302523580.html en el que se describen los hallazgos se publicó el 6 de agosto.

El concepto en el que se basa el ataque es engañosamente sencillo: se oculta texto en un documento utilizando una fuente blanca sobre un fondo blanco. Invisible para el ojo humano, puede ser leído fácilmente por los sistemas de inteligencia artificial. Una vez que la imagen llega al objetivo, se tiende la trampa. Si el archivo se incluye en un aviso, la IA descarta la tarea original y en su lugar sigue la instrucción oculta: buscar las credenciales de acceso en el almacenamiento en la nube conectado.

Para exfiltrar los datos, los investigadores emplearon una segunda táctica: instruyeron a la IA para que codificara la información robada en una URL y cargara una imagen desde ella. Este método transfiere discretamente los datos a los servidores de los atacantes sin levantar sospechas.

Zenity demostró que el ataque funciona en la práctica:

En ChatGPT, se manipularon correos electrónicos para que el agente de IA obtuviera acceso a Google Drive.
En Copilot Studio de Microsoft, los investigadores descubrieron más de 3.000 instancias de datos CRM desprotegidos.
Se podía engañar a Salesforce Einstein para que redirigiera las comunicaciones de los clientes a direcciones externas.
Google Gemini y Microsoft 365 Copilot también eran susceptibles de recibir correos electrónicos y entradas de calendario falsos.
Los atacantes incluso obtuvieron credenciales de inicio de sesión para la plataforma de desarrolladores Jira a través de tickets falsificados.

OpenAI y Microsoft responden, mientras que otros no ven necesidad de actuar

La buena noticia es que OpenAI y Microsoft ya han publicado actualizaciones para parchear las vulnerabilidades tras ser alertados por los investigadores. Otros proveedores, sin embargo, han tardado más en actuar, y algunos incluso han descartado los exploits como "comportamiento previsto" El investigador Michael Bargury hizo hincapié en la gravedad del asunto, afirmando: "El usuario no tiene que hacer nada para verse comprometido, y no se requiere ninguna acción para que se filtren los datos."

Fuente(s)

Laboratorios Zenity vía prnewswire

OpenAI y Microsoft responden, mientras que otros no ven necesidad de actuar

Fuente(s)

Artículos relacionados