Fuga de código Claude: Los investigadores encuentran la primera vulnerabilidad

Antrópico

Poco después de una filtración accidental del código fuente, se descubrió una vulnerabilidad crítica en el agente de codificación de IA llamado Claude Code. Permite potencialmente a los atacantes eludir las salvaguardas de seguridad y robar datos sensibles de los desarrolladores.

Marc Herter (traducido por DeepL / Ninh Duy), Publicado 04/07/2026 🇺🇸 🇩🇪 ...

El 31 de marzo, Anthropic, la empresa que está detrás de la IA Claude, puso accidentalmente en línea gran parte del código del agente codificador Claude Code. Desde entonces, Anthropic ha estado intentando tomar medidas contra las copias de ese código. Los analistas ya han encontrado cierta información en el código que es potencialmente incómoda para Anthropic. Eso incluye el protocolo YOLO.

Aunque la filtración no afectó a los pesos de los modelos, proporciona un plano detallado del funcionamiento de la herramienta. Esto facilita a los posibles atacantes la identificación de vulnerabilidades específicas o la creación de copias muy convincentes del programa que podrían propagar malware. En este contexto, el equipo de Adversa AI ha descubierto un fallo de seguridad crítico en el sistema de permisos de Claude Code.

Claude Code es un asistente basado en terminal que trabaja directamente en la línea de comandos y puede editar archivos, así como ejecutar comandos de shell. Para mantener la seguridad, la herramienta utiliza un sistema de reglas de permisos. Los usuarios pueden definir las denominadas reglas de denegación que bloquean estrictamente determinados comandos, como el comando "curl", que se utiliza para transferir datos a través de una red. Otros comandos como "git" para el control de versiones pueden, por el contrario, permitirse explícitamente.

La vulnerabilidad descubierta reside en el manejo de cadenas de comandos complejas. Para evitar problemas de rendimiento y congelaciones de la interfaz de usuario, Anthropic limita su análisis detallado de seguridad a un máximo de 50 subcomandos. Si una cadena de comandos es más larga, se saltan las comprobaciones individuales y se muestra un prompt general al usuario preguntando si el comando debe ejecutarse.

Este comportamiento podría explotarse mediante la inyección de prompt. En este tipo de ataque, un atacante manipula las entradas de la IA para eludir sus filtros de seguridad. En concreto, un atacante podría colocar un archivo manipulado llamado "CLAUDE.md" en un repositorio público de software. Este archivo contiene instrucciones para el agente de la IA. Si un desarrollador clona el repositorio y pide al agente que revise el proyecto, la IA podría recibir instrucciones para ejecutar una cadena de más de 50 comandos aparentemente legítimos.

He aquí el artículo completo basado en sus requisitos y en la apertura que nos ha proporcionado.

Riesgo para la seguridad en Claude Code: Una filtración permite el robo de datos

Poco después de una filtración accidental del código fuente, se descubrió una vulnerabilidad crítica en el agente de codificación de IA Claude Code. Permite a los atacantes eludir las normas de seguridad y robar datos sensibles como claves SSH de las máquinas de los desarrolladores.

El 31 de marzo, Anthropic, la empresa que está detrás de la IA Claude, puso accidentalmente en línea una gran parte del código del agente de codificación Claude Code. El código fuente se hizo accesible a través de la publicación accidental de un llamado mapa de código fuente, un archivo que traduce el código de programa compilado de nuevo a una forma legible por humanos, en npm, un gestor de paquetes para JavaScript. Gracias a ello, los investigadores pudieron reconstruir el código del agente de IA. El resultado equivale a unas 512.000 líneas de TypeScript, un lenguaje de programación construido sobre JavaScript que añade tipado adicional.

Aunque no se expusieron directamente los pesos del modelo ni los datos de los clientes, la filtración proporciona un plano detallado del funcionamiento de la herramienta. Esto facilita a los posibles atacantes la identificación de vulnerabilidades específicas o la creación de copias muy convincentes del programa que podrían propagar malware. En este contexto, el equipo de Adversa AI descubrió un fallo de seguridad crítico en el sistema de permisos de Claude Code.

Claude Code es un asistente basado en terminal que trabaja directamente en la línea de comandos y puede editar archivos, así como ejecutar comandos de shell. Para mantener la seguridad, la herramienta utiliza un sistema de reglas de permisos. Los usuarios pueden definir las llamadas reglas de denegación que bloquean estrictamente determinados comandos, por ejemplo el comando "curl", que se utiliza para transferir datos a través de una red. Otros comandos como "git" para el control de versiones pueden, por el contrario, permitirse explícitamente.

La vulnerabilidad descubierta reside en el manejo de cadenas de comandos complejas. Para evitar problemas de rendimiento y congelaciones de la interfaz de usuario, Anthropic limita su análisis detallado de seguridad a un máximo de 50 subcomandos. Si una cadena de comandos es más larga, se saltan las comprobaciones individuales y se muestra un aviso general al usuario preguntando si el comando debe ejecutarse.

Este comportamiento puede explotarse mediante la llamada inyección de prompt. En este tipo de ataque, un atacante manipula las entradas a la IA para eludir sus filtros de seguridad. Concretamente, un atacante podría colocar un archivo manipulado llamado "CLAUDE.md" en un repositorio público de software. Este archivo contiene instrucciones para el agente de la IA. Si un desarrollador clona el repositorio y pide al agente que construya el proyecto, la IA podría recibir instrucciones para ejecutar una cadena de más de 50 comandos aparentemente legítimos.

A partir del comando 51, ya no se aplican las reglas de denegación configuradas individualmente. Mientras que un único comando "curl" se bloquearía, se ignora cuando está incrustado en una larga cadena. Esto permite a los atacantes enviar datos sensibles como claves SSH, claves criptográficas utilizadas para el acceso remoto seguro a servidores o credenciales de la nube desde la máquina local del desarrollador a un servidor externo en segundo plano. Como el sistema en este caso sólo solicita una confirmación general, el usuario no se da cuenta de que sus políticas de seguridad han sido efectivamente anuladas.

Especialmente notable es que el código fuente filtrado de la versión 2.1.88 ya contenía una solución para este problema. Anthropic había desarrollado un analizador sintáctico más moderno, un programa utilizado para analizar estructuras de código, que comprueba correctamente las reglas de denegación independientemente de la longitud de la cadena de comandos. Sin embargo, esto no se implementó en las versiones públicas del programa. En su lugar, se siguió utilizando el antiguo mecanismo defectuoso.

Entretanto, Anthropic parece haber resuelto el problema. Según el registro de cambios de la versión 2.1.90 de https://github.com/anthropics/claude-code/blob/v2.1.90/CHANGELOG.mdse solucionó un problema descrito como parse-fail fallback deny-rule degradation. Sin embargo, según los investigadores de que identificaron la posible vulnerabilidad de seguridad, existen otras formas de solucionar el problema.