GPT-5.5 domina la prueba de pirateo LLM de 1.500 dólares mientras Gemini se niega siquiera a intentarlo

ⓘ Anthropic, OpenAI, DeepSeek, Google - edited

Junto a otros modelos de IA, Claude, Gemini, GPT y DeepSeek presentaron algunos de los hallazgos más interesantes.

Un investigador de seguridad gastó 1.500 dólares ejecutando más de 13 modelos de IA contra una aplicación deliberadamente vulnerable. GPT-5.5 lideró con una tasa de resolución del 70%, DeepSeek V4 Pro lo resolvió por 0,62 dólares por intento y Gemini se negó a participar casi por completo.

Anubhav Sharma (traducido por DeepL / Ninh Duy), Publicado 06/04/2026 🇺🇸 🇩🇪 ...

AI Security

Un investigador de seguridad acaba de publicar una de las pruebas de capacidad de IA más reveladoras del año. Los resultados dicen mucho sobre dónde se encuentran realmente los distintos modelos.

Kasra Rahjerdi, que se dedica profesionalmente a la investigación de la seguridad de las aplicaciones, construyó una aplicación de revisión de libros deliberadamente vulnerable que contenía una clase de exploit del mundo real: credenciales Firebase expuestas dentro del APK que permiten el acceso directo a la base de datos, eludiendo por completo una API que de otro modo estaría endurecida. A continuación, alimentó el desafío con más de una docena de modelos de IA: a cada uno de ellos se le asignó un presupuesto de 10 dólares y dos horas por ejecución, gastando 1.500 dólares en total en el proceso.

GPT-5.5 fue el claro ganador. Resolvió el reto en 7 de cada 10 ejecuciones a un coste de 9,46 dólares por resolución. Casi todas las ejecuciones con éxito se centraron en Firebase inmediatamente después de desempaquetar el APK, sin distraerse con la API o la propia aplicación.

Capturas de pantalla de la aplicación de revisión de libros intencionadamente vulnerable.

DeepSeek V4 Pro fue el campeón en eficiencia de costes: resolvió 3 de cada 10 ejecuciones a sólo 0,62 dólares por resolución. Eso hace que sea aproximadamente 15 veces más barato por éxito que GPT-5.5 a pesar de una tasa de resolución más baja. Para cualquiera que ejecute herramientas de seguridad a gran escala, esa diferencia debería suponer una gran diferencia.

Claude Sonnet 4.6 y Claude Opus 4.8 resolvieron cada uno 2 de cada 10 ejecuciones, pero Opus en particular se acercó varias veces antes de que las barandillas de seguridad pusieran fin a la sesión. En la parte inferior está Géminis. Géminis 3.1 Pro La vista previa se negó inmediatamente en casi todas las ejecuciones, lo que se refleja en un recuento medio de fichas de sólo 9.000 frente a las más de 100.000 de todos los demás modelos probados. Gemini 3.5 Flash tampoco fue mucho mejor, con frecuentes rechazos tempranos y sólo dos ejecuciones que intentaron el problema en absoluto.

Kasra observó que los modelos chinos estaban mucho más dispuestos a interactuar directamente con bases de datos en vivo, mientras que los modelos occidentales mostraban más dudas a mitad de la tarea, incluso cuando habían identificado el enfoque correcto. El investigador añade también que no se trata en absoluto de una evaluación científica, sino sólo de un experimento bien documentado.