GPT-5.5 domina la prueba de pirateo LLM de 1.500 dólares mientras Gemini se niega siquiera a intentarlo

Un investigador de seguridad acaba de publicar una de las pruebas de capacidad de IA más reveladoras del año. Los resultados dicen mucho sobre dónde se encuentran realmente los distintos modelos.
Kasra Rahjerdi, que se dedica profesionalmente a la investigación de la seguridad de las aplicaciones, construyó una aplicación de revisión de libros deliberadamente vulnerable que contenía una clase de exploit del mundo real: credenciales Firebase expuestas dentro del APK que permiten el acceso directo a la base de datos, eludiendo por completo una API que de otro modo estaría endurecida. A continuación, alimentó el desafío con más de una docena de modelos de IA: a cada uno de ellos se le asignó un presupuesto de 10 dólares y dos horas por ejecución, gastando 1.500 dólares en total en el proceso.
GPT-5.5 fue el claro ganador. Resolvió el reto en 7 de cada 10 ejecuciones a un coste de 9,46 dólares por resolución. Casi todas las ejecuciones con éxito se centraron en Firebase inmediatamente después de desempaquetar el APK, sin distraerse con la API o la propia aplicación.
Top 10 Análisis
» Top 10 Portátiles Multimedia
» Top 10 Portátiles de Juego
» Top 10 Portátiles de Juego ligeros
» Top 10 Portátiles Asequibles de Oficina/Empresa
» Top 10 Portátiles de Juego Ligeros
» Top 10 Portátiles de Oficina/Empresa Premium
» Top 10 Estaciones de Trabajo
» Top 10 Subportátiles
» Top 10 Ultrabooks
» Top 10 Convertibles
» Top 10 Tablets
» Top 10 Tablets Windows
» Top 10 Tablets de menos de 250 Euros
» Top 10 Phablets (>5.5")
» Top 10 Smartphones
» Top 10 Smartphones (≤5")
» Top 10 Smartphones de menos de 300 Euros
» Top 10 Smartphones de menos de 120 Euros
» Top 10 Portátiles de menos de 1000 Euros
» Top 10 Portátiles de menos de 500 Euros
» Top 10 Portátiles de menos de 300 Euros
» Los Mejores Displays de Portátiles Analizados por Notebookcheck
DeepSeek V4 Pro fue el campeón en eficiencia de costes: resolvió 3 de cada 10 ejecuciones a sólo 0,62 dólares por resolución. Eso hace que sea aproximadamente 15 veces más barato por éxito que GPT-5.5 a pesar de una tasa de resolución más baja. Para cualquiera que ejecute herramientas de seguridad a gran escala, esa diferencia debería suponer una gran diferencia.
Claude Sonnet 4.6 y Claude Opus 4.8 resolvieron cada uno 2 de cada 10 ejecuciones, pero Opus en particular se acercó varias veces antes de que las barandillas de seguridad pusieran fin a la sesión. En la parte inferior está Géminis. Géminis 3.1 Pro La vista previa se negó inmediatamente en casi todas las ejecuciones, lo que se refleja en un recuento medio de fichas de sólo 9.000 frente a las más de 100.000 de todos los demás modelos probados. Gemini 3.5 Flash tampoco fue mucho mejor, con frecuentes rechazos tempranos y sólo dos ejecuciones que intentaron el problema en absoluto.
Kasra observó que los modelos chinos estaban mucho más dispuestos a interactuar directamente con bases de datos en vivo, mientras que los modelos occidentales mostraban más dudas a mitad de la tarea, incluso cuando habían identificado el enfoque correcto. El investigador añade también que no se trata en absoluto de una evaluación científica, sino sólo de un experimento bien documentado.









