Una herramienta de código abierto mide el nivel de estupidez de los modelos de IA

Los modelos de IA no son estables para la codificación de vibraciones (Fuente de la imagen: Generado con OpenAI)

Una nueva herramienta de código abierto ofrece una supervisión en tiempo real de varios modelos de IA, como OpenAI GPT-5, Claude Opus 4 y Gemini 2.5 Pro. La primera de su clase, puede detectar "cuándo las empresas de IA reducen la capacidad de los modelos para ahorrar costes" Los puntos de referencia pueden ejecutarse también con las propias claves API de OpenAI, xAI, Anthropic o Google de los usuarios.

Codrut Nistor (traducido por Ninh Duy), Publicado 09/18/2025 🇺🇸 🇵🇹 ...

Quienes han trabajado con modelos de IA para diversas tareas, especialmente la codificación, se han dado cuenta de que las herramientas de software se comportan de forma incoherente. En algunos casos, simplemente no proporcionan ninguna respuesta; a veces entregan un código erróneo, y cuando dan con lo que se esperaba, lo hacen más lentamente de lo habitual. Aquí es donde interviene la herramienta AI Benchmark Tool, que se encuentra en AistupidLevel.info, interviene, proporcionando información en tiempo real sobre el rendimiento y la precisión de varios modelos de IA, incluidos los datos de costes.

La citada herramienta de código abierto ejecuta más de 140 tareas de codificación, depuración y optimización en todos los modelos de gran tamaño. Por ahora, realiza un seguimiento de los siguientes: OpenAI GPT, Claude y Gemini. Pronto se añadirá también Grok. Entre sus aspectos más destacados se incluyen los siguientes

Información sobre precios en tiempo real, ya que algunos modelos que parecen baratos necesitan 10 iteraciones para realizar un trabajo, mientras que otros que parecen más caros a primera vista realizarán la misma tarea en 2 iteraciones, es decir, por un coste efectivo menor.
La posibilidad de ejecutar las mismas pruebas con sus propias claves API.
Supervisión del rendimiento de la IA en tiempo real, incluyendo clasificaciones de modelos en vivo basadas en la estupidez y la inteligencia.
Recomendaciones inteligentes, basadas en el rendimiento combinado.
Notificación de degradaciones activas: por ejemplo, Gemini-2.5-Flash está ahora un 44% por debajo del valor de referencia.

Actualmente, las recomendaciones inteligentes son éstas Gemini-2.5-Flash-Lite para el código, Claude-3.5-Sonnet-20241022 para la fiabilidad y Gemini-2.5-Flash-Lite para la velocidad. Todo es de código abierto en GitHub (Repo API, Repo Front End), y cualquiera puede contribuir. Todos los detalles y la herramienta en sí se pueden encontrar en el sitio web oficial, que se mencionó en el primer párrafo.