Quienes han trabajado con modelos de IA para diversas tareas, especialmente la codificación, se han dado cuenta de que las herramientas de software se comportan de forma incoherente. En algunos casos, simplemente no proporcionan ninguna respuesta; a veces entregan un código erróneo, y cuando dan con lo que se esperaba, lo hacen más lentamente de lo habitual. Aquí es donde interviene la herramienta AI Benchmark Tool, que se encuentra en AistupidLevel.info, interviene, proporcionando información en tiempo real sobre el rendimiento y la precisión de varios modelos de IA, incluidos los datos de costes.
La citada herramienta de código abierto ejecuta más de 140 tareas de codificación, depuración y optimización en todos los modelos de gran tamaño. Por ahora, realiza un seguimiento de los siguientes: OpenAI GPT, Claude y Gemini. Pronto se añadirá también Grok. Entre sus aspectos más destacados se incluyen los siguientes
- Información sobre precios en tiempo real, ya que algunos modelos que parecen baratos necesitan 10 iteraciones para realizar un trabajo, mientras que otros que parecen más caros a primera vista realizarán la misma tarea en 2 iteraciones, es decir, por un coste efectivo menor.
- La posibilidad de ejecutar las mismas pruebas con sus propias claves API.
- Supervisión del rendimiento de la IA en tiempo real, incluyendo clasificaciones de modelos en vivo basadas en la estupidez y la inteligencia.
- Recomendaciones inteligentes, basadas en el rendimiento combinado.
- Notificación de degradaciones activas: por ejemplo, Gemini-2.5-Flash está ahora un 44% por debajo del valor de referencia.
Actualmente, las recomendaciones inteligentes son éstas Gemini-2.5-Flash-Lite para el código, Claude-3.5-Sonnet-20241022 para la fiabilidad y Gemini-2.5-Flash-Lite para la velocidad. Todo es de código abierto en GitHub (Repo API, Repo Front End), y cualquiera puede contribuir. Todos los detalles y la herramienta en sí se pueden encontrar en el sitio web oficial, que se mencionó en el primer párrafo.
Fuente(s)
Reddit (traducido)
Top 10 Análisis
» Top 10 Portátiles Multimedia
» Top 10 Portátiles de Juego
» Top 10 Portátiles de Juego ligeros
» Top 10 Portátiles Asequibles de Oficina/Empresa
» Top 10 Portátiles de Juego Ligeros
» Top 10 Portátiles de Oficina/Empresa Premium
» Top 10 Estaciones de Trabajo
» Top 10 Subportátiles
» Top 10 Ultrabooks
» Top 10 Convertibles
» Top 10 Tablets
» Top 10 Tablets Windows
» Top 10 Tablets de menos de 250 Euros
» Top 10 Phablets (>5.5")
» Top 10 Smartphones
» Top 10 Smartphones (≤5")
» Top 10 Smartphones de menos de 300 Euros
» Top 10 Smartphones de menos de 120 Euros
» Top 10 Portátiles de menos de 1000 Euros
» Top 10 Portátiles de menos de 500 Euros
» Top 10 Portátiles de menos de 300 Euros
» Los Mejores Displays de Portátiles Analizados por Notebookcheck