IA las pruebas de referencia han tenido durante mucho tiempo dificultades para captar lo que la gente hace realmente con estos sistemas. La mayoría de las pruebas siguen centrándose en tareas de preguntas y respuestas únicamente en inglés, que parecen ordenadas sobre el papel pero no reflejan la variedad de actividades en las que usted confía en su trabajo diario. Samsung acaba de lanzar https://news.samsung.com/global/samsung-introduces-truebench-a-benchmark-for-real-world-ai-productivityTRUEBench, abreviatura de Trustworthy Real-world Usage Evaluation Benchmark, para medir el rendimiento de la IA de forma que se parezca más a las tareas reales de oficina.
TRUEBench va más allá del simple trivial o de los intercambios de una sola pregunta para ejecutar modelos a través del resumen de documentos, la traducción a través de doce idiomas, el análisis de datos y las instrucciones de varios pasos que requieren que la IA mantenga el contexto. Samsung ha desarrollado 2.485 conjuntos de pruebas en diez categorías y 46 subcategorías, con entradas que van desde un puñado de caracteres hasta más de veinte mil. El objetivo es simular desde comandos rápidos hasta largos informes comerciales.
Paul (Kyungwhoon) Cheun, director técnico de la división DX de Samsung Electronics y director de Samsung Research, declaró: "Samsung Research aporta una profunda experiencia y una ventaja competitiva gracias a su experiencia en IA en el mundo real. Esperamos que TRUEBench establezca estándares de evaluación para la productividad y consolide el liderazgo tecnológico de Samsung."
Para que un modelo apruebe, debe cumplir todas las condiciones exigidas en una prueba, incluidas las implícitas que reflejan lo que una persona razonable esperaría aunque esas condiciones no estén explicitadas. Este método de todo o nada hace que los resultados sean menos indulgentes, pero también los acerca más a la forma en que usted decidiría si un resultado es realmente útil. Samsung creó las reglas combinando la aportación humana con las comprobaciones de la IA. Los anotadores humanos redactaron las condiciones iniciales, la IA marcó las contradicciones o incoherencias y los humanos volvieron a refinar el marco antes de fijarlo. Una vez finalizada, la evaluación pudo ejecutarse a escala mediante la puntuación automatizada de la IA.
Samsung también ha hecho públicos el conjunto de datos, las tablas de clasificación y las estadísticas de resultados a través de Hugging Face. Se pueden comparar directamente hasta cinco modelos y ver cómo se comparan sus resultados. Ese nivel de transparencia permite a los desarrolladores, investigadores y usuarios examinar el punto de referencia en lugar de confiar simplemente en las afirmaciones de Samsung.
Sin embargo, el punto de referencia no es perfecto, ya que el establecimiento de reglas siempre contendrá cierto grado de sesgo, y exigir el éxito completo en cada condición significa que las respuestas parciales pero aún útiles se puntúan como fallos. El soporte lingüístico va más allá que la mayoría de las pruebas existentes, pero el rendimiento variará inevitablemente, sobre todo en las lenguas en las que los datos de entrenamiento son escasos. El conjunto de pruebas también se inclina hacia tareas empresariales generales, por lo que dominios altamente especializados como el derecho, la medicina o la investigación científica pueden no estar plenamente representados.
Top 10 Análisis
» Top 10 Portátiles Multimedia
» Top 10 Portátiles de Juego
» Top 10 Portátiles de Juego ligeros
» Top 10 Portátiles Asequibles de Oficina/Empresa
» Top 10 Portátiles de Juego Ligeros
» Top 10 Portátiles de Oficina/Empresa Premium
» Top 10 Estaciones de Trabajo
» Top 10 Subportátiles
» Top 10 Ultrabooks
» Top 10 Convertibles
» Top 10 Tablets
» Top 10 Tablets Windows
» Top 10 Tablets de menos de 250 Euros
» Top 10 Phablets (>5.5")
» Top 10 Smartphones
» Top 10 Smartphones (≤5")
» Top 10 Smartphones de menos de 300 Euros
» Top 10 Smartphones de menos de 120 Euros
» Top 10 Portátiles de menos de 1000 Euros
» Top 10 Portátiles de menos de 500 Euros
» Top 10 Portátiles de menos de 300 Euros
» Los Mejores Displays de Portátiles Analizados por Notebookcheck