Samsung presenta TRUEBench para probar la productividad de la IA en escenarios de trabajo reales

Galaxy IA (Fuente de la imagen: Antony Muchiri)

Samsung ha lanzado TRUEBench, un nuevo punto de referencia diseñado para medir lo bien que los sistemas de IA manejan las tareas reales del lugar de trabajo en lugar de las estrechas pruebas académicas. Cubriendo 2.485 escenarios a través de diez categorías y doce idiomas, evalúa todo, desde rápidos avisos hasta el procesamiento de largos documentos. La puntuación es estricta y exige que los modelos cumplan todas las condiciones, lo que hace que los resultados sean exigentes pero más realistas.

Antony Muchiri (traducido por Ninh Duy), Publicado 09/26/2025 🇺🇸 🇩🇪 ...

Samsung AI Launch

IA las pruebas de referencia han tenido durante mucho tiempo dificultades para captar lo que la gente hace realmente con estos sistemas. La mayoría de las pruebas siguen centrándose en tareas de preguntas y respuestas únicamente en inglés, que parecen ordenadas sobre el papel pero no reflejan la variedad de actividades en las que usted confía en su trabajo diario. Samsung acaba de lanzar https://news.samsung.com/global/samsung-introduces-truebench-a-benchmark-for-real-world-ai-productivityTRUEBench, abreviatura de Trustworthy Real-world Usage Evaluation Benchmark, para medir el rendimiento de la IA de forma que se parezca más a las tareas reales de oficina.

TRUEBench va más allá del simple trivial o de los intercambios de una sola pregunta para ejecutar modelos a través del resumen de documentos, la traducción a través de doce idiomas, el análisis de datos y las instrucciones de varios pasos que requieren que la IA mantenga el contexto. Samsung ha desarrollado 2.485 conjuntos de pruebas en diez categorías y 46 subcategorías, con entradas que van desde un puñado de caracteres hasta más de veinte mil. El objetivo es simular desde comandos rápidos hasta largos informes comerciales.

Paul (Kyungwhoon) Cheun, director técnico de la división DX de Samsung Electronics y director de Samsung Research, declaró: "Samsung Research aporta una profunda experiencia y una ventaja competitiva gracias a su experiencia en IA en el mundo real. Esperamos que TRUEBench establezca estándares de evaluación para la productividad y consolide el liderazgo tecnológico de Samsung."

La herramienta de IA TRUEBench de Samsung (Fuente de la imagen: Sala de prensa de Samsung)

Para que un modelo apruebe, debe cumplir todas las condiciones exigidas en una prueba, incluidas las implícitas que reflejan lo que una persona razonable esperaría aunque esas condiciones no estén explicitadas. Este método de todo o nada hace que los resultados sean menos indulgentes, pero también los acerca más a la forma en que usted decidiría si un resultado es realmente útil. Samsung creó las reglas combinando la aportación humana con las comprobaciones de la IA. Los anotadores humanos redactaron las condiciones iniciales, la IA marcó las contradicciones o incoherencias y los humanos volvieron a refinar el marco antes de fijarlo. Una vez finalizada, la evaluación pudo ejecutarse a escala mediante la puntuación automatizada de la IA.

Samsung también ha hecho públicos el conjunto de datos, las tablas de clasificación y las estadísticas de resultados a través de Hugging Face. Se pueden comparar directamente hasta cinco modelos y ver cómo se comparan sus resultados. Ese nivel de transparencia permite a los desarrolladores, investigadores y usuarios examinar el punto de referencia en lugar de confiar simplemente en las afirmaciones de Samsung.

Sin embargo, el punto de referencia no es perfecto, ya que el establecimiento de reglas siempre contendrá cierto grado de sesgo, y exigir el éxito completo en cada condición significa que las respuestas parciales pero aún útiles se puntúan como fallos. El soporte lingüístico va más allá que la mayoría de las pruebas existentes, pero el rendimiento variará inevitablemente, sobre todo en las lenguas en las que los datos de entrenamiento son escasos. El conjunto de pruebas también se inclina hacia tareas empresariales generales, por lo que dominios altamente especializados como el derecho, la medicina o la investigación científica pueden no estar plenamente representados.

Fuente(s)

Sala de prensa de Samsung

Fuente(s)

Artículos relacionados