Alucinaciones por IA: Los investigadores han encontrado la causa - y una solución

Los asistentes de inteligencia artificial son sorprendentemente hábiles a la hora de inventarse información y presentarla como un hecho. Afirmaciones falsas, fuentes ficticias y citas inventadas forman parte de la mezcla. Estos errores se conocen comúnmente como alucinaciones. Es probable que muchos usuarios se hayan acostumbrado al problema, dependiendo a menudo de su propia comprobación de los hechos para separar la verdad de la ficción. Pero según OpenAIpuede haber una alternativa. El 5 de septiembre, la empresa que está detrás de ChatGPT publicó un documento detallado que ofrece una nueva explicación de por qué se producen las alucinaciones - y una posible solución.
Adivinar se recompensa, la incertidumbre se castiga
El documento de 36 páginas https://cdn.openai.com/pdf/d04913be-3f6f-4d2b-b283-ff432ef4aaa5/why-language-models-hallucinate.pdfdel que son autores Adam Kalai, Santosh Vempala de Georgia Tech y otros investigadores de OpenAI, deja una cosa clara: las alucinaciones no están causadas por una escritura descuidada, sino por la forma en que están configuradas las actuales métricas de evaluación. Estas métricas tienden a recompensar las conjeturas seguras y a penalizar las expresiones de incertidumbre. Los investigadores comparan esta situación con los exámenes de opción múltiple: los que adivinan pueden obtener puntos, mientras que los que dejan las preguntas en blanco no consiguen nada. Estadísticamente, el modelo de adivinación sale ganando, aunque proporcione con frecuencia información incorrecta.
Como resultado, las tablas de clasificación actuales -que clasifican el rendimiento de la IA- se centran casi por completo en la precisión, pasando por alto tanto las tasas de error como la incertidumbre. OpenAI reclama ahora un cambio. En lugar de limitarse a contabilizar las respuestas correctas, las tablas de clasificación deberían penalizar con más dureza los errores de confianza al tiempo que conceden cierto crédito a la abstención prudente. El objetivo es animar a los modelos a reconocer la incertidumbre en lugar de presentar confiadamente información falsa como un hecho.
Menos adivinanzas, más honestidad
Un ejemplo del documento muestra la diferencia que puede marcar este enfoque. En la prueba comparativa SimpleQA, un modelo optó por no responder a más de la mitad de las preguntas, pero se equivocó sólo en el 26% de las respuestas que sí dio. Otro modelo respondió a casi todas las preguntas, pero se equivocó en cerca del 75% de los casos. La conclusión es clara: mostrar incertidumbre es más digno de confianza que las conjeturas seguras que sólo crean la ilusión de precisión.
Fuente(s)
Top 10 Análisis
» Top 10 Portátiles Multimedia
» Top 10 Portátiles de Juego
» Top 10 Portátiles de Juego ligeros
» Top 10 Portátiles Asequibles de Oficina/Empresa
» Top 10 Portátiles de Juego Ligeros
» Top 10 Portátiles de Oficina/Empresa Premium
» Top 10 Estaciones de Trabajo
» Top 10 Subportátiles
» Top 10 Ultrabooks
» Top 10 Convertibles
» Top 10 Tablets
» Top 10 Tablets Windows
» Top 10 Tablets de menos de 250 Euros
» Top 10 Phablets (>5.5")
» Top 10 Smartphones
» Top 10 Smartphones (≤5")
» Top 10 Smartphones de menos de 300 Euros
» Top 10 Smartphones de menos de 120 Euros
» Top 10 Portátiles de menos de 1000 Euros
» Top 10 Portátiles de menos de 500 Euros
» Top 10 Portátiles de menos de 300 Euros
» Los Mejores Displays de Portátiles Analizados por Notebookcheck