Incluso después de un entrenamiento antirracista, los chatbots de IA como ChatGPT siguen mostrando prejuicios raciales

Los investigadores afirman que los creadores de LLM como OpenAI deben examinar más a fondo sus IA para detectar el "racismo encubierto". (Imagen: OpenAI)

Los chatbots de inteligencia artificial como ChatGPT-4 pueden seguir produciendo respuestas con prejuicios raciales incluso después de un entrenamiento de seguridad, según han descubierto unos investigadores. El estudio subraya la necesidad de un mayor cuidado e investigación de los "prejuicios encubiertos" antes de que los LLM se pongan a disposición del público.

Sanjiv Sathiah (traducido por Ninh Duy), Publicado 03/11/2024 🇺🇸 🇫🇷 ...

AI Science

Los investigadores que han estado probando chatbots de IA basados en grandes modelos lingüísticos como el Chat GPT4 de OpenAI han descubierto que aún pueden mostrar prejuicios raciales, incluso después de haber recibido formación antirracista. El último avance se produce después de que Google Gemini AI de Google después de que su nuevo LLM corrigiera en exceso el racismogenerando lo que algunos denominaron reinterpretaciones "woke" de la historia en las que, por ejemplo, se representaba a hombres afroamericanos como soldados nazis de la Segunda Guerra Mundial. Conseguir el equilibrio adecuado en materia de raza, al parecer, está resultando difícil para los creadores de modelos LLM.

En el último estudio, destacado por New Scientist, los investigadores descubrieron que docenas de modelos LLM diferentes que habían probado seguían mostrando un sesgo racial cuando se les presentaba un texto con dialectos afroamericanos. Y ello a pesar de que los modelos probados habían sido entrenados específicamente para evitar el sesgo racial en las respuestas que proporcionan los chatbots. Esto incluye a OpenAI's ChatGPT-4 y GPT-3.5 de OpenAI. En un caso, se demostró que GPT-4 se inclinaba más a recomendar una sentencia de muerte si hablaban utilizando un inglés con dialecto afroamericano.

El mismo "prejuicio encubierto" también se puso de manifiesto en las recomendaciones laborales que emparejaban a los afroamericanos con carreras que tenían menos probabilidades de requerir un título o llegaban a asociar a personas de ascendencia afroamericana sin un trabajo, en comparación con la entrada basada en el inglés estadounidense estándar. Los investigadores también descubrieron que cuanto mayor era el modelo lingüístico, mayor era la probabilidad de que presentara estos sesgos subyacentes. El estudio suscita preocupación respecto al uso de tecnologías de IA generativa con fines de selección, incluida la revisión de solicitudes de empleo.

Los investigadores concluyeron que su estudio plantea dudas sobre la eficacia de las intervenciones de formación en seguridad de la IA basadas en humanos, que sólo parecen eliminar el racismo y los prejuicios a un alto nivel, pero tienen dificultades para erradicarlo de los modelos actuales a un nivel inferior en el que no se menciona terminología específica que defina la identidad racial durante las aportaciones de los usuarios. Los investigadores recomiendan a las empresas que desarrollan LLM que tengan cuidado a la hora de poner a disposición del público los chatbots LLM antes de haberlos investigado a fondo.