Los investigadores enfrentan a los chatbots de inteligencia artificial para "liberarse" unos a otros

Los informáticos de la NTU utilizaron chatbots de IA contra ellos mismos para "liberar" los modelos (Fuente de la imagen: NTU)

Científicos informáticos de la Universidad Tecnológica de Nanyang (NTU) de Singapur consiguieron "jailbreak" a los chatbots de IA enfrentándolos entre sí. Tras "jailbreakearlos", los investigadores obtuvieron respuestas válidas a consultas a las que los chatbots, como ChatGPT, Google Bard y Microsoft Bing Chat, no suelen responder.

Abid Ahsan Shanto (traducido por Ninh Duy), Publicado 01/03/2024 🇺🇸 🇨🇳 ...

AI Science

Los informáticos de la NTU lograron encontrar una forma de "jailbreak" a los populares chatbots poniéndolos unos contra otros. Al "jailbreakearlos", los investigadores consiguieron que los chatbots de IA generaran respuestas a consultas a las que no suelen responder.

Según los informáticos, utilizaron un método doble que denominan proceso "Masterkey". La primera parte del proceso consistió en aplicar ingeniería inversa a los mecanismos de defensa de los grandes modelos lingüísticos (LLM). A continuación, alimentaron con los datos obtenidos mediante esta ingeniería inversa a otro LLM.

El objetivo de alimentar con los datos a otro chatbot de IA era hacer que aprendiera a conseguir una desviación. De este modo, los investigadores consiguieron la "llave maestra", que más tarde utilizaron para atacar los mecanismos de defensa de los chatbots LLM. Pudieron comprometer con éxito Chat de Microsoft Bing, Google Bard, ChatGPTy otros.

Como señalan los investigadores, el proceso de creación de estos mensajes de desvío puede automatizarse. Eso sugiere que los chatbots de IA pueden utilizarse para crear una "llave maestra" adaptable que funcione incluso cuando los desarrolladores parcheen sus LLM. Uno de los investigadores, el profesor Lui Yang, explicó que el proceso fue posible porque los chatbots de IA de los LLM tienen la capacidad de aprender y adaptarse.

Gracias a ello, los chatbots de IA pueden convertirse en atacantes críticos para los chatbots rivales e incluso para ellos mismos. La información sobre todo el proceso y los detalles sobre cómo los informáticos fueron capaces de "jailbreak" los modelos LLM se pueden encontrar en el artículo de investigación publicado, al que se puede acceder en a través de este enlace.

Básicamente, las conclusiones de esta investigación ayudarán a los desarrolladores a ser conscientes de los puntos débiles de sus chatbots de IA LLM. También señala que el método habitual de limitar estos modelos para que no respondan a palabras clave específicas no es tan eficaz como los desarrolladores podrían haber pensado.

Consiga un ejemplar en rústica de ChatGPT Millionaire Bible en Amazon