El mayor conjunto de datos de imágenes de entrenamiento de IA se desconecta tras el descubrimiento de material ilícito preocupante

El conjunto de datos LAION-5B contiene más de 5.800 millones de pares imagen-texto (Fuente de la imagen: LAION - editado)

Un estudio de Stanford ha descubierto miles de imágenes explícitas de abusos a menores en LAION-5B, el mayor conjunto de datos de imágenes para el entrenamiento de modelos de inteligencia artificial, incluida la difusión estable. Tras esta revelación, LAION ha desconectado temporalmente sus conjuntos de datos para garantizar su seguridad antes de volver a publicarlos.

Vishal Bhardwaj (traducido por Ninh Duy), Publicado 12/23/2023 🇺🇸 🇫🇷 ...

AI Cyberlaw

Un estudio de publicado por el Observatorio de Internet de Stanford ha hecho un inquietante descubrimiento: LAION-5B, el mayor conjunto de datos de imágenes utilizado para el entrenamiento de Generación de imágenes de IA modelos, contiene 3.226 imágenes sospechosas de ser material de abuso sexual infantil (CSAM). Desde entonces, LAION ha retirado su conjunto de datos del acceso público, hasta que pueda asegurarse de que están libres de cualquier contenido inseguro.

LAION-5B, un conjunto de datos de código abierto compuesto por más de 5.800 millones de pares de URL de imágenes en línea y sus correspondientes pies de foto, se utiliza para entrenar modelos de IA, entre ellos el muy popular de Difusión estable. Se ha creado utilizando Common Crawl para rastrear Internet en busca de una amplia gama de imágenes.

David Thiel y el equipo de investigadores de Stanford autores del estudio comenzaron por filtrar el conjunto de datos utilizando los clasificadores NSFW de LAION, y después se basaron en PhotoDNAuna herramienta utilizada habitualmente para la moderación de contenidos en este contexto. Dado que ver CSAM es ilegal, incluso para fines de investigación, el equipo utilizó el hashing perceptual, que crea una firma digital única para cada imagen y utiliza esa firma para compararla con una imagen de prueba y comprobar si es idéntica o similar. Además, el equipo envió las "coincidencias definitivas" para que fueran validadas por el Centro Canadiense para la Protección de la Infancia.

Tras la publicación del estudio, un portavoz de Stable Diffusion declaró a 404 Media que la empresa dispone internamente de numerosos filtros que no sólo eliminan el CSAM y otros materiales ilegales y ofensivos de los datos realmente utilizados en el entrenamiento, sino que también garantizan la limpieza de las indicaciones de entrada y de las imágenes generadas por el modelo de IA.

Según la legislación federal estadounidense, es ilegal poseer y transmitir no sólo CSAM, sino también "películas sin revelar, cintas de vídeo sin revelar y datos almacenados electrónicamente que puedan convertirse en una imagen visual" de los mismos. Sin embargo, dado que los conjuntos de datos como el LAION-5B sólo contienen direcciones URL y no las imágenes en sí, la legalidad exacta en torno a ellos no está clara. La cuestión se agrava aún más por el hecho de que el CSAM generado por IA es difícil de distinguir del CSAM real, y va en aumento. Aunque 3200 imágenes entre 5.000 millones puedan parecer insignificantes, no se puede ignorar la influencia potencial de estos datos de entrenamiento "contaminados" en el resultado de los modelos generativos de IA.

El estudio publicado por David Thiel y su equipo pone de relieve una de las más inquietantes consecuencias de la repentina proliferación de la IA. Encontrar soluciones a estas preocupaciones será una tarea lenta y difícil en los próximos años, en la que participarán a partes iguales el poder legislativo, las fuerzas del orden, la industria tecnológica, los académicos y el público en general.