Notebookcheck Logo

Yandex publica el conjunto de datos de recomendación musical de código abierto Yambda

El conjunto de datos gratuito Yambda de Yandex permite a cualquiera crear su propio servicio de recomendación musical. (Fuente de la imagen: Yandex)
El conjunto de datos gratuito Yambda de Yandex permite a cualquiera crear su propio servicio de recomendación musical. (Fuente de la imagen: Yandex)
Yandex ha publicado Yambda, el mayor conjunto de datos abiertos del mundo para sistemas de recomendación musical, que contiene 4.790 millones de interacciones anonimizadas de usuarios para ayudar a los desarrolladores a crear servicios musicales inteligentes que reproduzcan sólo las canciones que los oyentes desean escuchar.

Yandex ha publicado su conjunto de datos de código abierto Yambda, que contiene información sobre las preferencias de los oyentes de música, para utilizarlo en la creación de un servicio de audio en streaming similar a Spotify con personalización de listas de reproducción impulsada por IA.

Los servicios de streaming como Spotify, Tidal y Qobuz utilizan algoritmos de software o modelos de IA para crear listas de reproducción basadas en las preferencias individuales. Estos servicios no suelen publicar su código ni sus modelos porque su capacidad única para reproducir automáticamente las canciones que gustan a los oyentes se considera un secreto comercial de su éxito.

Yandex ha recopilado datos durante diez meses en forma de 4.790 millones de interacciones de usuarios con 9,39 millones de pistas de música de su grupo de 28 millones de usuarios mensuales de Yandex Music usuarios. Esto incluye información clave de los oyentes de Yandex Music: qué eligen escuchar, así como lo que les gusta y lo que no. Todas las interacciones llevan un sello de tiempo para una mayor precisión.

El conjunto de datos puede descargarse en tamaños de modelo de eventos de cinco mil millones (1 millón de usuarios), quinientos millones (100.000 usuarios) y cincuenta millones (10.000 usuarios), y el máximo requiere al menos 85 GB de espacio de almacenamiento. El conjunto de datos se almacena en el formato Apache Parquet un formato de archivo de datos orientado a columnas para facilitar el análisis y la investigación.

Los lectores pueden regalar música en streaming con una tarjeta regalo de Spotify.

Please share our article, every link counts!
Mail Logo
> Análisis y pruebas de ordenadores portátiles y móviles teléfonos > Noticias > Archivo de noticias > Archivo de noticias 2025 05 > Yandex publica el conjunto de datos de recomendación musical de código abierto Yambda
David Chien, 2025-05-30 (Update: 2025-05-30)