Una nueva herramienta de IA de código abierto permite generar vídeos mucho más largos y consistentes

Una imagen de una jirafa generada por IA

Investigadores de la Escuela Politécnica Federal de Lausana (École polytechnique fédérale de Lausanne) han desarrollado un nuevo sistema denominado Stable Video Infinity (SVI) para hacer frente a la deriva de los modelos de generación de vídeo.

Chibuike Okpara (traducido por DeepL / Ninh Duy), Publicado 02/10/2026 🇺🇸 🇵🇹 ...

AI Science Open Source

Si ha utilizado modelos de generación de vídeo, hay algo que encontrará constante en todos ellos: están limitados a clips cortos, normalmente entre 5 y 20 segundos. La razón de que exista esta limitación es algo llamado "deriva" La deriva hace que las escenas y los personajes pierdan cada vez más su característica fotograma a fotograma, lo que da lugar a un resultado incoherente con el paso del tiempo.

Ahora, para hacer frente a este problema, los investigadores del laboratorio de Inteligencia Visual para el Transporte (VITA) de la EPFL han desarrollado un novedoso método de entrenamiento llamado "reentrenamiento por reciclaje de errores" En lugar de descartar los fallos y deformidades que se producen de forma natural durante la generación, este enfoque los realimenta intencionadamente en el modelo.

El profesor Alexandre Alahi compara el proceso con "entrenar a un piloto en tiempo turbulento en lugar de en un cielo azul despejado" Al aprender de sus propios errores, la IA se vuelve lo suficientemente robusta como para estabilizarse cuando los errores aparecen inevitablemente, en lugar de caer en una espiral de aleatoriedad.

Este método impulsa el nuevo sistema Stable Video Infinity (SVI). A diferencia de los modelos actuales, que suelen desmoronarse a los 30 segundos, el SVI puede generar vídeos coherentes y de alta calidad que duran varios minutos o más. El sistema ya está causando sensación en la comunidad tecnológica; su código de fuente abierta en GitHub ha cosechado más de 2.000 estrellas, y la investigación ha sido aceptada para su presentación en la Conferencia Internacional sobre el Aprendizaje de Representaciones (ICLR) de 2026.

El equipo también está estrenando LayerSync, un método complementario que permite a la IA corregir su lógica interna en la generación de vídeo, imagen y sonido. Juntas, estas herramientas prometen diseñar mejores sistemas autónomos y desbloquear el potencial de los medios generativos de formato verdaderamente largo.