Google presenta la IA generativa Lumiere para crear imágenes y vídeos más realistas a partir de texto

Google presenta Lumiere, lo último en IA generativa que crea videoclips realistas a partir de texto. (Fuente: Google Research)

Google ha presentado Lumiere, lo último en generación realista de texto a imagen y de texto a vídeo mediante aprendizaje automático. Una innovación clave es la capacidad de crear movimientos realistas, como caminar, con los que las IA generativas actuales tienen problemas. El software lo consigue creando todos los fotogramas de vídeo a la vez en lugar de utilizar fotogramas clave y entrenamiento para aprender cómo deben aparecer los objetos en movimiento.

David Chien (traducido por Ninh Duy), Publicado 01/31/2024 🇺🇸 🇩🇪 ...

Google ha presentado Lumiere, lo último en IA generativa realista de texto a imagen y vídeo. El software mejora enormemente el movimiento utilizando un enfoque novedoso para la generación de fotogramas de vídeo que crea todos los fotogramas en una sola pasada para mitigar los errores de movimiento.

La IA generativa de imágenes crea imágenes a partir de texto. Una clave que lo permite es la enorme cantidad de imágenes y vídeos en línea disponibles para el entrenamiento. Otra es el desarrollo de métodos para asociar todas las palabras de un idioma entre sí mediante vectores. Por lo tanto, la IA puede entender como un par de palabras, o en una frase, "yo soy" es más probable que "yo unilateralmente". La IA de creación de imágenes, como la Difusión Estable, asocia palabras con imágenes de objetos. Dicha IA entiende que las palabras "residencia real" están más asociadas a una imagen de "castillo" que a una imagen de "casa".

La IA de vídeo generativa amplía la IA de imagen para crear vídeos a partir de texto. Los competidores de Lumiere crean primero los fotogramas clave y después los fotogramas intermedios. Esto es como si un maestro de la animación dibujara las imágenes del principio y el final de un tiro a canasta, y luego hiciera que un ayudante dibujara las imágenes intermedias. El problema es que a menudo se producen errores de movimiento porque las imágenes intermedias no se dibujan correctamente, por lo que Lumiere evita esto creando todos los fotogramas de vídeo sin fotogramas clave. Además, Lumiere está entrenado para saber qué aspecto tienen los objetos en movimiento en distintos tamaños de imagen, por lo que sus vídeos tienen un aspecto superior.

Técnicamente, Lumiere utiliza modelos probabilísticos de difusión para generar imágenes acoplados a una U-Net Espacio-Tiempo, una arquitectura de U-net con escalado temporal hacia arriba y hacia abajo más bloques de atención añadidos al escalado habitual de resolución de imagen. El escalado descendente temporal simultáneo a la resolución reduce significativamente la carga de trabajo computacional, mientras que el escalado ascendente acoplado a un modelo de superresolución espacial con atención temporal genera el resultado de alta resolución. Aún así, la segmentación de los fotogramas de la imagen es necesaria debido a las limitaciones de memoria, por lo que se utiliza la multidifusión a través de los límites superpuestos de los segmentos de fotogramas para ayudar a mitigar los artefactos de movimiento temporal.

Lumiere puede acoplarse con otras IA para crear una gama más amplia de salida. Esto incluye:

Cinemagraphs - se anima una sección de una imagen
Inpainting - un objeto de un vídeo se sustituye por otro
Generación estilizada - se recrea la apariencia en otro estilo artístico
Imagen a vídeo - se anima una imagen deseada
Vídeo a vídeo - los vídeos se recrean en otro estilo artístico

La duración del vídeo está limitada a 5 segundos, mientras que la posibilidad de crear transiciones de vídeo y múltiples ángulos de cámara es inexistente. Los lectores interesados en experimentar con la IA generativa en sus ordenadores de sobremesa deberían adquirir una tarjeta de vídeo potente(como ésta de Amazon) para obtener el mejor rendimiento durante el entrenamiento.

Lumiere puede crear imágenes y vídeos a partir de texto, estilizarlos para que coincidan con otro arte e incluso sustituir objetos. (Fuente: Google Research)

Lumiere puede animar una parte de una imagen y el resultado puede introducirse fácilmente en otras IA. (Fuente: Google Research)

Fuente(s)

Google Research - Lumiere, Inbar Mosseri en YouTube

Fuente(s)

Artículos relacionados