Notebookcheck Logo

Air Head creators say OpenAI's Sora finicky to work with, needs hundreds of prompts, serious VFX work for under 2 minutes of cohesive story

Shy Kids creó Air Head en colaboración con el modelo de generación de vídeo Sora de OpenAI. (Fuente de la imagen: Shy Kids en YouTube)
Shy Kids creó Air Head en colaboración con el modelo de generación de vídeo Sora de OpenAI. (Fuente de la imagen: Shy Kids en YouTube)
OpenAI mostró recientemente una impresionante demo reel creada por la productora Shy Kids utilizando su generador de vídeo Sora. Resulta que Shy Kids invirtió una increíble cantidad de trabajo en la posproducción de Air Head, a pesar de que OpenAI afirma que Sora permite producir vídeos sin esfuerzo.

Cuando OpenAI anunció Sora, su IA generadora de vídeo, uno de los vídeos que se utilizaron para demostrar sus capacidades es el corto de Shy Kids titulado Air Head. Aunque el vídeo se promocionó inicialmente como un impresionante carrete de demostración del modelo de OpenAI, una reciente entrevista de FX Guide con Shy Kids revela que en el vídeo se trabajó mucho más de lo que muchos habían pensado.

Aunque lo que Sora puede hacer es ciertamente impresionante y era casi imposible de hacer hace tan sólo uno o dos años, el equipo de Shy Kids aún tardó casi dos semanas en crear Air Head, sobre todo debido a las limitaciones de la IA. Uno de los mayores obstáculos a los que se enfrentó Shy Kids con Sora fue su falta de cohesión, lo que obligó al equipo de producción a utilizar un método de edición poco ortodoxo, no muy distinto al de la creación de una película de metraje encontrado o un documental.

Se trataba simplemente de conseguir un montón de tomas e intentar cortarlas de forma interesante para la VO. - Patrick Cederberg, postproducción de Air Head

Shy Kids dice que tenía un guión para el vídeo, pero el equipo tuvo que ser fluido y adaptarse a la variada producción generada por Sora. A Shy Kids también le costó mantener la coherencia de una toma a otra, ya que Sora generaba a menudo un tipo diferente de cabeza en el globo. En conjunto, Cederberg afirma que se necesitaron "cientos de generaciones" para conseguir algo menos de un minuto y medio de metraje editado para el vídeo. También estima que la proporción entre el material de origen y el contenido final fue de 300:1, lo que significa que Shy Kids sólo utilizó alrededor del 0,33% del vídeo generado por Sora en su edición final.

Mis matemáticas son malas, pero yo diría que probablemente 300:1 en cuanto a la cantidad de material de origen respecto a lo que acabó en el final.

Sin embargo, trabajar con Sora supuso algo más que generar cientos de clips. El equipo también tuvo que entrar manualmente y realizar todas las tareas habituales, como la gradación del color, el retiming e incluso VFX para eliminar elementos no deseados del encuadre. En un clip generado, Sora dio salida a un globo con una cara impresa en la parte delantera, y en otros, el globo sería de diferentes colores o tendría una cuerda no deseada colgando de la parte inferior - todo lo cual tuvo que ser eliminado.

Aplicaciones más avanzadas de VFX vieron al equipo de Shy Kids eliminar una cabeza entera que se había generado sobre Sonny, el personaje principal, en lugar del globo. Cosas como éstas se eliminaron en Adobe After Effects(que cuesta 34,99 $/mes y está disponible en Amazon) para llegar al producto final.

Aunque Sora y el vídeo generativo con IA han avanzado mucho, parece que están lejos de sustituir a los artistas entre bastidores, sobre todo si el contenido que se produce pretende ser coherente o algo más largo que unos pocos segundos. Es probable que esto explique también por qué, a excepción de dos, todos los clips "sin editar" que OpenAI ha publicado en su página de Sora son todos del orden de 20 segundos o menos.

Please share our article, every link counts!
> Análisis y pruebas de ordenadores portátiles y móviles teléfonos > Noticias > Archivo de noticias > Archivo de noticias 2024 04 > Es difícil trabajar con Sora de OpenAI, necesita cientos de indicaciones, un serio trabajo de efectos visuales para menos de 2 minutos de historia cohesionada
Julian van der Merwe, 2024-04-27 (Update: 2024-04-27)