La nueva IA de Google para crear vídeos puede ser una mayor revolución que la creación de imágenes

Google ha presentado Lumiere, su nuevo modelo de Inteligencia Artificial para crear vídeos a partir de frases o imágenes.

25 enero, 2024 17:55

Adrián Raya @adrian_cal_raya

El lanzamiento de ChatGPT ha cambiado completamente el sector tecnológico en apenas un año. De ser completamente desconocida para el usuario medio, la IA generativa ha pasado a convertirse en una función estrella usada para vender móviles, como los Galaxy S24, o para atraer usuarios a servicios como Bing. Crear la imagen que tenemos en la mente, sin necesidad de conocimientos de arte o de fotografía, ya es posible sólo con escribir lo que queremos.

La creación de imágenes con proyectos como Dall-E y Midjourney ya ha alcanzado niveles muy avanzados, hasta el punto de que cada vez es más difícil diferenciarlas de imágenes reales (con todo lo que ello conlleva); pero eso es sólo el principio. El siguiente paso es la creación de vídeo, y aunque ya hay algunos proyectos que han mostrado lo que es posible, ninguno ha alcanzado el nivel de lo que ha anunciado hoy Google.

Lumiere es el nombre del nuevo modelo de IA de Google para creación de vídeo, y supone un paso de gigante respecto a proyectos pasados. La compañía asegura que su modelo es capaz de crear “movimiento realista, diverso y coherente”, que es la clave para que un vídeo parezca real y no una mala imitación. De la misma manera que la creación de imágenes realista tuvo obstáculos, como la forma de las manos, en la creación de vídeo el mayor desafío consiste en crear un movimiento que tenga sentido y que no rechacemos como artificial.

En el apartado técnico, la gran innovación de este modelo es que es capaz de generar toda la duración del vídeo de una pasada; el método habitual consiste en generar sólo una imagen a la vez, ampliar su tamaño y reproducirlas una tras otra, pero eso hace difícil obtener la consistencia necesaria y es lo que provoca el efecto ‘tembloroso’ y las formas ridículas que solemos ver.

Los resultados son evidentes. En los vídeos publicados por Google, se nota un mayor realismo en el movimiento, tanto de personas y animales como de objetos como un poco de sirope cayendo sobre un helado. Como muchas otras IA, Lumiere es multi modal, y eso significa que puede crear vídeos a partir de una frase, o partiendo de una imagen ya existente y las instrucciones del usuario. También puede usar una imagen como referencia y crear nuevos vídeos con el mismo estilo pero con sujetos diferentes. El gran inconveniente hasta ahora de Lumiere es que los vídeos no pueden durar más de 5 segundos, aunque sus creadores afirman que los usuarios que lo probaron prefirieron Lumiere frente a las alternativas pese a esta limitación.

La creación de vídeo puede ser revolucionaria, si los usuarios pueden crear nuevas escenas a partir de sus propias fotos o ideas, y no sería de extrañar que los próximos móviles Pixel ofrezcan acceso a esta tecnología. Los propios creadores de Lumiere advierten del “impacto social” de la tecnología de IA generativa de vídeo, pero afirman que el objetivo principal es permitir a usuarios novatos la creación de contenido.