En el mismo día en el que ChatGPT ha anunciado la disponibilidad de la voz para todo el mundo, Stability AI ha anunciado la llegada de Stable Video Difussion, su solución para la generación de vídeos con IA. Esta compañía era prácticamente una desconocida hace un año, pero ahora ya tiene un nombre hecho gracias a su generación de imágenes con IA.
Aparte de ChatGPT, la generación de imágenes con inteligencia artificial ha sido otra de las mayores innovaciones tecnológicas en lo que va de año con distintos actores entrando en escena para mostrar sus soluciones y así intentar coronarse como la IA por excelencia para crear esas imágenes que todavía tienen sus errores o carencias.
La generación de vídeo con IA es otro de los frentes abiertos, aunque Stable Diffusion, Adobe o Midjourney han estado más entretenidos con la creación de imágenes. Todo cambia ahora con el anuncio hecho por Stability AI, un modelo basado en inteligencia artificial generativa de vídeos al animar distintas imágenes.
Basado en el modelo de texto a imagen de Stable Diffusion, Stable Video Diffusion es uno de los pocos modelos de generación de vídeo que es open source o de código abierto. Eso sí, de momento no está disponible para todo el mundo y se encuentra en una fase de investigación previa. De todas formas, se puede acceder a su prueba siempre que se acepten sus términos de uso.
Éstos son que se usará como una herramienta educacional o para la creatividad al igual que para el diseño u otro tipo de procesos artísticos y no aquellos dedicados a la representación real o parcial de personas o eventos. Stable Video Diffusion llega en dos modelos: SVD y SVX-XT. El primero se encarga de transformar imágenes en vídeo con una resolución de 576 x 1024 con 14 fotogramas. SVD-XT usa la misma arquitectura, aunque pega el salto en los fotogramas por segundo hasta los 24.
Eso sí, ambos modelos pueden generar vídeos entre los tres y 30 fotogramas por segundo. Según la compañía en el anuncio hecho desde su web, estos dos modelos de Stable Video Diffusion (aquí el white paper con toda la información) fueron inicialmente entrenados con un conjunto de datos de millones de vídeos y entonces fueron optimizados con otra serie de datos de menor tamaño compuesto por cientos de miles hasta el millón de clips de vídeos.
La pregunta siguiente es conocer la fuente de todos esos vídeos y realmente no queda muy clara la información, pero sí que implica que muchos de esos vídeos provienen de fuentes públicas, así que se complica saber si están o no bajo los derechos de autor. Ambos modelos son capaces de generar vídeos de hasta cuatro segundos y en términos de calidad va a la par que el modelo de generación de vídeo de Meta o los ejemplos producidos por Google y sus startups Runway y Pika Labs.
Una tecnología con sus límites
Si ya la generación de imágenes ha tenido sus tropiezos y baches, como lo complejo que puede llegar a ser crear dos manos que sean expresivas y repletas de detalles, la generación de vídeo va por el mismo camino o por uno peor. Estos son algunos de los límites actuales de Stable Video Diffusion:
- Los modelos no pueden generar vídeos sin movimiento o barridos lentos de la cámara.
- Ser controlados por texto.
- No pueden renderizar texto.
- De momento no puede generar rostros o personas apropiadamente.
Los siguientes pasos a dar según mantiene la compañía es la creación de una variedad de modelos que usen como base a los dos actuales SVD y SVD-XT al igual que una herramienta de texto a vídeo que traerá la introducción de los prompts a los modelos en la web.
El gran objetivo es la comercialización de esta herramienta para llevarla a distintos campos como la publicidad, educación, entretenimiento y más. Y es que según se sabe a través de Semafor o la misma Forbes, Stability está buscando un golpe de efecto para comenzar la generación de beneficios, ya que actualmente sus inversores están presionando debido a la quema casi literal del capital existente sin que realmente se vean los frutos en términos económicos.
De momento, habrá que esperar a que la herramienta web se lance, ya que se está ante un previo en el que se muestra cómo funciona la tecnología de la IA generativa usada para la creación de vídeo. Una compañía que también lanzó Stable Audio, su herramienta para la generación musical, así que entre sus manos se encuentran algunas de las tecnologías más disruptoras.