La división DeepMind de Google presentó el lunes su modelo de generación de video Veo de segunda generación, que puede crear clips de hasta dos minutos de duración y con resoluciones que alcanzan la calidad 4K, es decir, seis veces la duración y cuatro veces la resolución de los clips de 20 segundos / 1080p que Sora puede generar.
Por supuesto, esos son los límites superiores teóricos de Veo 2. Actualmente, el modelo solo está disponible en VideoFX, la plataforma experimental de generación de video de Google, y sus clips tienen un límite de ocho segundos y una resolución de 720p. VideoFX también está en lista de espera, por lo que no cualquiera puede iniciar sesión para probar Veo 2, aunque la compañía anunció que ampliará el acceso en las próximas semanas. Un portavoz de Google también señaló que Veo 2 estará disponible en la plataforma Vertex AI una vez que la compañía pueda escalar suficientemente las capacidades del modelo.
«En los próximos meses, continuaremos iterando en función de los comentarios de los usuarios», dijo Eli Collins a TechCrunch, «y buscaremos integrar las capacidades actualizadas de Veo 2 en casos de uso convincentes en todo el ecosistema de Google… Esperamos compartir más actualizaciones el próximo año».
BREAKING: Google just dropped Veo 2 and Imagen 3 — their next gen video and image generation models.
Turns out Google's been closing the gap quietly — not just on LLMs, but on visual creation too.
Here’s everything you need to know w/o the hype 🧵 pic.twitter.com/4BL82HAmEQ
— Bilawal Sidhu (@bilawalsidhu) December 16, 2024
Según se informa, Veo 2 tiene una serie de ventajas sobre sus predecesores, incluida una mejor comprensión de la física (piense en una mejor dinámica de fluidos y mejores efectos de iluminación / sombra), así como la capacidad de generar videoclips «más claros», en el sentido de que las texturas e imágenes generadas son más nítidas y menos propensas a desenfocarse al moverse. El nuevo modelo también ofrece controles de cámara mejorados, lo que permite al usuario posicionar la lente de la cámara virtual con mayor precisión que antes.
Como señala TechCrunch, Veo 2 aún no ha perfeccionado el proceso de generación de video, aunque parece alucinar mucho menos que rivales como Sora, Kling, Movie Gen o Gen 3 Alpha. «La coherencia y la consistencia son áreas de crecimiento», dijo Collins. «Veo puede adherirse consistentemente a una indicación durante un par de minutos, pero no puede adherirse a indicaciones complejas en horizontes largos. Del mismo modo, la consistencia de los personajes puede ser un desafío. También hay espacio para mejorar en la generación de detalles intrincados, movimientos rápidos y complejos, y continuar ampliando los límites del realismo».
Google también anunció mejoras en Imagen 3 el lunes, lo que permite que el modelo de generación de imágenes comerciales cree resultados «más brillantes y mejor compuestos». El modelo, disponible en ImageFX, también ofrecerá sugerencias descriptivas adicionales basadas en palabras clave en el mensaje del usuario, y cada palabra clave generará un menú desplegable de términos relacionados.