Skip to main content

VASA-1: cómo usar la impresionante herramienta de video de Microsoft

Una increíble nueva herramienta de IA generativa acaba de lanzar Microsoft, se trata de VASA-1,  un modelo de imagen a vídeo, que a partir de una sola imagen y un clip de audio, puede generar imágenes sorprendentemente realistas, con movimientos y expresiones de labios realistas.

Imagen utilizada con permiso del titular de los derechos de autor

«Presentamos VASA, un marco para generar rostros parlantes realistas de personajes virtuales con atractivas habilidades visuales afectivas (VAS), dada una única imagen estática y un clip de audio de habla. Nuestro primer modelo, VASA-1, es capaz no sólo de producir movimientos labiales exquisitamente sincronizados con el audio, sino también de capturar un amplio espectro de matices faciales y movimientos naturales de la cabeza que contribuyen a la percepción de autenticidad y vivacidad. Las principales innovaciones incluyen un modelo holístico de generación de dinámicas faciales y movimientos de la cabeza que funciona en un espacio latente facial, y el desarrollo de dicho espacio latente facial expresivo y desentrañado utilizando vídeos. Mediante experimentos exhaustivos que incluyen la evaluación con un conjunto de nuevas métricas, demostramos que nuestro método supera significativamente a los anteriores en varias dimensiones de forma exhaustiva. Nuestro método no sólo ofrece una alta calidad de vídeo con una dinámica facial y de la cabeza realista, sino que también permite la generación en línea de vídeos de 512×512 a una velocidad de hasta 40 FPS con una latencia inicial insignificante. Esto allana el camino para interactuar en tiempo real con avatares realistas que emulan los comportamientos conversacionales humanos», señala Microsoft.

VASA-1: Microsoft Strikes Again - STUNNING lifelike AI video and audio from a single photograph

Cómo usar VASA-1

VASA-1 tienen la capacidad de manipular varios aspectos del vídeo generado, como la dirección de la mirada del personaje, la distancia percibida y el estado emocional; todo ello permite personalizar los videos para adaptarlos a necesidades específicas o efectos deseados.

Para eso, se sube una fotografía al programa, luego se añade una instrucción y un discurso de audio que se sube al sistema, se genera el video y se puede manejar la mirada, el estado de la persona, la velocidad de las palabras.

Imagen utilizada con permiso del titular de los derechos de autor
Diego Bastarrica
Diego Bastarrica es periodista y docente de la Universidad Diego Portales de Chile. Especialista en redes sociales…
Microsoft Copilot: consejos y trucos para usar la IA en Windows
microsoft copilot consejos trucos ia windows edge 4qkqdeazf c unsplash

Microsoft
Es posible que el Copilot de Microsoft no esté abriendo camino de la misma manera que ChatGPT parecía hacerlo cuando debutó por primera vez, pero todavía hay algunas habilidades útiles para esta IA de chatbot lista para escritorio que ahora está disponible para casi cualquier persona que ejecute la última versión de Windows 11. Todavía no tiene una gran variedad de habilidades, limitándose a cambiar algunas configuraciones de Windows, abrir aplicaciones para usted y realizar las funciones de escritura creativa y búsqueda web disponibles a través de sus contemporáneos.

Pero puede hacer que Copilot funcione para usted y funcione bien, y hay algunos consejos y trucos que querrá emplear para aprovecharlo al máximo. Estos son algunos de mis favoritos.
Manos libres
Si bien las últimas IA de lenguaje natural pueden estar basadas principalmente en texto, muchas de ellas ahora incluyen soporte de voz y audio, y Windows Copilot es muy similar. Si bien esto puede parecer simplemente una forma más torpe de interactuar con Copilot, y es un poco torpe, esta es una característica importante porque significa que no tiene que usar sus manos para solicitarlo. Más allá de hacer clic en el pequeño botón del micrófono, puede volver a lo que sea que esté haciendo mientras le hace una pregunta o le solicita algo.

Leer más
Microsoft quiere usar energía nuclear para alimentar sus centros de datos IA
microsoft quiere usar energia nuclear para alimentar centros datos ia clint patterson  jcy4oema3o unsplash

Un aviso de trabajo está alertando a las autoridades por la posibilidad de que Microsoft quiera usar energía nuclear para alimentar sus centros de datos de IA.

La compañía está contratando a un "gerente principal del programa de tecnología nuclear" para evaluar cómo se podría usar la energía nuclear para alimentar los centros de datos que albergan modelos de inteligencia artificial, según una lista de trabajo publicada el jueves.

Leer más
Gen-2 de Runway: se viene la generación de video solo con texto
gen 2 runway generacion video solo texto jakob owens ciur8zisx60 unsplash

La compañía Runway, que está detrás de la IA Gen-1 (generación de videos automática con IA) y del modelo de texto a imagen de código abierto Stable Diffusion, ahora comentó que en las próximas semanas estará disponible Gen-2, que generaría videos desde cero solo con instrucciones de texto:

Gen-2, en comparación, parece más centrado en generar videos desde cero, aunque hay muchas advertencias a tener en cuenta. Primero, los clips de demostración compartidos por Runway son cortos, inestables y ciertamente no fotorrealistas, y segundo, el acceso es limitado. Bloomberg News informa que los usuarios tendrán que registrarse para unirse a una lista de espera para Gen-2 a través de Runway's Discord, y un portavoz de la compañía, Kelsey Rondenet, dijo a The Verge que Runway "proporcionará un amplio acceso en las próximas semanas".

Leer más