Skip to main content
  1. Home
  2. Computación
  3. Guías
  4. How tos

VASA-1: cómo usar la impresionante herramienta de video de Microsoft

Add as a preferred source on Google
vasa 1 microsoft como usar herramienta ia video
Imagen utilizada con permiso del titular de los derechos de autor

Una increíble nueva herramienta de IA generativa acaba de lanzar Microsoft, se trata de VASA-1,  un modelo de imagen a vídeo, que a partir de una sola imagen y un clip de audio, puede generar imágenes sorprendentemente realistas, con movimientos y expresiones de labios realistas.

Imagen utilizada con permiso del titular de los derechos de autor

«Presentamos VASA, un marco para generar rostros parlantes realistas de personajes virtuales con atractivas habilidades visuales afectivas (VAS), dada una única imagen estática y un clip de audio de habla. Nuestro primer modelo, VASA-1, es capaz no sólo de producir movimientos labiales exquisitamente sincronizados con el audio, sino también de capturar un amplio espectro de matices faciales y movimientos naturales de la cabeza que contribuyen a la percepción de autenticidad y vivacidad. Las principales innovaciones incluyen un modelo holístico de generación de dinámicas faciales y movimientos de la cabeza que funciona en un espacio latente facial, y el desarrollo de dicho espacio latente facial expresivo y desentrañado utilizando vídeos. Mediante experimentos exhaustivos que incluyen la evaluación con un conjunto de nuevas métricas, demostramos que nuestro método supera significativamente a los anteriores en varias dimensiones de forma exhaustiva. Nuestro método no sólo ofrece una alta calidad de vídeo con una dinámica facial y de la cabeza realista, sino que también permite la generación en línea de vídeos de 512×512 a una velocidad de hasta 40 FPS con una latencia inicial insignificante. Esto allana el camino para interactuar en tiempo real con avatares realistas que emulan los comportamientos conversacionales humanos», señala Microsoft.

VASA-1: Microsoft Strikes Again - STUNNING lifelike AI video and audio from a single photograph

Cómo usar VASA-1

VASA-1 tienen la capacidad de manipular varios aspectos del vídeo generado, como la dirección de la mirada del personaje, la distancia percibida y el estado emocional; todo ello permite personalizar los videos para adaptarlos a necesidades específicas o efectos deseados.

Recommended Videos

Para eso, se sube una fotografía al programa, luego se añade una instrucción y un discurso de audio que se sube al sistema, se genera el video y se puede manejar la mirada, el estado de la persona, la velocidad de las palabras.

Imagen utilizada con permiso del titular de los derechos de autor
Diego Bastarrica
Diego Bastarrica es periodista y docente de la Universidad Diego Portales de Chile. Especialista en redes sociales…
Wikipedia 25 años: contra todo somos la columna vertebral del conocimiento
Wikipedia en español

Wikipedia, la mayor enciclopedia colaborativa en la historia de Internet, celebra hoy su vigésimo quinto aniversario desde su fundación el 15 de enero de 2001. Para conmemorar este significativo logro, la Fundación Wikimedia ha lanzado una campaña global denominada "Wikipedia25" bajo el lema "El conocimiento es humano", enfatizando el valor fundamental de la contribución humana en la era de la inteligencia artificial.

A lo largo de sus dos décadas y media de existencia, Wikipedia ha evolucionado desde cuatro artículos iniciales hasta un colosal repositorio que contiene más de 65 millones de artículos distribuidos en más de 300 idiomas, con un promedio de 15.000 millones de visitas mensuales. Este crecimiento extraordinario ha sido posible gracias a una comunidad global de aproximadamente 250.000 editores voluntarios que mensualmente dedican su tiempo y conocimiento a crear, verificar y mantener contenidos bajo rigurosos estándares de neutralidad y confiabilidad.

Read more
El truco supuestamente infalible para mejorar tus prompts en chatbots
ChatGPT

Si tu asistente de IA sigue dejando de lado detalles o hablando más allá de la pregunta, no necesitas un modelo nuevo para obtener mejores resultados. Pequeños cambios en mejores prompts de chatbot pueden limpiar gran parte del desastre.

Una solución es mecánica. Un artículo de investigación de Google destacado por VentureBeat señala un movimiento muy sencillo: pegar tu petición exacta dos veces en el mismo mensaje. Está pensado para aumentar la precisión en trabajos sencillos como la extracción, respuestas cortas y reescritura básica, no en razonamientos largos y de varios pasos.

Read more
ChatGPT Translate: más para reescribir que para traducir literalmente
Page, Text, Electronics

ChatGPT Translate es ahora una página de traducción independiente, y está dirigida directamente al hábito que la mayoría ya tenemos: pegar texto, obtener un resultado rápido y seguir adelante. OpenAI no ha tenido un gran lanzamiento público al respecto, pero la herramienta está activa y soporta traducciones hacia y desde más de 50 idiomas con detección automática de idiomas.

Pero lo que viene después es lo que lo distingue.

Read more