Skip to main content

Con IA se puede: Google observa píxeles para crear bandas sonoras

Un lobo generado por IA aullando
Deep Mind de Google

Deep Mind mostró el martes los últimos resultados de su investigación generativa de video a audio de IA. Es un sistema novedoso que combina lo que ve en pantalla con la indicación escrita del usuario para crear paisajes sonoros de audio sincronizados para un videoclip determinado.

La IA V2A se puede emparejar con modelos de generación de video como Veo, escribió el equipo de audio generativo de Deep Mind en una publicación de blog, y puede crear bandas sonoras, efectos de sonido e incluso diálogos para la acción en pantalla. Además, Deep Mind afirma que su nuevo sistema puede generar «un número ilimitado de bandas sonoras para cualquier entrada de video» ajustando el modelo con indicaciones positivas y negativas que fomentan o desalientan el uso de un sonido en particular, respectivamente.

V2A Cars

El sistema funciona primero codificando y comprimiendo la entrada de vídeo, que el modelo de difusión aprovecha para refinar de forma iterativa los efectos de audio deseados a partir del ruido de fondo en función de la indicación de texto opcional del usuario y de la entrada visual. Esta salida de audio finalmente se decodifica y se exporta como una forma de onda que luego se puede recombinar con la entrada de video.

Recommended Videos

Lo mejor es que el usuario no tiene que entrar y sincronizar manualmente (léase: tediosamente) las pistas de audio y vídeo, ya que el sistema V2A lo hace automáticamente. «Al entrenar en video, audio y las anotaciones adicionales, nuestra tecnología aprende a asociar eventos de audio específicos con varias escenas visuales, mientras responde a la información proporcionada en las anotaciones o transcripciones», escribió el equipo de Deep Mind.

V2A Wolf

Sin embargo, el sistema aún no está perfeccionado. Por un lado, la calidad del audio de salida depende de la fidelidad de la entrada de vídeo y el sistema se estropea cuando hay artefactos de vídeo u otras distorsiones en la entrada. Según el equipo de Deep Mind, la sincronización del diálogo con la pista de audio sigue siendo un desafío continuo.

V2A Claymation family

«V2A intenta generar voz a partir de las transcripciones de entrada y sincronizarla con los movimientos de los labios de los personajes», explicó el equipo. «Pero el modelo de generación de videos emparejados puede no estar condicionado por las transcripciones. Esto crea un desajuste, lo que a menudo resulta en una extraña sincronización de labios, ya que el modelo de video no genera movimientos de la boca que coincidan con la transcripción».

El sistema aún debe someterse a «rigurosas evaluaciones y pruebas de seguridad» antes de que el equipo considere lanzarlo al público. Todos los vídeos y bandas sonoras generados por este sistema se incluirán con las marcas de agua SynthID de Deep Mind. Este sistema está lejos de ser la única IA generadora de audio actualmente en el mercado. Stability AI lanzó un producto similar la semana pasada, mientras que ElevenLabs lanzó su herramienta de efectos de sonido el mes pasado.

Diego Bastarrica
Diego Bastarrica es periodista y docente de la Universidad Diego Portales de Chile. Especialista en redes sociales…
7 gadgets que esperamos ver en 2025
Nintendo Switch.

El mundo de la tecnología nunca deja de sorprendernos. En 2024, fuimos testigos de avances impresionantes que transformaron nuestra manera de interactuar con los dispositivos cotidianos. Pero si algo está claro es que 2025 promete ser aún más emocionante. Entre anuncios confirmados y rumores que nos hacen soñar, aquí te presentamos los siete gadgets que esperamos ver el próximo año.
7. Gafas de realidad aumentada de Samsung

Después de años de rumores, 2025 podría ser el año en que Samsung finalmente revele sus esperadas gafas de realidad aumentada. Este dispositivo promete ser mucho más discreto y funcional que los voluminosos visores actuales como el Apple Vision Pro. Las gafas podrían integrar elementos virtuales directamente en tu entorno real, ideal para tareas como trabajar, comunicarse o disfrutar de entretenimiento interactivo.

Leer más
En vivo: ¿A qué hora y cómo ver los festejos de Año Nuevo 2025?
ano nuevo mundo celebra silencio culpa omicron australia a  o

El mundo se prepara en Noche Vieja para despedir el 2024 y entrar de lleno en el 2025 y dar la bienvenida a estos nuevos 365 días. Y hay alternativas para ver en streaming o en vivo.

Cuenta regresiva Año Nuevo 2025: dónde verla y seguirla, en vivo
Si bien un ritual suele ser sintonizar en la televisión un canal de aire o cable ya que todos dan la hora exacta y los minutos que faltan para la celebración del nuevo año, también existen diferentes aplicaciones que te permiten brindar en el momento exacto. Estas son:

Leer más
CES 2025: Todo lo que debes saber
ces 2024 en vivo

Para la industria de la tecnología de consumo los años arrancan con un gran evento: CES. Anteriormente conocida como Consumer Electronics Shows, el CES es una feria de exhibición de todo tipo de productos de tecnología que se realiza desde hace 58 años en los distintos centros de convenciones de Las Vegas, y que en su edición 2025 también tendrá algunos eventos en la Sphere Arena.

Si amas la tecnología el CES es tu primera parada de 2025, y aquí te contamos todo lo que tienes saber de la feria donde se han presentado por primera vez avances que revolucionaron al mundo, desde la videograbadora, el reproductor de discos compactos y hasta la NES de Nintendo.
¿Qué es el CES?

Leer más