Skip to main content

Con IA se puede: Google observa píxeles para crear bandas sonoras

Un lobo generado por IA aullando
Deep Mind de Google

Deep Mind mostró el martes los últimos resultados de su investigación generativa de video a audio de IA. Es un sistema novedoso que combina lo que ve en pantalla con la indicación escrita del usuario para crear paisajes sonoros de audio sincronizados para un videoclip determinado.

La IA V2A se puede emparejar con modelos de generación de video como Veo, escribió el equipo de audio generativo de Deep Mind en una publicación de blog, y puede crear bandas sonoras, efectos de sonido e incluso diálogos para la acción en pantalla. Además, Deep Mind afirma que su nuevo sistema puede generar «un número ilimitado de bandas sonoras para cualquier entrada de video» ajustando el modelo con indicaciones positivas y negativas que fomentan o desalientan el uso de un sonido en particular, respectivamente.

V2A Cars

El sistema funciona primero codificando y comprimiendo la entrada de vídeo, que el modelo de difusión aprovecha para refinar de forma iterativa los efectos de audio deseados a partir del ruido de fondo en función de la indicación de texto opcional del usuario y de la entrada visual. Esta salida de audio finalmente se decodifica y se exporta como una forma de onda que luego se puede recombinar con la entrada de video.

Lo mejor es que el usuario no tiene que entrar y sincronizar manualmente (léase: tediosamente) las pistas de audio y vídeo, ya que el sistema V2A lo hace automáticamente. «Al entrenar en video, audio y las anotaciones adicionales, nuestra tecnología aprende a asociar eventos de audio específicos con varias escenas visuales, mientras responde a la información proporcionada en las anotaciones o transcripciones», escribió el equipo de Deep Mind.

Sin embargo, el sistema aún no está perfeccionado. Por un lado, la calidad del audio de salida depende de la fidelidad de la entrada de vídeo y el sistema se estropea cuando hay artefactos de vídeo u otras distorsiones en la entrada. Según el equipo de Deep Mind, la sincronización del diálogo con la pista de audio sigue siendo un desafío continuo.

V2A Claymation family

«V2A intenta generar voz a partir de las transcripciones de entrada y sincronizarla con los movimientos de los labios de los personajes», explicó el equipo. «Pero el modelo de generación de videos emparejados puede no estar condicionado por las transcripciones. Esto crea un desajuste, lo que a menudo resulta en una extraña sincronización de labios, ya que el modelo de video no genera movimientos de la boca que coincidan con la transcripción».

El sistema aún debe someterse a «rigurosas evaluaciones y pruebas de seguridad» antes de que el equipo considere lanzarlo al público. Todos los vídeos y bandas sonoras generados por este sistema se incluirán con las marcas de agua SynthID de Deep Mind. Este sistema está lejos de ser la única IA generadora de audio actualmente en el mercado. Stability AI lanzó un producto similar la semana pasada, mientras que ElevenLabs lanzó su herramienta de efectos de sonido el mes pasado.

Recomendaciones del editor

Diego Bastarrica
Diego Bastarrica es periodista y docente de la Universidad Diego Portales de Chile. Especialista en redes sociales…
El Galaxy A52 del CEO de Telegram no soportó el calor de Dubai
Galaxy A52 Dubai

Pável Dúrov. Reuters. / Digital Trends Español

Una curiosa situación pasó el CEO de Telegram, Pavel Durov, mientras se encontraba en la ciudad de Dubai, ya que su celular sufrió las consecuencias directas del abrasador calor.

Leer más
Mini-LED vs. QLED. Cómo una tecnología está mejorando a la otra
Televisor Samsung QN90C – Mini-LED vs. QLED. Cómo una tecnología está mejorando a la otra

Mini-LED y QLED son dos siglas de tecnología de TV que tienen más en común de lo que piensas. Técnicamente, ambos son tipos de iluminación LED, pero la primera es un tipo de iluminación LED, mientras que la segunda es lo que se obtiene cuando se combina la retroiluminación LED del televisor con una capa de puntos cuánticos (de ahí viene la "Q"). Si esta explicación te crea confusión, ten un poco de paciencia, que ya intentaremos explicártelo mejor más abajo.

Echemos un vistazo más de cerca a la tecnología mini-LED y QLED, comenzando con el elemento más importante: los LED.

Leer más
The Shortcut Sneaker: la zapatilla de Samsung que maneja tu Galaxy
Zapatillas Samsung

Una colaboración muy especial hizo Samsung con un grupo de diseñadores en Holanda, como Cheil Benelux, Elitac Wearables, Bruut Amsterdam y el diseñador de zapatillas Roel van Hoff, para lanzar la zapatilla: The Shortcut Sneaker.

El diseñador de zapatillas Roel van Hoff creó un diseño único, inspirado en la galaxia y el universo. El zapato contiene materiales que recuerdan a meteoritos y supernovas con sus propias texturas y colores. Cada detalle de la zapatilla hace referencia a los productos Galaxy de Samsung.

Leer más