Skip to main content

Con IA se puede: Google observa píxeles para crear bandas sonoras

Un lobo generado por IA aullando
Deep Mind de Google

Deep Mind mostró el martes los últimos resultados de su investigación generativa de video a audio de IA. Es un sistema novedoso que combina lo que ve en pantalla con la indicación escrita del usuario para crear paisajes sonoros de audio sincronizados para un videoclip determinado.

La IA V2A se puede emparejar con modelos de generación de video como Veo, escribió el equipo de audio generativo de Deep Mind en una publicación de blog, y puede crear bandas sonoras, efectos de sonido e incluso diálogos para la acción en pantalla. Además, Deep Mind afirma que su nuevo sistema puede generar «un número ilimitado de bandas sonoras para cualquier entrada de video» ajustando el modelo con indicaciones positivas y negativas que fomentan o desalientan el uso de un sonido en particular, respectivamente.

V2A Cars

El sistema funciona primero codificando y comprimiendo la entrada de vídeo, que el modelo de difusión aprovecha para refinar de forma iterativa los efectos de audio deseados a partir del ruido de fondo en función de la indicación de texto opcional del usuario y de la entrada visual. Esta salida de audio finalmente se decodifica y se exporta como una forma de onda que luego se puede recombinar con la entrada de video.

Recommended Videos

Lo mejor es que el usuario no tiene que entrar y sincronizar manualmente (léase: tediosamente) las pistas de audio y vídeo, ya que el sistema V2A lo hace automáticamente. «Al entrenar en video, audio y las anotaciones adicionales, nuestra tecnología aprende a asociar eventos de audio específicos con varias escenas visuales, mientras responde a la información proporcionada en las anotaciones o transcripciones», escribió el equipo de Deep Mind.

V2A Wolf

Sin embargo, el sistema aún no está perfeccionado. Por un lado, la calidad del audio de salida depende de la fidelidad de la entrada de vídeo y el sistema se estropea cuando hay artefactos de vídeo u otras distorsiones en la entrada. Según el equipo de Deep Mind, la sincronización del diálogo con la pista de audio sigue siendo un desafío continuo.

V2A Claymation family

«V2A intenta generar voz a partir de las transcripciones de entrada y sincronizarla con los movimientos de los labios de los personajes», explicó el equipo. «Pero el modelo de generación de videos emparejados puede no estar condicionado por las transcripciones. Esto crea un desajuste, lo que a menudo resulta en una extraña sincronización de labios, ya que el modelo de video no genera movimientos de la boca que coincidan con la transcripción».

El sistema aún debe someterse a «rigurosas evaluaciones y pruebas de seguridad» antes de que el equipo considere lanzarlo al público. Todos los vídeos y bandas sonoras generados por este sistema se incluirán con las marcas de agua SynthID de Deep Mind. Este sistema está lejos de ser la única IA generadora de audio actualmente en el mercado. Stability AI lanzó un producto similar la semana pasada, mientras que ElevenLabs lanzó su herramienta de efectos de sonido el mes pasado.

Diego Bastarrica
Diego Bastarrica es periodista y docente de la Universidad Diego Portales de Chile. Especialista en redes sociales…
Fiasco: los robots Optimus de la fiesta de Tesla eran humanos
robot optimus fiesta tesla humanos disfrazados

El sitio The Verge fue uno de los asistentes que tuvo el evento We Robot de Tesla el pasado jueves 10 de octubre, donde Elon Musk presentó su robotaxi Cybercab, y además adelantó cómo será el proceso de venta y de características de los robot Optimus.

El periodista de ese medio, Wes Davis, junto evidencia para desenmascarar a los robots que ese día desfilaron, pero además sirvieron tragos a los asistentes.

Leer más
¿Esto es un hámster?…NO, es un robot de Casio
robot casio moflin

Son tiempos especiales estos que vivimos, y la crisis de la soledad parece que está llevando a las compañías tecnológicas a desarrollar productos hace décadas impensados. La última invención "peluda" corre por cuenta del clásico fabricante Casio, que acaba de sacar una especie de hámster robot llamado Moflin.
Moflin está diseñado para ser sostenido y abrazado, y con el tiempo, Casio dice que aprenderá quién eres e intentará desarrollar un vínculo simulado expresado a través de sonidos y movimientos únicos.
Originalmente desarrollado a través de una colaboración con una startup japonesa llamada Vanguard Industries, Moflin ahora está siendo fabricado y distribuido por Casio. Se puede reservar por ¥ 59,400 (alrededor de $ 398 USD) y se espera que esté disponible a partir del 7 de noviembre. Casio también ofrece un servicio de suscripción opcional llamado Club Moflin por 6.600 yenes (unos 44 dólares) al año, que te ofrece un descuento en reparaciones, limpiezas e incluso en un sustituto completo de la piel.

Se supone que Moflin aprende a reconocer a la persona que más interactúa con él a través de su voz y la forma en que maneja al robot, y responderá con sonidos y movimientos únicos que solo se expresan a esa persona para simular un vínculo cercano.

Leer más
¿Quién es Peter Todd, el sujeto que según HBO es el creador del Bitcoin?
Una persona sostiene un Bitcoin frente a la cámara.

El documental Money Electric: The Bitcoin Mystery de HBO, dirigido por el documentalista Cullen Hoback (Q: Into the Storm, 2021, una miniserie sobre teorías de la conspiración), asegura que Satoshi Nakamoto, el hombre, mujer o sociedad detrás de Bitcoin, es el desarrollador canadiense Peter Todd.

Aunque Todd ha negado ser Nakamoto, la identidad detrás del pseudónimo es crucial, pues se estima que la persona o personas detrás de este mote tienen 1.1 millones de bitcoins, es decir, una fortuna valuada en unos 70,000 millones de dólares.

Leer más