Skip to main content

Con IA se puede: Google observa píxeles para crear bandas sonoras

Un lobo generado por IA aullando
Deep Mind de Google

Deep Mind mostró el martes los últimos resultados de su investigación generativa de video a audio de IA. Es un sistema novedoso que combina lo que ve en pantalla con la indicación escrita del usuario para crear paisajes sonoros de audio sincronizados para un videoclip determinado.

La IA V2A se puede emparejar con modelos de generación de video como Veo, escribió el equipo de audio generativo de Deep Mind en una publicación de blog, y puede crear bandas sonoras, efectos de sonido e incluso diálogos para la acción en pantalla. Además, Deep Mind afirma que su nuevo sistema puede generar «un número ilimitado de bandas sonoras para cualquier entrada de video» ajustando el modelo con indicaciones positivas y negativas que fomentan o desalientan el uso de un sonido en particular, respectivamente.

V2A Cars

El sistema funciona primero codificando y comprimiendo la entrada de vídeo, que el modelo de difusión aprovecha para refinar de forma iterativa los efectos de audio deseados a partir del ruido de fondo en función de la indicación de texto opcional del usuario y de la entrada visual. Esta salida de audio finalmente se decodifica y se exporta como una forma de onda que luego se puede recombinar con la entrada de video.

Recommended Videos

Lo mejor es que el usuario no tiene que entrar y sincronizar manualmente (léase: tediosamente) las pistas de audio y vídeo, ya que el sistema V2A lo hace automáticamente. «Al entrenar en video, audio y las anotaciones adicionales, nuestra tecnología aprende a asociar eventos de audio específicos con varias escenas visuales, mientras responde a la información proporcionada en las anotaciones o transcripciones», escribió el equipo de Deep Mind.

V2A Wolf

Sin embargo, el sistema aún no está perfeccionado. Por un lado, la calidad del audio de salida depende de la fidelidad de la entrada de vídeo y el sistema se estropea cuando hay artefactos de vídeo u otras distorsiones en la entrada. Según el equipo de Deep Mind, la sincronización del diálogo con la pista de audio sigue siendo un desafío continuo.

V2A Claymation family

«V2A intenta generar voz a partir de las transcripciones de entrada y sincronizarla con los movimientos de los labios de los personajes», explicó el equipo. «Pero el modelo de generación de videos emparejados puede no estar condicionado por las transcripciones. Esto crea un desajuste, lo que a menudo resulta en una extraña sincronización de labios, ya que el modelo de video no genera movimientos de la boca que coincidan con la transcripción».

El sistema aún debe someterse a «rigurosas evaluaciones y pruebas de seguridad» antes de que el equipo considere lanzarlo al público. Todos los vídeos y bandas sonoras generados por este sistema se incluirán con las marcas de agua SynthID de Deep Mind. Este sistema está lejos de ser la única IA generadora de audio actualmente en el mercado. Stability AI lanzó un producto similar la semana pasada, mientras que ElevenLabs lanzó su herramienta de efectos de sonido el mes pasado.

Diego Bastarrica
Diego Bastarrica es periodista y docente de la Universidad Diego Portales de Chile. Especialista en redes sociales…
La IA suma otro problemón: genera (y generará) un montón de basura
una cuarto de servidores

El desarrollo de más y más aplicaciones de inteligencia artificial también va a generar un crecimiento exponencial de la basura electrónica, residuos que típicamente están cargados de metales tóxicos y que suelen acabar en tiraderos en países con regulaciones laxas, advierte un estudio publicado en Nature Computational Science.

Según los expertos, si no se toman medidas para atenuar la cantidad de basura electrónica producida por los sistemas de inteligencia artificial, podríamos llegar a la década del 2030 con unas 2,500 millones de toneladas anuales de residuos, un incremento cercano al 1000% respecto a las 2,600 toneladas reportadas en 2023.

Leer más
Venden por 1 millón de dólares una «obra de arte» hecha por robot IA
venden obra arte robot ia pintura alan turing

Y llegó el momento en que hasta los artistas tendrán que ponerse nerviosos por el advenimiento de la IA, ya que en una subasta se logró vender por una cifra récord, la pintura realizada por un robot con IA.
La obra en cuestión, es una especie de retrato del descifrador de códigos de la Segunda Guerra Mundial, Alan Turing y se ha vendido por 1.084.800 dólares (836.667 libras) en la casa de remates Sotheby's.
Hubo 27 ofertas para la venta de arte digital de "A.I. God", que originalmente se había estimado que se vendería por entre 120.000 y 180.000 dólares.
La casa de subastas dijo que la venta histórica "lanza una nueva frontera en el mercado mundial del arte, estableciendo el punto de referencia de la subasta para una obra de arte de un robot humanoide".
Agregó que la obra de Ai-Da Robot es "el primer artista robot humanoide en tener una obra de arte vendida en una subasta".

Sotheby's dijo que la venta en línea, que terminó a las 19:00 GMT del jueves, fue comprada por un comprador no revelado por un precio "que supera con creces el precio estimado de la obra de arte".

Leer más
Nintendo nos lleva de paseo por Donkey Kong Land: ¿qué hay de nuevo?
donkey kong land que hay de nuevo

Super Nintendo World sigue afinando todos sus rincones para seguir creciendo y así convertirse en el mundo de fantasía en la vida real de los fanáticos de la compañía japonesa.

En la edición especial de este lunes 11 de noviembre de Nintendo, la leyenda de los videojuegos Shigeru Miyamoto llevó a los fanáticos a Donkey Kong Country como parte de un nuevo Nintendo Direct especial, dando una muestra de lo que se puede esperar de la expansión antes de su lanzamiento el próximo mes en Japón.

Leer más