Skip to main content

Con IA se puede: Google observa píxeles para crear bandas sonoras

Un lobo generado por IA aullando
Deep Mind de Google

Deep Mind mostró el martes los últimos resultados de su investigación generativa de video a audio de IA. Es un sistema novedoso que combina lo que ve en pantalla con la indicación escrita del usuario para crear paisajes sonoros de audio sincronizados para un videoclip determinado.

La IA V2A se puede emparejar con modelos de generación de video como Veo, escribió el equipo de audio generativo de Deep Mind en una publicación de blog, y puede crear bandas sonoras, efectos de sonido e incluso diálogos para la acción en pantalla. Además, Deep Mind afirma que su nuevo sistema puede generar «un número ilimitado de bandas sonoras para cualquier entrada de video» ajustando el modelo con indicaciones positivas y negativas que fomentan o desalientan el uso de un sonido en particular, respectivamente.

El sistema funciona primero codificando y comprimiendo la entrada de vídeo, que el modelo de difusión aprovecha para refinar de forma iterativa los efectos de audio deseados a partir del ruido de fondo en función de la indicación de texto opcional del usuario y de la entrada visual. Esta salida de audio finalmente se decodifica y se exporta como una forma de onda que luego se puede recombinar con la entrada de video.

Lo mejor es que el usuario no tiene que entrar y sincronizar manualmente (léase: tediosamente) las pistas de audio y vídeo, ya que el sistema V2A lo hace automáticamente. «Al entrenar en video, audio y las anotaciones adicionales, nuestra tecnología aprende a asociar eventos de audio específicos con varias escenas visuales, mientras responde a la información proporcionada en las anotaciones o transcripciones», escribió el equipo de Deep Mind.

Sin embargo, el sistema aún no está perfeccionado. Por un lado, la calidad del audio de salida depende de la fidelidad de la entrada de vídeo y el sistema se estropea cuando hay artefactos de vídeo u otras distorsiones en la entrada. Según el equipo de Deep Mind, la sincronización del diálogo con la pista de audio sigue siendo un desafío continuo.

«V2A intenta generar voz a partir de las transcripciones de entrada y sincronizarla con los movimientos de los labios de los personajes», explicó el equipo. «Pero el modelo de generación de videos emparejados puede no estar condicionado por las transcripciones. Esto crea un desajuste, lo que a menudo resulta en una extraña sincronización de labios, ya que el modelo de video no genera movimientos de la boca que coincidan con la transcripción».

El sistema aún debe someterse a «rigurosas evaluaciones y pruebas de seguridad» antes de que el equipo considere lanzarlo al público. Todos los vídeos y bandas sonoras generados por este sistema se incluirán con las marcas de agua SynthID de Deep Mind. Este sistema está lejos de ser la única IA generadora de audio actualmente en el mercado. Stability AI lanzó un producto similar la semana pasada, mientras que ElevenLabs lanzó su herramienta de efectos de sonido el mes pasado.

Diego Bastarrica
Diego Bastarrica es periodista y docente de la Universidad Diego Portales de Chile. Especialista en redes sociales…
Esta IA de texto a video se ve increíble y puedes probarla gratis
luma ai texto video gratis

Luma AI
Los entusiastas de la IA inundaron el sitio web de Luma AI el miércoles, lo que resultó en esperas de varias horas para acceder al nuevo generador de video de IA de alta definición y uso gratuito de la compañía, Dream Machine, informa Venture Beat.

¿A qué se debe tanta emoción? Bueno, el modelo de la startup respaldada por Andreessen Horowitz promete una generación de video de hasta 120 cuadros por segundo durante un máximo de 120 segundos. Y basándonos en algunos de los ejemplos que se han compartido en línea hasta ahora, es bastante impresionante.

Leer más
Elon Musk dice que «miles» de robots humanoides podrían estar trabajando en Tesla en 2025
tesla bot optimus robot humanoide

Optimus, el robot humanoide de Tesla, ya trabaja en sus fábricas

El jefe de Tesla, Elon Musk, ha compartido nuevas imágenes del robot humanoide Optimus de la compañía, junto con una actualización sobre cómo está progresando el desarrollo del robot.

Leer más
Todas las predicciones de Bill Gates que se han hecho realidad
Bill Gates en Davos

Bill Gates, el magnate conocido por haber fundado Microsoft también es una especie de adivino sobre los avances tecnológicos que ha visto y muy seguramente seguirá viendo el mundo. Y es que desde que se retiró de sus funciones generanciales al frente de Microsoft en 2008, Gates ha dedicado buena parte de su vida lo mismo a la filantropía que a la inversión en tech ventures (proyectos tecnológicos) de alto riesgo. Vaya, invierte donde no hay un negocio aparente, pero siempre con miras a hacer uno que, posiblemente, tendrá un impacto positivo en el mundo.

Desde los teléfonos inteligentes, todo tipo de servicios por internet y hasta la inteligencia artificial, estas son algunas de las predicciones de Bill Gates que se han hecho realidad.

Leer más