Skip to main content

Con IA se puede: Google observa píxeles para crear bandas sonoras

Un lobo generado por IA aullando
Deep Mind de Google

Deep Mind mostró el martes los últimos resultados de su investigación generativa de video a audio de IA. Es un sistema novedoso que combina lo que ve en pantalla con la indicación escrita del usuario para crear paisajes sonoros de audio sincronizados para un videoclip determinado.

La IA V2A se puede emparejar con modelos de generación de video como Veo, escribió el equipo de audio generativo de Deep Mind en una publicación de blog, y puede crear bandas sonoras, efectos de sonido e incluso diálogos para la acción en pantalla. Además, Deep Mind afirma que su nuevo sistema puede generar «un número ilimitado de bandas sonoras para cualquier entrada de video» ajustando el modelo con indicaciones positivas y negativas que fomentan o desalientan el uso de un sonido en particular, respectivamente.

V2A Cars

El sistema funciona primero codificando y comprimiendo la entrada de vídeo, que el modelo de difusión aprovecha para refinar de forma iterativa los efectos de audio deseados a partir del ruido de fondo en función de la indicación de texto opcional del usuario y de la entrada visual. Esta salida de audio finalmente se decodifica y se exporta como una forma de onda que luego se puede recombinar con la entrada de video.

Recommended Videos

Lo mejor es que el usuario no tiene que entrar y sincronizar manualmente (léase: tediosamente) las pistas de audio y vídeo, ya que el sistema V2A lo hace automáticamente. «Al entrenar en video, audio y las anotaciones adicionales, nuestra tecnología aprende a asociar eventos de audio específicos con varias escenas visuales, mientras responde a la información proporcionada en las anotaciones o transcripciones», escribió el equipo de Deep Mind.

V2A Wolf

Sin embargo, el sistema aún no está perfeccionado. Por un lado, la calidad del audio de salida depende de la fidelidad de la entrada de vídeo y el sistema se estropea cuando hay artefactos de vídeo u otras distorsiones en la entrada. Según el equipo de Deep Mind, la sincronización del diálogo con la pista de audio sigue siendo un desafío continuo.

V2A Claymation family

«V2A intenta generar voz a partir de las transcripciones de entrada y sincronizarla con los movimientos de los labios de los personajes», explicó el equipo. «Pero el modelo de generación de videos emparejados puede no estar condicionado por las transcripciones. Esto crea un desajuste, lo que a menudo resulta en una extraña sincronización de labios, ya que el modelo de video no genera movimientos de la boca que coincidan con la transcripción».

El sistema aún debe someterse a «rigurosas evaluaciones y pruebas de seguridad» antes de que el equipo considere lanzarlo al público. Todos los vídeos y bandas sonoras generados por este sistema se incluirán con las marcas de agua SynthID de Deep Mind. Este sistema está lejos de ser la única IA generadora de audio actualmente en el mercado. Stability AI lanzó un producto similar la semana pasada, mientras que ElevenLabs lanzó su herramienta de efectos de sonido el mes pasado.

Diego Bastarrica
Diego Bastarrica es periodista y docente de la Universidad Diego Portales de Chile. Especialista en redes sociales…
¿De qué hablaron Mark Zuckerberg con Donald Trump?
El CEO de Facebook junto al presidente Donald Trump

Una cena de camaradería, o de lobby realmente, es la que sostuvieron este miércoles 27 de noviembre, el recién electo presidente de Estados Unidos, Donald Trump, con el CEO de Meta, Mark Zuckerberg.

Cabe recordar que el fundador de Facebook no hizo ningún apoyo abierto al republicano, pero sí se mostró muy sorprendido por el ataque e intento de asesinato que sufrió y la calificó "como una de las cosas más rudas que he visto en mi vida".
"Es un momento importante para el futuro de la innovación estadounidense", dijo el portavoz de Meta, Andy Stone, en un comunicado compartido con el sitio The Verge. "Mark estaba agradecido por la invitación a unirse al presidente Trump para cenar y la oportunidad de reunirse con miembros de su equipo sobre la administración entrante".
Si bien no está claro qué discutieron los dos hombres, la reunión sugiere que Trump podría estar suavizando su opinión sobre Zuckerberg. Ha dicho que el multimillonario de la tecnología debería ser encarcelado por el papel de Facebook en la carrera presidencial de 2020 y sus donaciones personales a iniciativas de ballet por correo.
En 2020 además,  Mark Zuckerberg, fue criticado por permitir que el presidente Trump publicara declaraciones incendiarias en Facebook.

Leer más
5 tecnologías esenciales sin las que no puedo viajar en avión
La imagen muestra la parte inferior de un avión mientras despega.

El periodista de DT en inglés, Nirave Gondhia , es un viajero empedernido y como tal, en este artículo describió todo lo que no puede olvidar cuando se sube a un avión.

Paso cientos de horas en aviones anualmente y soy increíblemente afortunado de haber visitado cinco continentes, 40 países y casi 100 ciudades en los últimos 10 años. Sin embargo, incluso como viajero experimentado, utilizo algunas cosas, tanto físicas como digitales, que transforman mi experiencia de vuelo.

Leer más
Meta quiere construir un cable de fibra óptica de tamaño mundial
google facebook cables submarinos proyecto apricot cross section of a submarine communications cable  3d illustration

La gente de Meta quiere controlarlo todo y sus esfuerzos en inversión en inteligencia artificial, también tendrá que tener una concordancia en infraestructura necesaria para eso.

Según información de TechCrunch, la compañía de Mark Zuckerberg planea construir un nuevo e importante cable submarino de fibra óptica que se extienda por todo el mundo, un proyecto de 40,000+ kilómetros que podría totalizar más de $ 10 mil millones de inversión. Lo más importante es que Meta será el único propietario y usuario de este cable.
El plan es comenzar con un presupuesto de 2.000 millones de dólares, pero a medida que el proyecto se desarrolle, es probable que esa cifra aumente a más de 10.000 millones de dólares a medida que el proyecto se extienda a años de trabajo.
La expectativa es que Meta hable más públicamente al respecto a principios de 2025, cuando confirme los planes para el cable, incluida la ruta prevista, la capacidad y algunos de los razonamientos detrás de su construcción.

Leer más