Skip to main content
  1. Home
  2. Tendencias
  3. Computación
  4. Entretenimiento
  5. News

Con IA se puede: Google observa píxeles para crear bandas sonoras

Add as a preferred source on Google
Un lobo generado por IA aullando
Deep Mind de Google

Deep Mind mostró el martes los últimos resultados de su investigación generativa de video a audio de IA. Es un sistema novedoso que combina lo que ve en pantalla con la indicación escrita del usuario para crear paisajes sonoros de audio sincronizados para un videoclip determinado.

La IA V2A se puede emparejar con modelos de generación de video como Veo, escribió el equipo de audio generativo de Deep Mind en una publicación de blog, y puede crear bandas sonoras, efectos de sonido e incluso diálogos para la acción en pantalla. Además, Deep Mind afirma que su nuevo sistema puede generar «un número ilimitado de bandas sonoras para cualquier entrada de video» ajustando el modelo con indicaciones positivas y negativas que fomentan o desalientan el uso de un sonido en particular, respectivamente.

V2A Cars

El sistema funciona primero codificando y comprimiendo la entrada de vídeo, que el modelo de difusión aprovecha para refinar de forma iterativa los efectos de audio deseados a partir del ruido de fondo en función de la indicación de texto opcional del usuario y de la entrada visual. Esta salida de audio finalmente se decodifica y se exporta como una forma de onda que luego se puede recombinar con la entrada de video.

Recommended Videos

Lo mejor es que el usuario no tiene que entrar y sincronizar manualmente (léase: tediosamente) las pistas de audio y vídeo, ya que el sistema V2A lo hace automáticamente. «Al entrenar en video, audio y las anotaciones adicionales, nuestra tecnología aprende a asociar eventos de audio específicos con varias escenas visuales, mientras responde a la información proporcionada en las anotaciones o transcripciones», escribió el equipo de Deep Mind.

V2A Wolf

Sin embargo, el sistema aún no está perfeccionado. Por un lado, la calidad del audio de salida depende de la fidelidad de la entrada de vídeo y el sistema se estropea cuando hay artefactos de vídeo u otras distorsiones en la entrada. Según el equipo de Deep Mind, la sincronización del diálogo con la pista de audio sigue siendo un desafío continuo.

V2A Claymation family

«V2A intenta generar voz a partir de las transcripciones de entrada y sincronizarla con los movimientos de los labios de los personajes», explicó el equipo. «Pero el modelo de generación de videos emparejados puede no estar condicionado por las transcripciones. Esto crea un desajuste, lo que a menudo resulta en una extraña sincronización de labios, ya que el modelo de video no genera movimientos de la boca que coincidan con la transcripción».

El sistema aún debe someterse a «rigurosas evaluaciones y pruebas de seguridad» antes de que el equipo considere lanzarlo al público. Todos los vídeos y bandas sonoras generados por este sistema se incluirán con las marcas de agua SynthID de Deep Mind. Este sistema está lejos de ser la única IA generadora de audio actualmente en el mercado. Stability AI lanzó un producto similar la semana pasada, mientras que ElevenLabs lanzó su herramienta de efectos de sonido el mes pasado.

Diego Bastarrica
Diego Bastarrica es Senior Editor y Head of Content en Digital Trends en Español, donde lidera la estrategia editorial, SEO…
OpenAI ofrecería al gobierno de EE.UU. una participación del 5%
Sam Altman

OpenAI propuso entregar al gobierno de Estados Unidos una participación accionaria del 5% en la compañía, según reveló el Financial Times este jueves. Dicha porción equivaldría a unos USD 42,600 millones, tomando como referencia la valorización de USD 852,000 millones que alcanzó la empresa tras su ronda de financiamiento de marzo.

El director ejecutivo Sam Altman planteó que otorgar al público un interés financiero directo en la compañía sería la mejor manera de compartir los beneficios derivados de la inteligencia artificial. La propuesta, discutida en etapas preliminares con la administración Trump, contemplaría que Washington reciba un 5% de cada uno de los principales desarrolladores estadounidenses de IA a través de un vehículo gubernamental similar a un fondo soberano.

Read more
Starlink ofrece descuento de 50% a vecinos de sus centros de datos
Furniture, Table, Desk

SpaceX anunció que los residentes de Memphis y Southaven, en Tennessee, podrán acceder a un descuento del 50% en sus planes de Starlink, además de la exención del cobro por el arriendo del equipo, como parte de una estrategia de la compañía para "invertir" en las comunidades cercanas a sus centros de datos . Según el sitio oficial de Starlink, la rebaja se aplicará de forma automática según la dirección del suscriptor, lo que reduce el costo del plan de 100 Mbps de 55 a 27,5 dólares mensuales, mientras que el plan Max, que alcanza velocidades superiores a los 400 Mbps, bajaría de 130 a 65 dólares al mes.

El vicepresidente sénior de Starlink, Michael Nicolls, confirmó la medida a través de la red social X, señalando que "las capacidades únicas de los centros de datos Colossus no podrían haberse logrado sin la colaboración y el respaldo de la comunidad local de Memphis" . Por su parte, Elon Musk también se refirió al anuncio en la misma plataforma, calificándolo como una forma de compensar a los vecinos de la zona.

Read more
Científicos de IA alertan por un posible “momento Chernóbil” tecnológico
Chernóbil

Varios de los principales investigadores del sector están cada vez más preocupados por un escenario extremo: que un avance descontrolado en inteligencia artificial provoque un daño masivo o incluso una reacción global contra la tecnología. La expresión “momento Chernóbil” aparece como metáfora de un evento catastrófico que cambie para siempre la percepción pública sobre la IA.

La alarma no se basa solo en teorías abstractas. El debate sobre los riesgos existenciales de la IA viene creciendo desde hace años y ha ganado fuerza a medida que los modelos se vuelven más capaces, autónomos y difíciles de auditar por completo. Distintas voces académicas han advertido que una IA general podría tomar decisiones no alineadas con los objetivos humanos si no existen límites claros, supervisión internacional y mecanismos de control efectivos.

Read more