Nvidia está tratando de entrar con fuerza al terreno de la IA generativa, y acaba de presentar una herramienta bautizada como Fugatto (Foundational Generative Audio Transformer Opus 1), un nuevo modelo de inteligencia artificial para generar música y audio que puede modificar las voces y generar sonidos novedosos, una tecnología dirigida a los productores de música, películas y videojuegos.
La versión de Nvidia, genera efectos de sonido y música a partir de una descripción de texto, incluidos sonidos novedosos como hacer ladrar una trompeta como un perro. Lo que la diferencia de otras tecnologías de IA es su capacidad para absorber y modificar el audio existente, por ejemplo, tomando una línea tocada en un piano y transformándola en una línea cantada por una voz humana, o tomando una grabación de palabra hablada y cambiando el acento utilizado y el estado de ánimo expresado.
«Si pensamos en el audio sintético de los últimos 50 años, la música suena diferente ahora debido a las computadoras, debido a los sintetizadores», dijo Bryan Catanzaro, vicepresidente de investigación de aprendizaje profundo aplicado de Nvidia. «Creo que la IA generativa va a aportar nuevas capacidades a la música, a los videojuegos y a la gente común que quiere crear cosas».
El nuevo modelo de Nvidia fue entrenado con datos de código abierto, y la compañía dijo que todavía está debatiendo si publicarlo y cómo hacerlo público.
«Cualquier tecnología generativa siempre conlleva algunos riesgos, porque la gente podría usarla para generar cosas que preferiríamos que no hicieran», dijo Catanzaro. «Tenemos que tener cuidado con eso, por eso no tenemos planes inmediatos para lanzar esto».