Skip to main content

Voicebox: el ChatGPT de audio que está estrenando Meta

Una nueva revolución en IA ha presentado este viernes 16 de junio la gente de Meta, quizás tratando de ponerse al día con sus competidores en el área como Google u OpenAI. Esta funcionalidad se llama Voicebox, y se trata de un generador de audio a partir de texto.

Voicebox es un generador de texto a salida como GPT o Dall-E, solo que en lugar de crear párrafos o imágenes, entrega clips de audio. Meta define el sistema como «un modelo de coincidencia de flujo no autorregresivo entrenado para rellenar el habla, dado el contexto de audio y el texto». Ha sido entrenado en más de 50,000 horas de audio sin filtrar. Específicamente, Meta usó discursos grabados y transcripciones de un montón de audiolibros de dominio público escritos en inglés, francés, español, alemán, polaco y portugués.

Imagen utilizada con permiso del titular de los derechos de autor

«Nuestros resultados muestran que los modelos de reconocimiento de voz entrenados en voz sintética generada por Voicebox funcionan casi tan bien como los modelos entrenados en voz real», convienen en Meta.

Recommended Videos

El sistema se enseñó por primera vez a predecir segmentos del habla en función de los segmentos que los rodean, así como de la transcripción del pasaje. «Habiendo aprendido a rellenar el habla a partir del contexto, el modelo puede aplicar esto a través de las tareas de generación de voz, incluida la generación de porciones en medio de una grabación de audio sin tener que recrear toda la entrada», explicaron los investigadores de Meta.

Según los informes, Voicebox también es capaz de editar activamente clips de audio, eliminando el ruido del discurso e incluso reemplazando palabras mal habladas. «Una persona podría identificar qué segmento crudo del discurso está corrompido por el ruido (como el ladrido de un perro), recortarlo e instruir al modelo para regenerar ese segmento», dijeron los investigadores de Meta.

Ni la aplicación Voicebox ni su código fuente se están lanzando al público en este momento, confirmó Meta el viernes, citando «los riesgos potenciales del mal uso» a pesar de los «muchos casos de uso emocionantes para los modelos de habla generativa».

Acá se puede escuchar una demostración.

Diego Bastarrica
Diego Bastarrica es periodista y docente de la Universidad Diego Portales de Chile. Especialista en redes sociales…
Un Atari 2600 destrozó a ChatGPT en esta increíble prueba
Atari 2600

Con el paso de los meses hemos llegado a sobrestimar muchas veces las capacidades de ChatGPT y en general de la IA de diferentes modelos, porque es muy cierto que los avances han sido sorprendentes en poquísimo tiempo. Sin embargo, aún sucedes esas situaciones que nos demuestran que la IA aún debe avanzar mucho.

Recientemente, una vieja computadora, y utilizada para usos más bien recreacionales en los ochenta: un clásico Atari 2600, destrozó literalmente a ChatGPT en un encuentro de ajedrez.

Leer más
Mark Zuckerberg está reclutando a un equipo de superinteligencia para mejorar la IA de Meta
mark zuckerberg

Mark Zuckerberg está insatisfecho con el nivel que tiene la IA de Meta, porque aún cuando ha concentrado gran parte de sus últimos esfuerzos en mejorar su estatus en esta área, al parecer el multimillonario CEO quiere tener más incidencia en este mundo.

El fundador de Facebook ha estado reclutando expertos para que se unan a un equipo que está reuniendo para lograr la superinteligencia de IA, según Bloomberg y The New York Times.

Leer más
El cisma en Warner Bros. Discovery: ¿qué significa para el futuro de la TV y el streaming?
Warner Bros.

Siguen los cambios en el mundo del streaming y la televisión, porque este lunes 9 de junio Warner Bros. Discovery ha anunciado planes para dividirse en dos compañías, separando sus divisiones de streaming y estudios de sus negocios de televisión lineal. Se espera que la división se complete a mediados de 2026 y se supone que ayudará a "maximizar el potencial" de su cartera de marcas, según la compañía.

Qué significa en lo práctico este cisma:

Leer más