Skip to main content

Voicebox: el ChatGPT de audio que está estrenando Meta

Una nueva revolución en IA ha presentado este viernes 16 de junio la gente de Meta, quizás tratando de ponerse al día con sus competidores en el área como Google u OpenAI. Esta funcionalidad se llama Voicebox, y se trata de un generador de audio a partir de texto.

Voicebox es un generador de texto a salida como GPT o Dall-E, solo que en lugar de crear párrafos o imágenes, entrega clips de audio. Meta define el sistema como «un modelo de coincidencia de flujo no autorregresivo entrenado para rellenar el habla, dado el contexto de audio y el texto». Ha sido entrenado en más de 50,000 horas de audio sin filtrar. Específicamente, Meta usó discursos grabados y transcripciones de un montón de audiolibros de dominio público escritos en inglés, francés, español, alemán, polaco y portugués.

Imagen utilizada con permiso del titular de los derechos de autor

«Nuestros resultados muestran que los modelos de reconocimiento de voz entrenados en voz sintética generada por Voicebox funcionan casi tan bien como los modelos entrenados en voz real», convienen en Meta.

Recommended Videos

El sistema se enseñó por primera vez a predecir segmentos del habla en función de los segmentos que los rodean, así como de la transcripción del pasaje. «Habiendo aprendido a rellenar el habla a partir del contexto, el modelo puede aplicar esto a través de las tareas de generación de voz, incluida la generación de porciones en medio de una grabación de audio sin tener que recrear toda la entrada», explicaron los investigadores de Meta.

Según los informes, Voicebox también es capaz de editar activamente clips de audio, eliminando el ruido del discurso e incluso reemplazando palabras mal habladas. «Una persona podría identificar qué segmento crudo del discurso está corrompido por el ruido (como el ladrido de un perro), recortarlo e instruir al modelo para regenerar ese segmento», dijeron los investigadores de Meta.

Ni la aplicación Voicebox ni su código fuente se están lanzando al público en este momento, confirmó Meta el viernes, citando «los riesgos potenciales del mal uso» a pesar de los «muchos casos de uso emocionantes para los modelos de habla generativa».

Acá se puede escuchar una demostración.

Diego Bastarrica
Diego Bastarrica es periodista y docente de la Universidad Diego Portales de Chile. Especialista en redes sociales…
OFICIAL: Esta es la Nintendo Switch 2 que podría llegar el 2 de abril
Nintendo Switch 2

Ya es oficial, finalmente Nintendo lanzó el primer teaser tráiler que muestra cómo será la Nintendo Switch 2, después de muchas filtraciones y especificaciones soltadas al aire.

Si bien, se informa oficialmente que estará disponible durante 2025, no hubo ninguna confirmación certera de la fecha, aunque podría ser el próximo 2 de abril, cuando se celebre un Nintendo Direct que estará dedicada a la nueva consola.

Leer más
Algún día tenía que pasar: Google está perdiendo en el mercado de las búsquedas
Una persona sostiene un teléfono con un buscador Google

Google es un monstruo de las búsquedas, así ha sido durante los últimos quince años y tampoco parece que su influencia vaya a caerse, dejando la corona vacante.

Sin embargo, por vez primera en cuatro años, está bajando su cuota de mercado inferior al 90%.

Leer más
El FBI «eliminará» este desagradable malware que ha afectado a 2,5 millones de PC
fbi eliminara malware millones pc

DT
Un malware originario de China ha sido contenido después de que el FBI obtuviera una orden judicial para eliminar el código dañino de miles de PC con Windows.

La agencia ha puesto fin con éxito al reinado del malware PlugX en Estados Unidos, que ha afectado a más de 2,5 millones de dispositivos en todo el mundo infiltrándose en unidades USB infectadas, señaló PCMag.

Leer más