Skip to main content

Voicebox: el ChatGPT de audio que está estrenando Meta

Una nueva revolución en IA ha presentado este viernes 16 de junio la gente de Meta, quizás tratando de ponerse al día con sus competidores en el área como Google u OpenAI. Esta funcionalidad se llama Voicebox, y se trata de un generador de audio a partir de texto.

Voicebox es un generador de texto a salida como GPT o Dall-E, solo que en lugar de crear párrafos o imágenes, entrega clips de audio. Meta define el sistema como «un modelo de coincidencia de flujo no autorregresivo entrenado para rellenar el habla, dado el contexto de audio y el texto». Ha sido entrenado en más de 50,000 horas de audio sin filtrar. Específicamente, Meta usó discursos grabados y transcripciones de un montón de audiolibros de dominio público escritos en inglés, francés, español, alemán, polaco y portugués.

Imagen utilizada con permiso del titular de los derechos de autor

«Nuestros resultados muestran que los modelos de reconocimiento de voz entrenados en voz sintética generada por Voicebox funcionan casi tan bien como los modelos entrenados en voz real», convienen en Meta.

El sistema se enseñó por primera vez a predecir segmentos del habla en función de los segmentos que los rodean, así como de la transcripción del pasaje. «Habiendo aprendido a rellenar el habla a partir del contexto, el modelo puede aplicar esto a través de las tareas de generación de voz, incluida la generación de porciones en medio de una grabación de audio sin tener que recrear toda la entrada», explicaron los investigadores de Meta.

Según los informes, Voicebox también es capaz de editar activamente clips de audio, eliminando el ruido del discurso e incluso reemplazando palabras mal habladas. «Una persona podría identificar qué segmento crudo del discurso está corrompido por el ruido (como el ladrido de un perro), recortarlo e instruir al modelo para regenerar ese segmento», dijeron los investigadores de Meta.

Ni la aplicación Voicebox ni su código fuente se están lanzando al público en este momento, confirmó Meta el viernes, citando «los riesgos potenciales del mal uso» a pesar de los «muchos casos de uso emocionantes para los modelos de habla generativa».

Acá se puede escuchar una demostración.

Diego Bastarrica
Diego Bastarrica es periodista y docente de la Universidad Diego Portales de Chile. Especialista en redes sociales…
El futuro de los auriculares Meta Quest acaba de filtrarse
meta quest 4 pro filtracion

Los populares auriculares Quest 3 salieron el año pasado, pero según una nueva filtración, el Quest 4 y el Quest Pro de segunda generación también están en la hoja de ruta de Meta.

La hoja de ruta recientemente filtrada proviene de un informe publicado por The Information, que detalla la línea de tiempo que Meta pretende alcanzar con Quest 4 y Quest Pro 2. Fuentes anónimas dentro de Meta afirman que habrá dos variantes del Quest 4, presumiblemente un modelo estándar y premium, con nombre en código Pismo Low y Pismo High. Dado que tenemos datos sólidos sobre el rumoreado Quest 3S, el modelo de menor costo podría terminar siendo el Quest 4S. En cualquier caso, se espera que ambas variantes del Quest 4 se lancen en 2026.

Leer más
El clásico Discman está de regreso con esteroides
discman esta de regreso fiio dm13

 

Fiio llamó mucho la atención con su reinicio del clásico reproductor de casetes portátil a principios de 2024, por lo que no es de extrañar que el último producto de la compañía sea otra explosión del pasado: el DM13, un reproductor de CD portátil que evoca el Sony Discman original. Fiio planea vender una versión plateada del DM13 en septiembre por 179 dólares, y las versiones rojas, azules, de titanio y negras seguirán más adelante en el año.

Leer más
Una canción de Missy Elliott está viajando en el espacio profundo
Missy Elliot

Han pasado casi 50 años desde que la NASA envío al espacio una canción de Chuck Berry al espacio, con la esperanza de que el mensaje de la Tierra pudiera llegar a alguna civilización perdida. Ahora la posta tiene otro ritmo, ya que con la pulsión del hip-hop de The Rain, Missy Elliot ahora viaja en el espacio profundo rumbo a Venus.

El viernes, la canción se cargó en el transmisor ultra poderoso de la Red de Espacio Profundo de la NASA.

Leer más