Skip to main content

Voicebox: el ChatGPT de audio que está estrenando Meta

Una nueva revolución en IA ha presentado este viernes 16 de junio la gente de Meta, quizás tratando de ponerse al día con sus competidores en el área como Google u OpenAI. Esta funcionalidad se llama Voicebox, y se trata de un generador de audio a partir de texto.

Voicebox es un generador de texto a salida como GPT o Dall-E, solo que en lugar de crear párrafos o imágenes, entrega clips de audio. Meta define el sistema como «un modelo de coincidencia de flujo no autorregresivo entrenado para rellenar el habla, dado el contexto de audio y el texto». Ha sido entrenado en más de 50,000 horas de audio sin filtrar. Específicamente, Meta usó discursos grabados y transcripciones de un montón de audiolibros de dominio público escritos en inglés, francés, español, alemán, polaco y portugués.

Imagen utilizada con permiso del titular de los derechos de autor

«Nuestros resultados muestran que los modelos de reconocimiento de voz entrenados en voz sintética generada por Voicebox funcionan casi tan bien como los modelos entrenados en voz real», convienen en Meta.

Recommended Videos

El sistema se enseñó por primera vez a predecir segmentos del habla en función de los segmentos que los rodean, así como de la transcripción del pasaje. «Habiendo aprendido a rellenar el habla a partir del contexto, el modelo puede aplicar esto a través de las tareas de generación de voz, incluida la generación de porciones en medio de una grabación de audio sin tener que recrear toda la entrada», explicaron los investigadores de Meta.

Según los informes, Voicebox también es capaz de editar activamente clips de audio, eliminando el ruido del discurso e incluso reemplazando palabras mal habladas. «Una persona podría identificar qué segmento crudo del discurso está corrompido por el ruido (como el ladrido de un perro), recortarlo e instruir al modelo para regenerar ese segmento», dijeron los investigadores de Meta.

Ni la aplicación Voicebox ni su código fuente se están lanzando al público en este momento, confirmó Meta el viernes, citando «los riesgos potenciales del mal uso» a pesar de los «muchos casos de uso emocionantes para los modelos de habla generativa».

Acá se puede escuchar una demostración.

Diego Bastarrica
Diego Bastarrica es periodista y docente de la Universidad Diego Portales de Chile. Especialista en redes sociales…
Las respuestas de búsqueda de ChatGPT son «confiadamente incorrectas»
chatgpt search

ChatGPT ya era una amenaza para la Búsqueda de Google, pero se suponía que la Búsqueda de ChatGPT lograría su victoria, además de ser una respuesta a la IA Perplexity. Pero según un estudio recientemente publicado por el Centro Tow de Periodismo Digital de Columbia, ChatGPT Search tiene dificultades para proporcionar respuestas precisas a las consultas de sus usuarios.

Los investigadores seleccionaron 20 publicaciones de cada una de las tres categorías: las que se asociaron con OpenAI para usar su contenido en los resultados de búsqueda de ChatGPT, las involucradas en demandas contra OpenAI y los editores no afiliados que han permitido o bloqueado el rastreador de ChatGPT.

Leer más
Meta admite errores groseros en la moderación de contenido
Facebook celular

El máximo ejecutivo de Meta, Nick Clegg, reconoció que hay un problema mayúsculo con Meta, y es que la moderación de contenido está fallando.
El presidente de asuntos globales de Meta, dijo a los periodistas el lunes que las "tasas de error de moderación de la compañía siguen siendo demasiado altas" y se comprometió a "mejorar la precisión y exactitud con la que actuamos según nuestras reglas".
"Sabemos que al hacer cumplir nuestras políticas, nuestras tasas de error siguen siendo demasiado altas, lo que se interpone en el camino de la libertad de expresión que nos propusimos permitir", dijo Clegg durante una llamada de prensa a la que asistí. "Con demasiada frecuencia, el contenido inofensivo se elimina o se restringe, y demasiadas personas son penalizadas injustamente".
Clegg además reconoció que uno de los periodos más difíciles de moderación de contenido, fue para la pandemia de COVID-19.

"Teníamos reglas muy estrictas para eliminar grandes volúmenes de contenido durante la pandemia", dijo Clegg. "Nadie durante la pandemia sabía cómo se iba a desarrollar la pandemia, así que esto es realmente sabiduría en retrospectiva. Pero en retrospectiva, sentimos que nos excedimos un poco. Somos muy conscientes porque los usuarios alzaron la voz, con razón, y se quejaron de que a veces aplicamos demasiado y cometemos errores y eliminamos o restringimos contenido inocuo o inocente".

Leer más
El estado de las GPU está a punto de cambiar drásticamente
gpu estan a punto de cambiar

El experto en hardware de DT en inglés, Jacob Roach , habla sobre los próximos lanzamientos de GPU para 2025 y cómo cambiará la concepción de las computadoras.

Prepárate: la lista de las mejores tarjetas gráficas va a ser muy diferente en los próximos meses. Por primera vez, Nvidia, AMD e Intel lanzarán nuevas generaciones con semanas de diferencia. Lo que sea que sepas sobre los tres jugadores principales está a punto de cambiar. No solo estamos recibiendo nuevas generaciones, sino que también hay cambios en la estrategia entre Nvidia y AMD, tarifas con las que lidiar y características de IA de próxima generación como FSR 4 en camino.

Leer más