Skip to main content

Voicebox: el ChatGPT de audio que está estrenando Meta

Una nueva revolución en IA ha presentado este viernes 16 de junio la gente de Meta, quizás tratando de ponerse al día con sus competidores en el área como Google u OpenAI. Esta funcionalidad se llama Voicebox, y se trata de un generador de audio a partir de texto.

Voicebox es un generador de texto a salida como GPT o Dall-E, solo que en lugar de crear párrafos o imágenes, entrega clips de audio. Meta define el sistema como «un modelo de coincidencia de flujo no autorregresivo entrenado para rellenar el habla, dado el contexto de audio y el texto». Ha sido entrenado en más de 50,000 horas de audio sin filtrar. Específicamente, Meta usó discursos grabados y transcripciones de un montón de audiolibros de dominio público escritos en inglés, francés, español, alemán, polaco y portugués.

Imagen utilizada con permiso del titular de los derechos de autor

«Nuestros resultados muestran que los modelos de reconocimiento de voz entrenados en voz sintética generada por Voicebox funcionan casi tan bien como los modelos entrenados en voz real», convienen en Meta.

El sistema se enseñó por primera vez a predecir segmentos del habla en función de los segmentos que los rodean, así como de la transcripción del pasaje. «Habiendo aprendido a rellenar el habla a partir del contexto, el modelo puede aplicar esto a través de las tareas de generación de voz, incluida la generación de porciones en medio de una grabación de audio sin tener que recrear toda la entrada», explicaron los investigadores de Meta.

Según los informes, Voicebox también es capaz de editar activamente clips de audio, eliminando el ruido del discurso e incluso reemplazando palabras mal habladas. «Una persona podría identificar qué segmento crudo del discurso está corrompido por el ruido (como el ladrido de un perro), recortarlo e instruir al modelo para regenerar ese segmento», dijeron los investigadores de Meta.

Ni la aplicación Voicebox ni su código fuente se están lanzando al público en este momento, confirmó Meta el viernes, citando «los riesgos potenciales del mal uso» a pesar de los «muchos casos de uso emocionantes para los modelos de habla generativa».

Acá se puede escuchar una demostración.

Diego Bastarrica
Diego Bastarrica es periodista y docente de la Universidad Diego Portales de Chile. Especialista en redes sociales…
¿Por qué Juan Gabriel y el Noa Noa son este gran Doodle de Google?
juan gabriel doodle google noa

Celebrating Juan Gabriel

Posiblemente te pareció curioso, por qué este 15 de julio, tu búsqueda en Google incluía un tremendo Doodle animado en video de Juan Gabriel y su popular Noa Noa.

Leer más
Strawberry: el siguiente paso de OpenAI que quiere superar a los humanos
openai strawberry superar humanos a3b61a34 3a7c 460c 95fe 85502351c462

OpenAI sigue trabajando a toda máquina para mejorar las capacidades de su inteligencia artificial, y además de GPT-5, la próxima evolución de su IA, también según informes está llevando a cabo un proyecto en clave llamado Strawberry, diseñado para mejorar drásticamente las capacidades de razonamiento de la IA y permitir la investigación autónoma en Internet.

Según Reuters, el proyecto Strawberry de OpenAI consiste en entrenar a la IA para que "planifique con suficiente antelación para navegar por Internet de forma autónoma" y lleve a cabo una "investigación profunda". Esto último podría ayudar a disipar las alucinaciones, ya que los modelos de lenguaje suelen recurrir a inventar información cuando carecen de datos de entrenamiento sobre un tema en particular.

Leer más
Esta nueva configuración de Windows 11 podría mejorar el rendimiento y la duración de la batería
Microsoft Windows 11.

@phantomofearth / X
Microsoft lanzó la versión Windows 11 26252, que trae una avalancha de innovaciones que brindarán a los usuarios un impulso de energía muy necesario. Uno de esos cambios es una nueva configuración de energía que proporcionará al usuario más control cuando su PC está con batería o no, como menciona Phantom Ocean 3 en una publicación en X (anteriormente Twitter), que fue notada por Windows Latest.

En teoría, este mayor grado de control le permitirá a su sistema automatizar la configuración de energía para que no olvide cambiarla manualmente mientras está enchufado o con batería.

Leer más