Skip to main content

Voicebox: el ChatGPT de audio que está estrenando Meta

Una nueva revolución en IA ha presentado este viernes 16 de junio la gente de Meta, quizás tratando de ponerse al día con sus competidores en el área como Google u OpenAI. Esta funcionalidad se llama Voicebox, y se trata de un generador de audio a partir de texto.

Voicebox es un generador de texto a salida como GPT o Dall-E, solo que en lugar de crear párrafos o imágenes, entrega clips de audio. Meta define el sistema como «un modelo de coincidencia de flujo no autorregresivo entrenado para rellenar el habla, dado el contexto de audio y el texto». Ha sido entrenado en más de 50,000 horas de audio sin filtrar. Específicamente, Meta usó discursos grabados y transcripciones de un montón de audiolibros de dominio público escritos en inglés, francés, español, alemán, polaco y portugués.

Imagen utilizada con permiso del titular de los derechos de autor

«Nuestros resultados muestran que los modelos de reconocimiento de voz entrenados en voz sintética generada por Voicebox funcionan casi tan bien como los modelos entrenados en voz real», convienen en Meta.

El sistema se enseñó por primera vez a predecir segmentos del habla en función de los segmentos que los rodean, así como de la transcripción del pasaje. «Habiendo aprendido a rellenar el habla a partir del contexto, el modelo puede aplicar esto a través de las tareas de generación de voz, incluida la generación de porciones en medio de una grabación de audio sin tener que recrear toda la entrada», explicaron los investigadores de Meta.

Según los informes, Voicebox también es capaz de editar activamente clips de audio, eliminando el ruido del discurso e incluso reemplazando palabras mal habladas. «Una persona podría identificar qué segmento crudo del discurso está corrompido por el ruido (como el ladrido de un perro), recortarlo e instruir al modelo para regenerar ese segmento», dijeron los investigadores de Meta.

Ni la aplicación Voicebox ni su código fuente se están lanzando al público en este momento, confirmó Meta el viernes, citando «los riesgos potenciales del mal uso» a pesar de los «muchos casos de uso emocionantes para los modelos de habla generativa».

Acá se puede escuchar una demostración.

Diego Bastarrica
Diego Bastarrica es periodista y docente de la Universidad Diego Portales de Chile. Especialista en redes sociales…
Meta lanza su propia versión del modo de voz avanzado en Connect 2024
meta modo voz avanzado connect 2024

En Meta Connect 2024 el miércoles, el CEO Mark Zuckerberg subió al escenario para discutir los últimos avances de su compañía en inteligencia artificial. En lo que describe como "probablemente la mayor noticia de IA que tenemos", Zuckerberg dio a conocer Natural Voice Interactions, un competidor directo de Gemini Live de Google y Advanced Voice Mode de OpenAI.

"Creo que la voz va a ser una forma mucho más natural de interactuar con la IA que el texto", comentó Zuckerberg. "Creo que tiene el potencial de ser una de las formas, si no la más frecuente, en que todos interactuamos con la IA". Zuckerberg también anunció que la nueva función comenzará a implementarse para los usuarios hoy en todas las principales aplicaciones de Meta, incluidas Instagram, WhatsApp, Messenger y Facebook.
Meta
"Meta AI se diferencia en esta categoría no solo por ofrecer modelos de IA de última generación, sino también por el acceso ilimitado a esos modelos para una integración gratuita y fácil en nuestros diferentes productos y aplicaciones", dijo Zuckerberg. "Meta AI está en camino de ser el asistente de IA más utilizado en el mundo. Estamos casi en 500 millones de activos mensuales y aún no hemos lanzado en algunos de los países más grandes".

Leer más
El Meta Quest 3S es oficial: realidad mixta aún más asequible
meta quest 3s

En Meta Connect 2024, la compañía anunció oficialmente el anticipado Quest 3S, un auricular de realidad virtual de $ 300 con muchas de las mejores características del Quest 3 más caro que se lanzó el año pasado. Si bien el Quest 3 es un mejor auricular en general, el modelo económico puede ejecutar los mismos juegos de realidad mixta, aplicaciones y títulos de realidad virtual inmersivos.
Meta le dio al Quest 3S un potente chip Qualcomm Snapdragon XR2 Gen 2, el mejor disponible en cualquier auricular Meta VR. Es por eso que puede manejar grandes títulos como Batman: Arkham Shadow y Asgard's Wrath 2. Si compras un Quest 3S durante el período promocional, Arkham Shadow es gratis.
Meta
También tiene controladores Touch Plus sin los anillos voluminosos de los controladores del Quest 2. Si está actualizando desde un auricular de realidad virtual más antiguo, disfrutará de más libertad de movimiento sin preocuparse por el choque de anillos al dibujar un arco virtual o poner la guardia en el boxeo virtual.

El Quest 3S también tiene el mismo seguimiento de manos y compatibilidad con el controlador que el Quest 3. En el sistema operativo Horizon de Meta y en un número cada vez mayor de juegos y aplicaciones, simplemente puede usar sus manos para extender y tocar los controles virtuales como si fueran reales.
Meta Quest 3S parece que tiene una buena calidad de realidad mixta. Meta
Abra el navegador para ver tres tabletas gigantes flotando a su alrededor. Toque una ventana para hacer clic, navegar y desplazarse. Un Meta Quest 3S podría reemplazar tu tableta. Obtienes privacidad automática, pero compartir la pantalla con otra persona no es tan fácil.

Leer más
Amazon, Tesla y Meta acusadas de socavar la democracia
Meta Quest- Zuckerberg

Por estos días los líderes del mundo se reúnen en la  Cumbre del Futuro de las Naciones Unidas en la ciudad de Nueva York el 22 y 23 de septiembre y es una oportunidad para que organizaciones expongan para presentar soluciones a los problemas del trabajo actual. Una de esas es la Confederación Sindical Internacional (CSI), que entregó un informe donde indica que algunas de las empresas más grandes del mundo han sido acusadas de socavar la democracia en todo el mundo al respaldar financieramente a movimientos políticos de extrema derecha, financiar y exacerbar la crisis climática y violar los derechos sindicales y los derechos humanos.

Entre las empresas acusadas están Amazon, Tesla, Meta, ExxonMobil, Blackstone, Vanguard y Glencore.
Qué dice el informe sobre Amazon
El informe señala que el tamaño y el papel de la compañía como el quinto empleador más grande del mundo y el minorista en línea y servicio de computación en la nube más grande, ha tenido un profundo impacto en las industrias y comunidades en las que opera.

Leer más