Skip to main content

Voicebox: el ChatGPT de audio que está estrenando Meta

Una nueva revolución en IA ha presentado este viernes 16 de junio la gente de Meta, quizás tratando de ponerse al día con sus competidores en el área como Google u OpenAI. Esta funcionalidad se llama Voicebox, y se trata de un generador de audio a partir de texto.

Voicebox es un generador de texto a salida como GPT o Dall-E, solo que en lugar de crear párrafos o imágenes, entrega clips de audio. Meta define el sistema como «un modelo de coincidencia de flujo no autorregresivo entrenado para rellenar el habla, dado el contexto de audio y el texto». Ha sido entrenado en más de 50,000 horas de audio sin filtrar. Específicamente, Meta usó discursos grabados y transcripciones de un montón de audiolibros de dominio público escritos en inglés, francés, español, alemán, polaco y portugués.

Imagen utilizada con permiso del titular de los derechos de autor

«Nuestros resultados muestran que los modelos de reconocimiento de voz entrenados en voz sintética generada por Voicebox funcionan casi tan bien como los modelos entrenados en voz real», convienen en Meta.

Recommended Videos

El sistema se enseñó por primera vez a predecir segmentos del habla en función de los segmentos que los rodean, así como de la transcripción del pasaje. «Habiendo aprendido a rellenar el habla a partir del contexto, el modelo puede aplicar esto a través de las tareas de generación de voz, incluida la generación de porciones en medio de una grabación de audio sin tener que recrear toda la entrada», explicaron los investigadores de Meta.

Según los informes, Voicebox también es capaz de editar activamente clips de audio, eliminando el ruido del discurso e incluso reemplazando palabras mal habladas. «Una persona podría identificar qué segmento crudo del discurso está corrompido por el ruido (como el ladrido de un perro), recortarlo e instruir al modelo para regenerar ese segmento», dijeron los investigadores de Meta.

Ni la aplicación Voicebox ni su código fuente se están lanzando al público en este momento, confirmó Meta el viernes, citando «los riesgos potenciales del mal uso» a pesar de los «muchos casos de uso emocionantes para los modelos de habla generativa».

Acá se puede escuchar una demostración.

Diego Bastarrica
Diego Bastarrica es periodista y docente de la Universidad Diego Portales de Chile. Especialista en redes sociales…
Esta aplicación de duplicación de fps es incluso mejor que DLSS 3
lossless scaling aplicacion duplicacion fps

Lossless Scaling es una aplicación de Steam de 7 dólares que ha dado la vuelta a la idea de la generación de fotogramas este año. Al igual que herramientas como DLSS 3 de Nvidia y FSR 3 de AMD, Lossless Scaling ofrece generación de fotogramas. Sin embargo, funciona con cualquier juego y con cualquier tarjeta gráfica, y puede triplicar o cuadruplicar la velocidad de fotogramas con esta generación de fotogramas. Y ahora, la aplicación va más allá con una función que incluso DLSS 3 y FSR 3 no tienen.

El desarrollador publicó la versión beta 2.12 en Steam el miércoles y agrega un par de características nuevas. La más importante es una escala de resolución para LSFG, el algoritmo de generación de fotogramas basado en el aprendizaje automático de la herramienta. Esto le permite disminuir la resolución de los fotogramas de entrada, lo que lleva a una pérdida de calidad muy pequeña a cambio de un aumento de rendimiento bastante grande. La resolución del juego no cambia en absoluto. Básicamente, le estás dando al algoritmo de generación de fotogramas un poco menos de información con la que trabajar.

Leer más
Xbox reconoce que la consola portátil está muy cerca en el horizonte
La Steam Deck, la nueva consola portátil creada por Valve.

Uno de los sueños incumplidos, hasta ahora, de Xbox, es la famosa consola portátil, que aún cuando no es una prioridad, sí es un objetivo a mediano y largo plazo.

Phil Spencer, CEO de Microsoft Gaming, confirmó que ya están trabajando en una consola tipo Steam Deck o ROG Ally.

Leer más
El Pixel Watch está a punto de recibir una actualización muy esperada
pixel watch actualizacion software muy esperada 5

En su mayor parte, Google ha emitido una actualización del Pixel Watch aproximadamente una vez al mes. La mayoría eran simples actualizaciones de seguridad, mientras que otras incluían nuevas funciones y actualizaciones del sistema operativo. Los fanáticos esperaban una actualización en octubre, pero Google la retrasó hasta este mes. Esta actualización reanudará el lanzamiento de Wear OS 5 para los usuarios de Pixel Watch 1 y Pixel Watch 2 después de que una serie de bloqueos hicieran que Google la detuviera en septiembre. Después de varios meses de trabajo, la compañía ha abordado la causa de las caídas y confía en que la actualización de ayer sea estable.

Además de Wear OS 5, la actualización también incluirá mejores controles de la cámara y cambios en la aplicación Pixel Recorder, que estará disponible a través de Play Store. Tu reloj individual te notificará cuando la actualización esté disponible para descargar, para que no tengas que buscarla constantemente. La primera actualización para el Pixel Watch 3 desde su lanzamiento también viene con correcciones de errores y actualizaciones de seguridad. Todos los modelos de Pixel Watch eventualmente se actualizarán a la versión AW2A.241105.012, aunque cuándo se realizará la actualización dependerá tanto del operador como del dispositivo.
Joe Maring / DT
Desafortunadamente, tendremos que esperar un tiempo para las próximas actualizaciones de software del Pixel Watch, que según Google no llegarán hasta marzo de 2025. Hasta ahora, los usuarios de Pixel Watch nunca antes habían visto una brecha de tres meses en las actualizaciones. El tiempo más largo entre actualizaciones generalmente coincidía con actualizaciones del sistema operativo, como de Wear OS 3 a Wear OS 4. Dicho esto, las actualizaciones más lentas no son necesariamente un inconveniente. Al reducir el tiempo dedicado a la implementación de correcciones de errores, Google podría centrarse en lanzar actualizaciones periódicas y más grandes, tal vez trimestrales en lugar de mensuales.

Leer más