Voicebox: el ChatGPT de audio que está estrenando Meta

By Diego Bastarrica Published junio 16, 2023

Una nueva revolución en IA ha presentado este viernes 16 de junio la gente de Meta, quizás tratando de ponerse al día con sus competidores en el área como Google u OpenAI. Esta funcionalidad se llama Voicebox, y se trata de un generador de audio a partir de texto.

Voicebox es un generador de texto a salida como GPT o Dall-E, solo que en lugar de crear párrafos o imágenes, entrega clips de audio. Meta define el sistema como «un modelo de coincidencia de flujo no autorregresivo entrenado para rellenar el habla, dado el contexto de audio y el texto». Ha sido entrenado en más de 50,000 horas de audio sin filtrar. Específicamente, Meta usó discursos grabados y transcripciones de un montón de audiolibros de dominio público escritos en inglés, francés, español, alemán, polaco y portugués.

Imagen utilizada con permiso del titular de los derechos de autor

«Nuestros resultados muestran que los modelos de reconocimiento de voz entrenados en voz sintética generada por Voicebox funcionan casi tan bien como los modelos entrenados en voz real», convienen en Meta.

Recommended Videos

El sistema se enseñó por primera vez a predecir segmentos del habla en función de los segmentos que los rodean, así como de la transcripción del pasaje. «Habiendo aprendido a rellenar el habla a partir del contexto, el modelo puede aplicar esto a través de las tareas de generación de voz, incluida la generación de porciones en medio de una grabación de audio sin tener que recrear toda la entrada», explicaron los investigadores de Meta.

Según los informes, Voicebox también es capaz de editar activamente clips de audio, eliminando el ruido del discurso e incluso reemplazando palabras mal habladas. «Una persona podría identificar qué segmento crudo del discurso está corrompido por el ruido (como el ladrido de un perro), recortarlo e instruir al modelo para regenerar ese segmento», dijeron los investigadores de Meta.

Ni la aplicación Voicebox ni su código fuente se están lanzando al público en este momento, confirmó Meta el viernes, citando «los riesgos potenciales del mal uso» a pesar de los «muchos casos de uso emocionantes para los modelos de habla generativa».

Acá se puede escuchar una demostración.

Diego Bastarrica

News Editor

Diego Bastarrica es periodista y docente de la Universidad Diego Portales de Chile. Especialista en redes sociales…

Topics

Computación

El Padrino de la IA dice que Google superará con creces a OpenAI

Geoffrey Hinton

Geoffrey Hinton, investigador legendario considerado uno de los pioneros fundamentales en el desarrollo de la inteligencia artificial moderna, ha realizado una declaración que genera reverberaciones significativas dentro de la industria tecnológica: sostiene que Google está en proceso de superar a OpenAI en la competición por liderar la próxima generación de sistemas de IA. Esta evaluación proviene de una figura cuya trayectoria científica incluye contribuciones decisivas a los campos del aprendizaje profundo y las redes neuronales, galardones que le permitieron obtener el Premio Nobel de Física en 2024.

Durante una entrevista concedida a Business Insider, Hinton reflexionó sobre la ironía histórica de esta situación. Recordó que Google fue pionera en tecnología de transformadores desde 2017, cuando sus investigadores publicaron el revolucionario artículo "Attention Is All You Need" que transformaría radicalmente el panorama de la IA. Además, Google desarrolló chatbots avanzados antes que cualquier otra organización, pero una postura excesivamente cautelosa limitó su velocidad en la comercialización de estas tecnologías. Hinton atribuyó esta prudencia a la preocupación corporativa por proteger la reputación global de Google tras observar los desastres de imagen que enfrentó Microsoft con su fallido chatbot Tay en 2016, cuando la herramienta generó contenido ofensivo en redes sociales.

Computación

¿Quién es el nuevo amo y señor del Mundial de Excel?

Mundial Excel

Diarmuid Early, un consultor financiero irlandés con experiencia especializada en modelado financiero avanzado, se ha coronado como campeón del Microsoft Excel World Championship 2025, consolidando su posición como la máxima autoridad global en el dominio de la aplicación de hojas de cálculo mediante un desempeño que dejó un margen de superioridad abrumador sobre sus competidores.

Early completó exitosamente todos los desafíos presentados en la final en vivo realizada en la HyperX Arena de Las Vegas, terminando su caso ganador con una ventaja de más de cinco minutos sobre sus rivales más cercanos en tiempo de ejecución.

Computación

Tu próximo PC Dell o Lenovo podría costar más muy pronto

Computer, Computer Hardware, Computer Keyboard

¿Qué ha pasado? La crisis de oferta en DRAM y NAND flash, impulsada inicialmente por el aumento de la demanda de los centros de datos de IA, ha afectado por fin duramente al hardware de consumo. Según informes recientes del sector a través de TrendForce, las principales marcas están reaccionando: según se informa, Dell y Lenovo están preparando aumentos significativos de precios en sus líneas de PC y servidores para absorber el aumento vertiginoso de los costes de los componentes. Esto ocurre después de que HP ya advirtiera de subidas de precios en su gama de PCs y portátiles, mientras que AMD también advirtió sobre un aumento en los precios de sus GPU.

Según se informa, Dell planea un aumento del 15–20% en muchos de sus servidores y PC tan pronto como a mediados de diciembre.