Skip to main content
  1. Home
  2. Computación
  3. Noticias
  4. News

Voicebox: el ChatGPT de audio que está estrenando Meta

Add as a preferred source on Google

Una nueva revolución en IA ha presentado este viernes 16 de junio la gente de Meta, quizás tratando de ponerse al día con sus competidores en el área como Google u OpenAI. Esta funcionalidad se llama Voicebox, y se trata de un generador de audio a partir de texto.

Voicebox es un generador de texto a salida como GPT o Dall-E, solo que en lugar de crear párrafos o imágenes, entrega clips de audio. Meta define el sistema como «un modelo de coincidencia de flujo no autorregresivo entrenado para rellenar el habla, dado el contexto de audio y el texto». Ha sido entrenado en más de 50,000 horas de audio sin filtrar. Específicamente, Meta usó discursos grabados y transcripciones de un montón de audiolibros de dominio público escritos en inglés, francés, español, alemán, polaco y portugués.

Imagen utilizada con permiso del titular de los derechos de autor

«Nuestros resultados muestran que los modelos de reconocimiento de voz entrenados en voz sintética generada por Voicebox funcionan casi tan bien como los modelos entrenados en voz real», convienen en Meta.

Recommended Videos

El sistema se enseñó por primera vez a predecir segmentos del habla en función de los segmentos que los rodean, así como de la transcripción del pasaje. «Habiendo aprendido a rellenar el habla a partir del contexto, el modelo puede aplicar esto a través de las tareas de generación de voz, incluida la generación de porciones en medio de una grabación de audio sin tener que recrear toda la entrada», explicaron los investigadores de Meta.

Según los informes, Voicebox también es capaz de editar activamente clips de audio, eliminando el ruido del discurso e incluso reemplazando palabras mal habladas. «Una persona podría identificar qué segmento crudo del discurso está corrompido por el ruido (como el ladrido de un perro), recortarlo e instruir al modelo para regenerar ese segmento», dijeron los investigadores de Meta.

Ni la aplicación Voicebox ni su código fuente se están lanzando al público en este momento, confirmó Meta el viernes, citando «los riesgos potenciales del mal uso» a pesar de los «muchos casos de uso emocionantes para los modelos de habla generativa».

Acá se puede escuchar una demostración.

Diego Bastarrica
Diego Bastarrica es Senior Editor y Head of Content en Digital Trends en Español, donde lidera la estrategia editorial, SEO…
OpenAI ofrecería al gobierno de EE.UU. una participación del 5%
Sam Altman

OpenAI propuso entregar al gobierno de Estados Unidos una participación accionaria del 5% en la compañía, según reveló el Financial Times este jueves. Dicha porción equivaldría a unos USD 42,600 millones, tomando como referencia la valorización de USD 852,000 millones que alcanzó la empresa tras su ronda de financiamiento de marzo.

El director ejecutivo Sam Altman planteó que otorgar al público un interés financiero directo en la compañía sería la mejor manera de compartir los beneficios derivados de la inteligencia artificial. La propuesta, discutida en etapas preliminares con la administración Trump, contemplaría que Washington reciba un 5% de cada uno de los principales desarrolladores estadounidenses de IA a través de un vehículo gubernamental similar a un fondo soberano.

Read more
Las reseñas engañosas de IA de TripAdvisor pueden arruinar tu viaje
Computer, Electronics, Laptop

Planificar un viaje ya es bastante estresante sin preguntarse si el resumen tan brillante del hotel que acabas de leer fue escrito por una IA que se saltó las partes aterradoras. Resulta que eso podría ser exactamente lo que está ocurriendo en TripAdvisor.

Según una investigación del grupo de consumidores Which?, informada por The Guardian, los resúmenes de reseñas generados por IA por TripAdvisor están suavizando quejas graves de los huéspedes y, en algunos casos, incluso peligrosas.

Read more
Ventas de PC caen en su máximo histórico en los últimos 3 años
Computer Hardware, Electronics, Hardware

Las ventas de computadoras nuevas en Estados Unidos registraron su descenso más pronunciado en casi tres años, una tendencia que los analistas atribuyen directamente al encarecimiento sostenido de los chips de memoria y almacenamiento. De acuerdo con la consultora Omdia, los envíos cayeron a 15,8 millones de unidades durante el primer trimestre de 2026, lo que representa una baja del 7% respecto al mismo período del año anterior y constituye la contracción trimestral más severa desde el tercer trimestre de 2023.

El fenómeno no es exclusivo del mercado estadounidense. Diversos análisis recientes coinciden en que la fuerte demanda de componentes destinados a infraestructura de inteligencia artificial ha disparado los precios de la memoria RAM y las unidades de almacenamiento SSD a nivel global, encareciendo notoriamente el ensamblaje de equipos completos. Según estimaciones de Omdia, entre el primer trimestre de 2025 y la actualidad, el costo de las configuraciones principales de memoria y almacenamiento se ha incrementado entre 90 y 165 dólares por equipo.

Read more