Skip to main content
  1. Home
  2. Computación
  3. News

OpenAI necesita solo 15 segundos de audio para que su IA clone una voz

Add as a preferred source on Google

En los últimos años, el tiempo de escucha requerido por una pieza de IA para clonar la voz de alguien se ha ido acortando cada vez más. Antes eran minutos, ahora son solo segundos.

OpenAI, la compañía respaldada por Microsoft detrás del chatbot viral de IA generativa ChatGPT, reveló recientemente que su propia tecnología de clonación de voz requiere solo 15 segundos de material de audio para reproducir la voz de alguien.

Recommended Videos

En una publicación en su sitio web, OpenAI compartió una vista previa a pequeña escala de un modelo llamado Voice Engine, que ha estado desarrollando desde finales de 2022.

Voice Engine funciona alimentándolo con un mínimo de 15 segundos de material hablado. Luego, el usuario puede ingresar texto para crear lo que OpenAI describe como un discurso «emotivo y realista» que «se parece mucho al orador original».

OpenAI insiste en que está adoptando un «enfoque cauteloso e informado para un lanzamiento más amplio debido al potencial de uso indebido de la voz sintética», y agrega que quiere «iniciar un diálogo sobre el despliegue responsable de voces sintéticas y cómo la sociedad puede adaptarse a estas nuevas capacidades».

Y agregó: «Basándonos en estas conversaciones y los resultados de estas pruebas a pequeña escala, tomaremos una decisión más informada sobre si implementar esta tecnología a escala y cómo hacerlo».

Uno de los usos indebidos a los que se refiere OpenAI es una estafa que algunos delincuentes ya están llevando a cabo utilizando una tecnología similar que está disponible públicamente desde hace algún tiempo. Consiste en clonar una voz y luego llamar a un amigo o familiar de esa persona para engañarlo para que entregue dinero en efectivo a través de una transferencia bancaria. También hay temores sobre cómo podría usarse dicha tecnología en las próximas elecciones presidenciales, un problema destacado por un reciente incidente de alto perfil en el que una llamada automática con un clon de la voz del presidente Joe Biden le dijo a la gente que no votara en las primarias de New Hampshire de enero.

Otra preocupación es cómo la rápida mejora de la tecnología afectará a los medios de vida de los actores de doblaje, que temen que se les pida cada vez más que cedan los derechos de su voz para que la IA pueda utilizarse para crear una versión sintética, y es probable que la compensación por un contrato de este tipo sea mucho menor que si se le pidiera al actor que realizara el trabajo en persona.

En cuanto a las implementaciones más positivas de la tecnología, OpenAI sugiere que podría usarse para brindar asistencia de lectura a los no lectores y a los niños utilizando voces emotivas y de sonido natural «que representan una gama más amplia de hablantes de lo que es posible con voces preestablecidas», así como la traducción instantánea de videos y podcasts, algo que Spotify ya está probando.

También podría usarse para ayudar a los pacientes que están perdiendo gradualmente la voz a causa de la enfermedad a continuar comunicándose usando lo que suena como su propia voz.

OpenAI tiene algunos ejemplos del audio generado por IA y el audio de referencia en su sitio web, y estamos seguros de que estarás de acuerdo en que son bastante extraordinarios.

Diego Bastarrica
Diego Bastarrica es periodista y docente de la Universidad Diego Portales de Chile. Especialista en redes sociales…
Topics
Wikipedia 25 años: contra todo somos la columna vertebral del conocimiento
Wikipedia en español

Wikipedia, la mayor enciclopedia colaborativa en la historia de Internet, celebra hoy su vigésimo quinto aniversario desde su fundación el 15 de enero de 2001. Para conmemorar este significativo logro, la Fundación Wikimedia ha lanzado una campaña global denominada "Wikipedia25" bajo el lema "El conocimiento es humano", enfatizando el valor fundamental de la contribución humana en la era de la inteligencia artificial.

A lo largo de sus dos décadas y media de existencia, Wikipedia ha evolucionado desde cuatro artículos iniciales hasta un colosal repositorio que contiene más de 65 millones de artículos distribuidos en más de 300 idiomas, con un promedio de 15.000 millones de visitas mensuales. Este crecimiento extraordinario ha sido posible gracias a una comunidad global de aproximadamente 250.000 editores voluntarios que mensualmente dedican su tiempo y conocimiento a crear, verificar y mantener contenidos bajo rigurosos estándares de neutralidad y confiabilidad.

Read more
El truco supuestamente infalible para mejorar tus prompts en chatbots
ChatGPT

Si tu asistente de IA sigue dejando de lado detalles o hablando más allá de la pregunta, no necesitas un modelo nuevo para obtener mejores resultados. Pequeños cambios en mejores prompts de chatbot pueden limpiar gran parte del desastre.

Una solución es mecánica. Un artículo de investigación de Google destacado por VentureBeat señala un movimiento muy sencillo: pegar tu petición exacta dos veces en el mismo mensaje. Está pensado para aumentar la precisión en trabajos sencillos como la extracción, respuestas cortas y reescritura básica, no en razonamientos largos y de varios pasos.

Read more
ChatGPT Translate: más para reescribir que para traducir literalmente
Page, Text, Electronics

ChatGPT Translate es ahora una página de traducción independiente, y está dirigida directamente al hábito que la mayoría ya tenemos: pegar texto, obtener un resultado rápido y seguir adelante. OpenAI no ha tenido un gran lanzamiento público al respecto, pero la herramienta está activa y soporta traducciones hacia y desde más de 50 idiomas con detección automática de idiomas.

Pero lo que viene después es lo que lo distingue.

Read more