Skip to main content

OpenAI necesita solo 15 segundos de audio para que su IA clone una voz

En los últimos años, el tiempo de escucha requerido por una pieza de IA para clonar la voz de alguien se ha ido acortando cada vez más. Antes eran minutos, ahora son solo segundos.

OpenAI, la compañía respaldada por Microsoft detrás del chatbot viral de IA generativa ChatGPT, reveló recientemente que su propia tecnología de clonación de voz requiere solo 15 segundos de material de audio para reproducir la voz de alguien.

Recommended Videos

En una publicación en su sitio web, OpenAI compartió una vista previa a pequeña escala de un modelo llamado Voice Engine, que ha estado desarrollando desde finales de 2022.

Voice Engine funciona alimentándolo con un mínimo de 15 segundos de material hablado. Luego, el usuario puede ingresar texto para crear lo que OpenAI describe como un discurso «emotivo y realista» que «se parece mucho al orador original».

OpenAI insiste en que está adoptando un «enfoque cauteloso e informado para un lanzamiento más amplio debido al potencial de uso indebido de la voz sintética», y agrega que quiere «iniciar un diálogo sobre el despliegue responsable de voces sintéticas y cómo la sociedad puede adaptarse a estas nuevas capacidades».

Y agregó: «Basándonos en estas conversaciones y los resultados de estas pruebas a pequeña escala, tomaremos una decisión más informada sobre si implementar esta tecnología a escala y cómo hacerlo».

Uno de los usos indebidos a los que se refiere OpenAI es una estafa que algunos delincuentes ya están llevando a cabo utilizando una tecnología similar que está disponible públicamente desde hace algún tiempo. Consiste en clonar una voz y luego llamar a un amigo o familiar de esa persona para engañarlo para que entregue dinero en efectivo a través de una transferencia bancaria. También hay temores sobre cómo podría usarse dicha tecnología en las próximas elecciones presidenciales, un problema destacado por un reciente incidente de alto perfil en el que una llamada automática con un clon de la voz del presidente Joe Biden le dijo a la gente que no votara en las primarias de New Hampshire de enero.

Otra preocupación es cómo la rápida mejora de la tecnología afectará a los medios de vida de los actores de doblaje, que temen que se les pida cada vez más que cedan los derechos de su voz para que la IA pueda utilizarse para crear una versión sintética, y es probable que la compensación por un contrato de este tipo sea mucho menor que si se le pidiera al actor que realizara el trabajo en persona.

En cuanto a las implementaciones más positivas de la tecnología, OpenAI sugiere que podría usarse para brindar asistencia de lectura a los no lectores y a los niños utilizando voces emotivas y de sonido natural «que representan una gama más amplia de hablantes de lo que es posible con voces preestablecidas», así como la traducción instantánea de videos y podcasts, algo que Spotify ya está probando.

También podría usarse para ayudar a los pacientes que están perdiendo gradualmente la voz a causa de la enfermedad a continuar comunicándose usando lo que suena como su propia voz.

OpenAI tiene algunos ejemplos del audio generado por IA y el audio de referencia en su sitio web, y estamos seguros de que estarás de acuerdo en que son bastante extraordinarios.

Topics
Diego Bastarrica
Diego Bastarrica es periodista y docente de la Universidad Diego Portales de Chile. Especialista en redes sociales…
Scarlett Johansson: Sam Altman decía que mi voz era reconfortante
La dura respuesta de Disney a la demanda de Scarlett Johansson

Este lunes 20 de mayo, OpenAI decidió sacar su voz llamada Sky de ChatGPT luego de ser peligrosamente parecida a Scarlett Johansson.

El mismo Sam Altman reconoció que era peligrosa esta voz, porque podía generar confusiones en los usuarios, como en la película Her.

Leer más
Ya no te podrás enamorar de ChatGPT: eliminan voz de Scarlett Johansson
suspenden ingeniero google chatbot se vuelve sensible pel  cula her

OpenAI está reconociendo su error, o al menos así lo tildan ellos, una posibilidad de que algún usuario como Joaquin Phoenix en la película Her se termine enamorando de una IA.

Por eso, la compañía acaba de anunciar que retirará su voz similar a la de Scarlett Johansson de ChatGPT, llamada Sky.
"Creemos que las voces de IA no deben imitar deliberadamente la voz distintiva de una celebridad: la voz de Sky no es una imitación de Scarlett Johansson, sino que pertenece a una actriz profesional diferente que usa su propia voz natural", escribió OpenAI esta mañana.
La directora de tecnología de OpenAI, Mira Murati, negó que la imitación de Johansson fuera intencional en una entrevista con The Verge. Incluso si no se hacía referencia directa a la voz de Johansson, el CEO de OpenAI, Sam Altman, aparentemente ya estaba al tanto de las similitudes, publicando el mensaje de una sola palabra "Her" en X después del evento.

Leer más
OpenAI presenta GPT-4o: su nuevo modelo que conversa contigo
GPT-4o

OpenAI está lanzando un nuevo modelo insignia de IA generativa llamado GPT-4o, que se implementará "iterativamente" en todos los productos de la compañía en las próximas semanas.
El CTO de OpenAI, Muri Murati, dijo que GPT-4o proporciona inteligencia de "nivel GPT-4", pero mejora las capacidades de GPT-4 en texto y visión, así como en audio.

"GPT-4o razona a través de la voz, el texto y la visión", dijo Murati en una presentación en las oficinas de OpenAI.

Leer más