Skip to main content

OpenAI necesita solo 15 segundos de audio para que su IA clone una voz

En los últimos años, el tiempo de escucha requerido por una pieza de IA para clonar la voz de alguien se ha ido acortando cada vez más. Antes eran minutos, ahora son solo segundos.

OpenAI, la compañía respaldada por Microsoft detrás del chatbot viral de IA generativa ChatGPT, reveló recientemente que su propia tecnología de clonación de voz requiere solo 15 segundos de material de audio para reproducir la voz de alguien.

En una publicación en su sitio web, OpenAI compartió una vista previa a pequeña escala de un modelo llamado Voice Engine, que ha estado desarrollando desde finales de 2022.

Voice Engine funciona alimentándolo con un mínimo de 15 segundos de material hablado. Luego, el usuario puede ingresar texto para crear lo que OpenAI describe como un discurso «emotivo y realista» que «se parece mucho al orador original».

OpenAI insiste en que está adoptando un «enfoque cauteloso e informado para un lanzamiento más amplio debido al potencial de uso indebido de la voz sintética», y agrega que quiere «iniciar un diálogo sobre el despliegue responsable de voces sintéticas y cómo la sociedad puede adaptarse a estas nuevas capacidades».

Y agregó: «Basándonos en estas conversaciones y los resultados de estas pruebas a pequeña escala, tomaremos una decisión más informada sobre si implementar esta tecnología a escala y cómo hacerlo».

Uno de los usos indebidos a los que se refiere OpenAI es una estafa que algunos delincuentes ya están llevando a cabo utilizando una tecnología similar que está disponible públicamente desde hace algún tiempo. Consiste en clonar una voz y luego llamar a un amigo o familiar de esa persona para engañarlo para que entregue dinero en efectivo a través de una transferencia bancaria. También hay temores sobre cómo podría usarse dicha tecnología en las próximas elecciones presidenciales, un problema destacado por un reciente incidente de alto perfil en el que una llamada automática con un clon de la voz del presidente Joe Biden le dijo a la gente que no votara en las primarias de New Hampshire de enero.

Otra preocupación es cómo la rápida mejora de la tecnología afectará a los medios de vida de los actores de doblaje, que temen que se les pida cada vez más que cedan los derechos de su voz para que la IA pueda utilizarse para crear una versión sintética, y es probable que la compensación por un contrato de este tipo sea mucho menor que si se le pidiera al actor que realizara el trabajo en persona.

En cuanto a las implementaciones más positivas de la tecnología, OpenAI sugiere que podría usarse para brindar asistencia de lectura a los no lectores y a los niños utilizando voces emotivas y de sonido natural «que representan una gama más amplia de hablantes de lo que es posible con voces preestablecidas», así como la traducción instantánea de videos y podcasts, algo que Spotify ya está probando.

También podría usarse para ayudar a los pacientes que están perdiendo gradualmente la voz a causa de la enfermedad a continuar comunicándose usando lo que suena como su propia voz.

OpenAI tiene algunos ejemplos del audio generado por IA y el audio de referencia en su sitio web, y estamos seguros de que estarás de acuerdo en que son bastante extraordinarios.

Recomendaciones del editor

Topics
Diego Bastarrica
Diego Bastarrica es periodista y docente de la Universidad Diego Portales de Chile. Especialista en redes sociales…
Cómo tomar el curso gratis de OpenAI sobre desarrollo en IA
openai curso gratis inteligencia artificial

"ChatGPT Prompt Engineering for Developers"  es el nombre del curso que acaba de abrir OpenAI y viene a significar 'Prompt engineering / ingeniería de instrucciones de ChatGPT para desarrolladores'. Se trata de un plan de estudios gratis y lo ha hecho uniéndose a DeepLearning.AI, la compañía de Andrew Ng, también cofundador de la plataforma de cursos Coursera y antiguo máximo responsable de Google Brain y del departamento de IA de Baidu.

Este curso de 1,5 horas tiene como objetivo dotar a los desarrolladores de software con las habilidades necesarias para integrar los grandes modelos de lenguajes (LLMs, como GPT-3.5 y GPT-4) en la creación de aplicaciones.

Leer más
OpenAI quiere demandar a estudiantes que hicieron GPT-4 de código abierto
openai demandar estudiantes gpt 4 codigo abierto shantanu kumar xvdknbaja90 unsplash

No hay nada como el grupo de investigación sin fines de lucro convertido en la compañía con fines de lucro OpenAI persiguiendo a un estudiante de ciencias de la computación por un proyecto GPT-4 de código abierto. Suena ridículo, pero es cierto. Los creadores de ChatGPT están amenazando con una demanda contra el estudiante Xtekky si no elimina su repositorio GitHub GPT4free.

Según lo informado por Tom's Hardware, GPT4free es un proyecto de código abierto de un estudiante europeo de informática. El estudiante se identifica como Xtekky, y su herramienta hace ping a varios sitios web que usan GPT-4. Puede clonar el repositorio, configurar el chatbot localmente en su PC e interactuar con GPT-4 sin pagar por el servicio ChatGPT Plus de OpenAI.
Foto por Alan Truly
Lo importante de este enfoque es que no utiliza directamente la interfaz de programación de aplicaciones (API) GPT-4 de OpenAI. OpenAI cobra tarifas a los servicios que usan su API, y GPT4free simplemente se comunica con esos servicios para recibir respuestas.

Leer más
Directora de tecnología de OpenAI: ChatGPT debe ser regulado
mira murati openai chatgpt debe ser regulado

Mira Murati es la CTO (directora de tecnología) de OpenAI y en una extensa entrevista con AP, reconoció que ChatGPT y GPT-4 deben ser regulados por entidades gubernamentales, a la vez que se sorprendió por la acogida emocional que ha tenido la irrupción de su creación.

" Estos sistemas deben ser regulados. En OpenAI, estamos constantemente hablando con gobiernos y reguladores y otras organizaciones que están desarrollando estos sistemas para, al menos a nivel de empresa, acordar algún nivel de estándares. Hemos trabajado en eso en los últimos años con grandes desarrolladores de modelos de lenguaje para alinearnos con algunos estándares de seguridad básicos para la implementación de estos modelos. Pero creo que tiene que pasar mucho más. Los reguladores gubernamentales ciertamente deberían estar muy involucrados", comenzó admitiendo Murati.

Leer más