Skip to main content

AudioCraft: el modelo de IA de Meta para crear música

Meta lanzó un nuevo código de IA de código abierto llamado AudioCraft, que permite a los usuarios crear música y sonidos completamente a través de IA generativa.

Consta de tres modelos de IA, todos abordando diferentes áreas de generación de sonido. MusicGen toma entradas de texto para generar música. Este modelo fue entrenado en «20,000 horas de música propiedad de Meta o licenciada específicamente para este propósito». AudioGen crea audio a partir de indicaciones escritas, simulando ladridos de perros o pasos, y fue entrenado en efectos de sonido públicos. Una versión mejorada del decodificador EnCodec de Meta permite a los usuarios crear sonidos con menos artefactos, que es lo que sucede cuando manipulas demasiado el audio.

«Imagina a un músico profesional capaz de explorar nuevas composiciones sin tener que tocar una sola nota en un instrumento. O un desarrollador de juegos independientes que puebla mundos virtuales con efectos de sonido realistas y ruido ambiental con un presupuesto reducido. O el propietario de una pequeña empresa que agrega una banda sonora a su última publicación de Instagram con facilidad. Esa es la promesa de AudioCraft, nuestro marco simple que genera audio y música realistas y de alta calidad a partir de entradas de usuario basadas en texto después de entrenar en señales de audio sin procesar en lugar de MIDI o rollos de piano», señala Meta.

Imagen utilizada con permiso del titular de los derechos de autor

La familia de modelos AudioCraft es capaz de producir audio de alta calidad con consistencia a largo plazo, y se puede interactuar fácilmente con ella a través de una interfaz natural. Con AudioCraft, simplificamos el diseño general de modelos generativos para audio en comparación con el trabajo anterior en el campo, brindando a las personas la receta completa para jugar con los modelos existentes que Meta ha estado desarrollando en los últimos años, al tiempo que les permitimos superar los límites y desarrollar sus propios modelos.

AudioCraft funciona para la generación y compresión de música y sonido, todo en el mismo lugar. Debido a que es fácil de construir y reutilizar, las personas que desean construir mejores generadores de sonido, algoritmos de compresión o generadores de música pueden hacerlo todo en la misma base de código y construir sobre lo que otros han hecho.

«Creemos que MusicGen puede convertirse en un nuevo tipo de instrumento, al igual que los sintetizadores cuando aparecieron por primera vez», dijo la compañía en un blog.

La compañía dice que AudioCraft necesita código abierto para diversificar los datos utilizados para entrenarlo.

«Reconocemos que los conjuntos de datos utilizados para entrenar nuestros modelos carecen de diversidad. En particular, el conjunto de datos de música utilizado contiene una porción más grande de música de estilo occidental y solo contiene pares de audio-texto con texto y metadatos escritos en inglés», dijo Meta. «Al compartir el código de AudioCraft, esperamos que otros investigadores puedan probar más fácilmente nuevos enfoques para limitar o eliminar el posible sesgo y el mal uso de los modelos generativos».

Diego Bastarrica
Diego Bastarrica es periodista y docente de la Universidad Diego Portales de Chile. Especialista en redes sociales…
Por qué Llama 3 lo está cambiando todo en el mundo de la IA
llama 3 lo esta cambiando todo mundo ia 82370dfd 9a3f 4b19 9665 0ca2736a02fb

En el mundo de la IA, sin duda has oído hablar de lo que OpenAI y Google han estado haciendo. Y ahora, el LLM (modelo de lenguaje grande) Llama de Meta se está convirtiendo en un jugador cada vez más importante en el juego, especialmente con su naturaleza de código abierto. Meta recientemente causó un gran revuelo con el lanzamiento de su modelo de IA Llama 3, y ha sacudido el campo dramáticamente.

Las razones son múltiples y variadas. Es de uso gratuito, tiene una amplia base de usuarios y, sí, es de código abierto, por nombrar solo algunos. He aquí por qué Llama 3 está arrasando en la industria de la IA y puede dar forma a su futuro durante algún tiempo.
Llama 3 es realmente bueno
Podemos debatir hasta que las vacas vuelvan a casa sobre lo útiles que son las IA como ChatGPT y Llama 3 en el mundo real, no son malas para enseñarte las reglas de los juegos de mesa, pero los pocos puntos de referencia que tenemos sobre la capacidad de estas IA le dan a Llama 3 una clara ventaja.

Leer más
Meta presenta Llama 3: su IA para hacer más inteligente WhatsApp, Messenger e Instagram
meta llama 3 whatsapp messenger facebook instagram ai

Este jueves 18 de abril, Mark Zuckerberg y la gente de Meta anunciaron Llama 3, la nueva fase de IA de lenguaje de código abierto para sus plataformas.

Esta versión presenta modelos de lenguaje preentrenados y ajustados a la instrucción con parámetros 8B y 70B que pueden admitir una amplia gama de casos de uso. Esta nueva generación de Llama demuestra un rendimiento de vanguardia en una amplia gama de puntos de referencia de la industria y ofrece nuevas capacidades, incluido un razonamiento mejorado.

Leer más
OpenAI necesita solo 15 segundos de audio para que su IA clone una voz
Mujer está sosteniendo su teléfono y haciendo una grabación de voz al interior de una casa.

En los últimos años, el tiempo de escucha requerido por una pieza de IA para clonar la voz de alguien se ha ido acortando cada vez más. Antes eran minutos, ahora son solo segundos.

OpenAI, la compañía respaldada por Microsoft detrás del chatbot viral de IA generativa ChatGPT, reveló recientemente que su propia tecnología de clonación de voz requiere solo 15 segundos de material de audio para reproducir la voz de alguien.

Leer más