Según un informe condenatorio de 404 Media, respaldado con chats internos de Slack, correos electrónicos y documentos obtenidos por el medio, Nvidia se ayudó a sí misma a «una experiencia visual de por vida humana digna de datos de entrenamiento por día», admitió Ming-Yu Liu, vicepresidente de investigación de Nvidia y líder del proyecto Cosmos, en un correo electrónico de mayo.
Ex empleados anónimos de Nvidia le dijeron a 404 que se les había pedido que extrajeran contenido de video de Netflix, YouTube y otras fuentes en línea para obtener datos de entrenamiento para usar con los diversos productos de IA de la compañía. Entre ellos se encuentran el generador de mundos Omniverse 3D de Nvidia, los sistemas de coches autónomos y el «humano digital».
Cuando esos empleados preguntaron sobre la legalidad del proyecto, llamado internamente Cosmos, la gerencia les aseguró que habían recibido autorización de los niveles más altos de la empresa para usar ese contenido.
El proyecto buscaba construir un modelo básico, similar a Gemini 1.5, GPT-4 o Llama 3.1, «que encapsula la simulación del transporte de luz, la física y la inteligencia en un solo lugar para desbloquear varias aplicaciones posteriores críticas para Nvidia».
Para hacer esto, el proyecto Cosmos supuestamente utilizó un descargador de videos de código abierto y empleó el aprendizaje automático para saltar IP, evitando así los intentos de YouTube de bloquearlo. Según los correos electrónicos vistos por 404, los gerentes de proyecto discutieron el uso de hasta 30 máquinas virtuales que se ejecutan en Amazon Web Services para descargar 80 años de videos completos y clips todos los días.
Por su parte, Nvidia no afirma haber cometido ningún delito. «Respetamos los derechos de todos los creadores de contenido y estamos seguros de que nuestros modelos y nuestros esfuerzos de investigación cumplen plenamente con la letra y el espíritu de la ley de derechos de autor», dijo un portavoz de Nvidia a 404 Media por correo electrónico. «La ley de derechos de autor protege expresiones particulares, pero no hechos, ideas, datos o información. Cualquiera es libre de aprender hechos, ideas, datos o información de otra fuente y usarla para hacer sus propias expresiones. El uso legítimo también protege la capacidad de utilizar una obra con un propósito transformador, como la formación de modelos».
Esta no es ni mucho menos la primera vez que Nvidia (por no mencionar a la gran mayoría del resto del campo de la IA) ha adoptado un enfoque de «raspar primero y tal vez pedir perdón después» en sus esfuerzos de entrenamiento de IA. En julio, Nvidia fue nombrada en otro informe sobre el scraping ilegal de videos con derechos de autor junto con Anthropic y Salesforce.
En el CES 2024, la compañía desató una tormenta en Internet con sus respuestas ambiguas sobre cómo se entrenó su nuevo motor de IA generativa para juegos. En respuesta, Nvidia reiteró que sus herramientas eran «comercialmente seguras».