Una de las principales críticas a los modelos de lenguaje de IA existentes es que su estructura de pensamiento y sus respuestas tienen mucho que ver con el origen de sus dueños y desarrolladores, porque aún cuando su universalidad no está en duda, hay muchos aspectos locales y regionales que se van puliendo con el raciocinio de cada zona. Es por este motivo, que los investigadores del Centro Nacional de Inteligencia Artificial (Cenia) de Chile, han reunido a más de 27 instituciones de la región y más de 60 profesionales latinoamericanos para construir Latam-GPT.
Será un modelo abierto, con infraestructura en Chile y con datos entregados por distintos países, que serán alojados y analizados en el Centro de Supercómputo de la Universidad de Tarapacá, que está construyendo una infraestructura para el desarrollo de grandes modelos de IA hasta ahora inexistentes en Latinoamérica.
El objetivo de Latam GPT, es desarrollar un modelo de lenguaje (en tres versiones) que refleje la riqueza cultural, social y lingüística de la región, utilizando grandes volúmenes de datos.
En palabras sencillas, este proyecto entregará un paquete de datos entrenado para crear aplicaciones adaptadas a necesidades de cada país (porque se entrenó con datos locales), con usos potenciales en educación, políticas públicas, preservación de lenguas no hegemónicas y otros sectores.
El subsecretario chileno de Ciencia, Cristián Cuevas Vega aseguró a El País de España que, “La idea es que responda al origen cultural de Latinoamérica, que es diverso. También buscamos de algún modo ofrecer independencia y soberanía tecnológica a la región”.
7 aspectos prometedores de Latam-GPT
- Trabaja con datos abiertos proporcionados por centros de investigación, instituciones públicas, archivos, bibliotecas, universidades, organizaciones sociales, editoriales, productoras de cine y personas de toda la región con acceso a grandes volúmenes de datos a colaborar en el entrenamiento de Latam-GPT. Para eso tienen “Copuchat“, una plataforma para conversaciones que funcionará de manera anónima y que permitirá entrenar el modelo.
- Hasta ahora hay 2.645.500 documentos de más de 21 países de Latinoamérica indexados, con gran recolección de Brasil, México, España, Argentina y Colombia.
- El proyecto ya cuenta con alianzas estratégicas con países como México, Colombia, Ecuador, Argentina, Perú, Uruguay, Costa Rica, España y Estados Unidos, lo que ha permitido generar un corpus de datos que ya alcanza 50 billones de parámetros, comparable al ChatGPT-3.5 de OpenAI.
- Impacto ambiental menor: la infraestructura de la Universidad de Tarapacá tendría un consumo de 135 kWh en su primera etapa, que es lo que consumen 12 servidores de 8 GPU H200 Nvidia y su sistema de refrigeración. “Este sistema de refrigeración no genera consumo hídrico debido a la disponibilidad de energía barata y abundante en Arica. Dada la composición de la matriz energética de Arica (99% de ERNC entre solar e hídrica), las emisiones de CO2 asociadas al entrenamiento son de 0,96 toneladas”, apuntan desde el organismo.
- En Chile aspiran a que el modelo sea adaptado a lenguas de pueblos originarios. De hecho, los investigadores ya están trabajando en el desarrollo de software en idiomas como el mapudungú –hablado por los mapuche, en el sur de Chile– y en rapanui, propio de las comunidades ancestrales de la Isla de Pascua.
- Los promotores del proyecto señalan que la política principal para el resguardo de la propiedad intelectual y los derechos de autor será la transparencia. En ese sentido, destacan que establecerán medidas como el uso de fuentes abiertas, el respeto a los términos de servicio de las fuentes de datos, la extracción de datos mediante API (Interfaz de Programación de Aplicaciones), lo que permite acceder a datos de un servicio de forma estructurada y autorizada cuando sea requerida, la anonimización de datos personales y el cumplimiento de las leyes de derechos de autor.
- Un modelo de lenguaje de IA que da profunda soberanía a Latinoamérica, ya que hasta ahora el proceso de datificación, o el que toda nuestra vida esté cuantificada en datos, representa una nueva forma de colonialismo.