Latam-GPT: 7 aspectos prometedores de la IA hecha en Latinoamérica

Una de las principales críticas a los modelos de lenguaje de IA existentes es que su estructura de pensamiento y sus respuestas tienen mucho que ver con el origen de sus dueños y desarrolladores, porque aún cuando su universalidad no está en duda, hay muchos aspectos locales y regionales que se van puliendo con el raciocinio de cada zona. Es por este motivo, que los investigadores del Centro Nacional de Inteligencia Artificial (Cenia) de Chile, han reunido a más de 27 instituciones de la región y más de 60 profesionales latinoamericanos para construir Latam-GPT.

Será un modelo abierto, con infraestructura en Chile y con datos entregados por distintos países, que serán alojados y analizados en el Centro de Supercómputo de la Universidad de Tarapacá, que está construyendo una infraestructura para el desarrollo de grandes modelos de IA hasta ahora inexistentes en Latinoamérica.

7 aspectos prometedores de Latam-GPT

Trabaja con datos abiertos proporcionados por centros de investigación, instituciones públicas, archivos, bibliotecas, universidades, organizaciones sociales, editoriales, productoras de cine y personas de toda la región con acceso a grandes volúmenes de datos a colaborar en el entrenamiento de Latam-GPT. Para eso tienen «Copuchat«, una plataforma para conversaciones que funcionará de manera anónima y que permitirá entrenar el modelo.
Hasta ahora hay 2.645.500 documentos de más de 21 países de Latinoamérica indexados, con gran recolección de Brasil, México, España, Argentina y Colombia.
El proyecto ya cuenta con alianzas estratégicas con países como México, Colombia, Ecuador, Argentina, Perú, Uruguay, Costa Rica, España y Estados Unidos, lo que ha permitido generar un corpus de datos que ya alcanza 50 billones de parámetros, comparable al ChatGPT-3.5 de OpenAI.
Impacto ambiental menor: la infraestructura de la Universidad de Tarapacá tendría un consumo de 135 kWh en su primera etapa, que es lo que consumen 12 servidores de 8 GPU H200 Nvidia y su sistema de refrigeración. «Este sistema de refrigeración no genera consumo hídrico debido a la disponibilidad de energía barata y abundante en Arica. Dada la composición de la matriz energética de Arica (99% de ERNC entre solar e hídrica), las emisiones de CO2 asociadas al entrenamiento son de 0,96 toneladas», apuntan desde el organismo.
En Chile aspiran a que el modelo sea adaptado a lenguas de pueblos originarios. De hecho, los investigadores ya están trabajando en el desarrollo de software en idiomas como el mapudungú –hablado por los mapuche, en el sur de Chile– y en rapanui, propio de las comunidades ancestrales de la Isla de Pascua.
Los promotores del proyecto señalan que la política principal para el resguardo de la propiedad intelectual y los derechos de autor será la transparencia. En ese sentido, destacan que establecerán medidas como el uso de fuentes abiertas, el respeto a los términos de servicio de las fuentes de datos, la extracción de datos mediante API (Interfaz de Programación de Aplicaciones), lo que permite acceder a datos de un servicio de forma estructurada y autorizada cuando sea requerida, la anonimización de datos personales y el cumplimiento de las leyes de derechos de autor.
Un modelo de lenguaje de IA que da profunda soberanía a Latinoamérica, ya que hasta ahora el proceso de datificación, o el que toda nuestra vida esté cuantificada en datos, representa una nueva forma de colonialismo.