Solo lo que se nombra existe. ¿Y quién nombra lo que existe? Para Luciana Benotti, académica en lingüística computacional de la Universidad Nacional de Córdoba, Argentina, es tan claro como sesgado. “Hombres blancos de 30 años que viven en la costa oeste de Estados Unidos”, dice a El País. De Silicon Valley, básicamente, donde se toman las decisiones en torno a los modelos amplios de lenguaje que dominan la conversación tecnológica, como el ChatGPT. El problema, dice esta académica que comenzó a programar cuando tenía seis años, es que la inteligencia artificial está pensando como una minoría, porque cuando se habla de plataformas como ChatGPT hay más que redes neuronales y lengua, todo un sistema de valores que puede caer en prejuicios discriminatorios o sexistas. Por eso, dice, lo mejor es que haya diversidad.
La urgencia, dice Benotti, es que al utilizar cúmulos de datos de internet se corre el riesgo de que repetir sesgos. “A menudo absorben prejuicios existentes. Esto puede llevar a resultados que refuercen estereotipos como ‘los mapuches son borrachos’ o ‘las mujeres a la cocina’, dice la académica de Córdoba. “Hay mucho trabajo en nuestra área de investigación en reducir estos sesgos y alinear estos modelos desde una perspectiva de valores del norte global”, dice a El País.
Esa diversidad invariablemente pasa por crear modelos amplios de lenguaje (o large lenguage models) latinos. Hay algunas iniciativas, pero son pocas aún. Destacan por ejemplo LLM latino, una especie de ChatGPT desarrollado en el Centro Nacional de Inteligencia Artificial de Chile. Parte del problema —y de la necesidad—, dice Jocelyn Dunstan, investigadora en ciencias computacionales de la Pontificia Universidad Católica de Chile, es que Latinoamérica nunca es el mercado principal. Eso ha producido una enorme brecha entre la cantidad de recursos para los modelos de lenguaje en inglés y en español. Pero la brecha puede cortarse con colaboración. “Nos ayudará a avanzar más rápido”, dice a El País.
España también comienza a hacer lo propio. El proyecto Alia se desarrolla con bases de datos en español y las otras lenguas cooficiales de España. Entre sus ventajas, dice a El Diario Eric Delgado, director de Ingeniería de Clientes de IBM en España, está que cualquier español podrá contribuir a su desarrollo con conocimientos desde su ámbito, una diferencia que se antoja crucial respecto a ChatGPT, que se entrena con datos de internet pero que también ha tenido disputas legales por usar sin consentimiento material del New York Times y otros medios de comunicación.
Los latinos que mandan en el desarrollo de IA
La Comisión Económica para América Latina y el Caribe (CEPAL) presentó en septiembre pasado los resultados de la 2° edición del Índice Latinoamericano de Inteligencia Artificial (ILIA 2024), un estudio que evalúa el nivel de preparación de los países miembros en relación a la inteligencia artificial.
El ranking, que contempla un puntaje máximo de 100 puntos, ubica a Chile en la primera posición, con 73.07 puntos; le siguen Brasil, con 69.30 puntos; Uruguay, con 64.98 puntos; Argentina, con 55.77 puntos; Colombia, con 52.64 puntos, y México, con 51.40 puntos.
Un aspecto crucial para avanzar en la región, destaca la CEPAL, es implementar políticas con enfoque de género que garanticen la participación equitativa de las mujeres en investigación y desarrollo de inteligencia artificial. “La ciencia va a mejorar cuando sea más diversa”, dice Benotti en su entrevista con El Doce.