Un sistema que permite descifrar automáticamente una lengua muerta, sin necesidad de tener conocimientos avanzados de su relación con otros idiomas, ha sido desarrollado por científicos del Massachusetts Institute of Technology (MIT).
El desarrollo de los investigadores del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT también es capaz de determinar si existen relaciones entre lenguas.
De hecho, permitió corroborar estudios que sugieren que la lengua ibérica no está tan relacionada con el euskera, como se creía originalmente.
El objetivo del equipo es que, con unas pocas miles de palabras, el sistema sea capaz de descifrar los idiomas perdidos que han dificultado el trabajo de lingüistas durante décadas.
Cómo funciona
La plataforma se sustenta en varios principios basados en conocimientos de la lingüística histórica, como que los idiomas generalmente solo evolucionan de ciertas formas predecibles.
Por ejemplo, si bien un idioma rara vez agrega o elimina un sonido completo, es probable que se produzcan ciertas sustituciones de sonido cuando evoluciona.
Una palabra con una «p» en el idioma principal puede cambiar a una «b» en el idioma descendiente, pero el cambio a una «k» es menos probable.
Al incorporar estas limitaciones, los investigadores desarrollaron un algoritmo de descifrado que maneja los posibles patrones de cambio de lenguaje. De esta forma, puede segmentar palabras en un idioma antiguo y asignarlas a sus contrapartes en otro con el que esté relacionado.
Relación entre lenguas euskera e ibérica
El proyecto se basa en un documento que Barzilay y Luo escribieron en 2019 que descifró los idiomas muertos del ugarítico y el Lineal B, el último de los cuales había tardado décadas en decodificar a los humanos.
Sin embargo, una diferencia clave con ese proyecto era que el equipo sabía que estos idiomas estaban relacionados con las primeras formas del hebreo y el griego, respectivamente.
Con el nuevo sistema, el algoritmo infiere esta relación, como en el caso del ibérico. Los estudiosos aún no pueden ponerse de acuerdo: algunos defienden su vínculo con el euskera -también conocido como vasco-, otros afirman que no se relaciona con ningún idioma conocido.
El equipo aplicó su algoritmo al ibérico considerando al euskera, así como a otros candidatos menos probables de familias romance, germánica, turca y urálica.
Si bien el euskera y el latín estaban más cerca del ibérico que otros idiomas, eran demasiado diferentes para considerarlos relacionados.
En el trabajo futuro, el equipo espera expandir su trabajo más allá del acto de conectar textos con palabras relacionadas en un idioma conocido, un enfoque conocido como «desciframiento basado en afines».
Este paradigma asume que existe una lengua tan conocida, pero el ejemplo del ibérico muestra que no siempre es así.
El enfoque del equipo implicaría identificar el significado semántico de las palabras, incluso si no saben cómo leerlas.