Una de las grandes metas de Google respecto a su famoso traductor, Google Translate, es llegar a los 1,000 idiomas gracias a la ayuda de la IA. Y acaba de dar un paso importante, ya que agregó 111 idiomas nuevos.
«Ahora, con PaLM 2, nuestro modelo de lenguaje de gran tamaño, estamos utilizando Inteligencia Artificial (IA) para ampliar la variedad de idiomas que el Traductor de Google soporta. Esta incorporación de 111 nuevos idiomas es la expansión más grande hasta la fecha», sostiene Google en una entrada de blog.
Desde el cantonés (China) hasta el el q’eqchi (México y Bélice), estos nuevos idiomas representan a más de 660 millones de hablantes, lo que significa traducciones para cerca del 8% de la población mundial. Y están presentes en distintas partes del mundo: algunas son las principales lenguas del mundo, con más de 100 millones de hablantes. Otras son habladas por pequeñas comunidades indígenas, y unas pocas casi no tienen hablantes nativos pero con esfuerzos activos de recuperarla. Alrededor de una cuarta parte de las nuevas lenguas provienen de África, lo que representa nuestra mayor expansión de lenguas africanas hasta la fecha: fon, kikongo, luo, ga, swati (o suazi), venda y wólof.
A continuación, algunos de los idiomas que ahora son compatibles con el Traductor de Google:
- Afar: es la lengua tonal que se habla en Yibuti, Eritrea y Etiopía. De todos los idiomas incluidos en este lanzamiento, el Afar fue el que recibió la mayor cantidad de aportes de la comunidad de voluntarios.
- Cantonés: durante mucho tiempo ha sido uno de los idiomas más solicitados para incluir en el Traductor de Google. Sin embargo, es un idioma difícil de incorporar porque a menudo en la escritura se superpone con el Mandarín, lo que dificulta la búsqueda de datos y el entrenamiento de modelos.
- Manés: es la lengua celta de la Isla de Man. Estuvo a punto de desaparecer con la muerte de su último hablante nativo en 1974. Pero gracias a un movimiento de revitalización en toda la isla, ahora hay miles de hablantes.
- N’Ko: es una forma estandarizada de las lenguas mandingas de África Occidental que unifica muchos dialectos en un idioma común. Su alfabeto único se inventó en 1949 y, actualmente, cuenta con una comunidad de investigación activa que desarrolla recursos y tecnologías para este.
- Punjabi (Shahmukhi): es el tipo de escritura en el alfabeto perso-árabe (Shahmukhi) y el idioma más hablado en Pakistán.
- Tamazight: es la lengua Bereber que se habla en todo el norte de África. Aunque existen muchos dialectos, la forma escrita suele ser comprensible para todos. Se escribe en alfabeto Latino y en el Tifinagh, ambos compatibles con el Traductor de Google.
- Tok Pisin: es un criollo basado en el inglés y la lengua franca de Papúa Nueva Guinea. Si hablas inglés, intenta traducir al Tok Pisin y ¡podrías entender el significado!