CREAN TRADUCTORES AUTOMÁTICOS DE LENGUAS INDÍGENAS

“Unificar criterios y buscar la definición aceptada por todos”.

J. Alberto Castro
Columnas
CATRO2-171227_jovenes_indigenas_revaloran_su_lengua_y_cultura_a_traves_de_redes_sociales_dv---Archivo-.jpg

Cuando era estudiante de maestría en la UNAM a Delfino Zacarías Márquez Cruz, hablante de ayuuk (mixe), le rondaba una idea en la cabeza: hacía tiempo quería diseñar un traductor automático de su lengua materna al español, pero no sabía cómo aterrizar el proyecto.

Se acercó a su profesor, el doctor Iván Vladimir Meza, a quien le propuso hacer la red neuronal, pero el docente le advirtió que se requería bastante trabajo de campo porque cuando empezó no había recursos para entrenar el modelo y se necesitaba algo que se llama corpus, que son los textos entre el español y la lengua que se quiere trabajar. “El reto fue trabajarlos, encontrar quién traduzca y que las personas estén dispuestas a compartir”, relata hoy Zacarías Márquez, quien finalmente desarrolló un traductor automático de la lengua ayuuk.

Más adelante el profesor Meza asesoró a otro estudiante de licenciatura, César Cruz, en el Instituto de Investigaciones en Matemáticas Aplicadas y Sistemas (IIMAS) para crear una aplicación móvil diseñada para el aprendizaje-enseñanza de la lengua mazahua o jñatjo, la cual se organiza en forma de campos semánticos, como alfabeto, frases, números, colores, animales, etcétera. MazahuaApp la encontramos en GoogleApps.

En entrevista con Vértigo Meza, investigador del Departamento de Ciencias de la Computación del IIMAS, cuenta que a partir de 2014 comenzó el proyecto de desarrollar traductores automáticos de lenguas indígenas que permitan preservarlas y gozar del privilegio de contar con una experiencia digital como el que ofrecen las grandes empresas internacionales de potentes traductores en línea de inglés, alemán y francés al español.

Recuerda que ese año se acercó a él un estudiante convencido en apoyar a los huicholes, quien tenía y tiene la fortuna de mantener una relación con la comunidad. Así arrancó el proyecto de concretar un traductor automático en la web para el wixárika, también conocido como huichol, lengua indígena nacional que cuenta con 47 mil 625 hablantes distribuidos en cinco municipios de Jalisco.

De acuerdo con el experto en Inteligencia Artificial (IA) los desafíos que representa un traductor automático de una lengua originaria de México a español son varios. Por ejemplo, para este trabajo se utilizan redes neuronales, un modelo computacional que imita un proceso, que en este caso es la traducción de una lengua a otra, por lo que requieren ejemplos, como datos de frases traducidas entre ambas. Para ello se utilizan conceptos matemáticos comunes y hasta cierto punto básicos, como las operaciones matrices y cálculo vectorial.

Dice el académico que “la complejidad surge al calibrar los modelos, es decir, encontrar valores específicos para cada una de las acciones que debe realizar el sistema. De tal manera que una frase en una lengua sea transformada a otra sin ser confundida. Afortunadamente tenemos varios algoritmos que funcionan bien, pero dado que los modelos actuales llamados profundos tienen numerosos módulos y valores para procesar se necesita un equipo de cómputo especializado”.

Actualmente el equipo de la UNAM que lidera Meza desarrolla un programa que permite traducir de forma automática wixárika (Nayarit), ayuuk (Oaxaca), náhuatl (clásico y moderno), mexicanero (Durango) y yorinoqui (Estado de México), como si se tratara de inglés o francés al español. Sin embargo, el estudioso se cuestiona: “¿Cómo se ayuda cuando hay una lengua de la que quedan muy pocos hablantes, como el ayapaneco? De ella hay pocos registros, así que la tecnología probablemente llegue tarde para algunas y no podemos hacer las 68 oficiales, pero hay otras que sí tienen millones o cientos de hablantes y además están floreciendo”.

Lenguas en evolución

Otra limitante que señala Meza es que este tipo de tecnologías es más exitoso cuando tiene un cuerpo robusto de datos, vale decir, millones de ejemplos de frases equivalentes en ambos idiomas para que el programa aprenda a reconocerlas.

“Para lenguas originarias los corpus más grandes están cerca de los diez mil ejemplos, en comparación con los millones de los sistemas comerciales. Estamos muy lejos de tener una experiencia similar a la de usar un traductor normal, porque tenemos muy poquitos datos. Esa es parte de nuestra batalla ahora: conseguir más datos e incrementar nuestros ejemplos”, asegura.

A lo anterior se agrega que las voces originarias de México son predominantemente orales, precisa, por lo que la normalización de su escritura es contemporánea y en diversos casos no está decidido aún cómo se escriben ciertas palabras, conceptos e inclusive frases completas.

Por ejemplo, dice, el caso del wixárika se compone de numerosos vocablos con partículas morfológicas; lo que para nosotros puede ser una frase, para ellos es una sola palabra; una situación difícil de procesar para las redes neuronales. Además son lenguas en evolución, igual que el español o el inglés son idiomas que se usan, están vivos. Incluso, las lenguas originarias como el náhuatl por la dispersión geográfica presentan hoy una gran diversidad de nuevas expresiones.

Precisamente para registrar y capturar esa riqueza de matices, giros lingüísticos, neologismos y la multiplicidad de significados de ciertas palabras se requiere de un ejército de voluntarios que tengan alguna relación con comunidades originarias, jóvenes que estudian alguna carrera universitaria y son usuarios de las lenguas náhuatl, mexicanero o yoem noki.

Este es sin duda el principal desafío para crear un traductor automático que necesita ser alimentado por millones de datos.

Una señal alentadora en esta titánica empresa es que actualmente hay infinidad de hablantes de lenguas originarias que generan traducciones al español de cuentos tradicionales de su cultura en versiones digitales que se difunden ampliamente en distintas plataformas de redes sociales. Este material literario es oro molido para los desarrolladores de traductores digitales en estas lenguas, ya que son materiales valiosos e invaluables. Además hay que respetar el derecho de autor y acreditar la autoría de estas expresiones.

Los creadores de estos traductores automáticos de lenguas originarias del país prevén que esta tecnología sea abierta y se pueda transferir de forma fácil. De hecho, trabajan en los mecanismos para que sea posible obtener la retroalimentación de la propia comunidad hablante.

Citan la experiencia de Delfino Zacarías Márquez, quien logró el traductor automático de la lengua ayuuk (mixe) y sin embargo batalló mucho con la morfología de las palabras y su significado, porque aun en la misma comunidad las escriben diferente y les dan otros significados. Entonces la labor fue unificar criterios y buscar la definición aceptada por todos.

Por eso es muy importante para los universitarios que estos traductores sean evaluados en las propias comunidades, para que emitan su opinión sobre si son funcionales y si efectivamente reflejan o no su lengua.

Para Meza estos son proyectos innovadores por la implementación de nuevas tecnologías como el aprendizaje profundo, redes neuronales y arquitectura transformer, que redundan en ofrecer a la sociedad herramientas de consulta que dan acceso a las lenguas de los pueblos indígenas y a sus hablantes la experiencia digital de la traducción automática como ocurre con otros idiomas y dialectos del mundo.

“Esto ampliará los horizontes culturales de los hablantes de una u otra lengua, mejorará la comunicación y el intercambio de ideas, así como el conocimiento y la identidad entre unos y otros”, comparte el catedrático.

RECUADRO

México: mosaico de lenguas originarias

El país cuenta con 69 lenguas nacionales (68 indígenas y el español), por lo que se encuentra entre las primeras diez naciones con más lenguas originarias y ocupa el segundo lugar con esta característica en América Latina, después de Brasil.

Hay en México casi siete millones de hablantes de alguna lengua indígena y más de 25 millones de mexicanos se reconocen como indígenas, la mayoría de los cuales se localiza en el sudeste del país, donde se registra la mayor población hablante de estas lenguas.

Cerca de 860 mil personas hablan en México la lengua maya, segunda en el país después del náhuatl.