La lingüística y la traductología no son juegos de azar Joseba K. Abaitua Odriozola
Investigador y profesor de la Universidad de Deusto, Bilbao (España)

Aplicaciones como el reconocimiento del habla o la traducción automática han dado pasos de gigante en los últimos años. Estos avances han sido posibles gracias a una eficaz tecnología de aprendizaje automático que se denomina «aprendizaje profundo». Pero en la medida en que estos métodos funcionan como una caja negra,1 resultan inservibles para avanzar en el conocimiento teórico del lenguaje humano. El resultado es un parcial y frustrante divorcio entre la ingeniería de la lengua más avanzada y disciplinas académicas tradicionales como la lingüística o la traductología.

Los teóricos de la lengua se esfuerzan en estructurar el conocimiento en diversos niveles de análisis (fonético, morfosintáctico, semántico o pragmático), formulan principios y reglas que dan cuenta de cada paso, evitando ceder espacio al azar. Sin embargo, el éxito del aprendizaje profundo estriba precisamente en su habilidad para predecir fenómenos que parecen regidos por el azar. La perplejidad para el estudioso es sentirse incapaz de extraer ninguna enseñanza de estos sistemas. A continuación se presentan algunas ideas que bien permiten superar el obstáculo o justifican su soslayo.

Un equipo de investigadores de la empresa británica DeepMind, pionera en el desarrollo de algoritmos avanzados de inteligencia artificial, ha tratado de evaluar en un trabajo reciente (Yogatama y otros, 2019) lo que de manera eminentemente utilitarista denominan ‘inteligencia lingüística general’ (General Linguistic Intelligence). Se define como la capacidad de reutilizar en nuevos contextos los modelos de lengua que las técnicas de aprendizaje automático son capaces de obtener en los planos léxico, sintáctico, semántico y pragmático para tareas concretas. El objetivo consiste en calibrar el grado de independencia del conocimiento adquirido cuantificando la rapidez con la que el modelo aprende a adaptarse a una nueva tarea. Los autores concluyen que faltan todavía componentes fundamentales para obtener la pretendida inteligencia lingüística general.

Los modelos más avanzados de aprendizaje profundo se entrenan tanto de forma supervisada como no supervisada con grandes cantidades de datos.2 Por lo general incluyen componentes específicos de determinadas tareas con los que acometen tareas múltiples, en los que los datos están compartimentados para cada tarea. Requieren para ello que cada componente sea afinado por separado, así como de un elevado número de ejemplos para su capacitación específica para cada tarea. Adolecen por tanto del inconveniente de que son muy propensos al olvido catastrófico (catastrophic forgetting), tal y como lo definen McCloskey y Cohen (1989) y French (1999), esto es, a la incapacidad de generalizar el conocimiento adquirido para adaptarse a nuevas tareas. Esta conclusión de Yogatama y otros (2019) obliga a atemperar la aclamada supremacía de las técnicas de aprendizaje profundo. Es el caso de Hassan y otros (2018), o Devlin y otros (2018) cuando afirman que las máquinas están superando a los humanos en la traducción automática en pares de lenguas como el chino y el inglés o en la precisión de respuesta a las preguntas del SQuAD (Stanford Question Answering Dataset; Rajpurkar y otros, 2016).

Es cierto que los denominados mecanismos de atención (Vaswani y otros, 2017), o los nuevos módulos de memoria y de arquitectura han mejorado considerablemente los modelos de procesamiento del lenguaje natural (PLN) en muchas e importantes tareas. Si bien los primeros modelos con éxito de PLN basados ​​en aprendizaje profundo fueron motivados por la demanda del mercado (la traducción automática, el reconocimiento automático del habla, la conversión del texto al habla, la respuesta a preguntas), se constata una más que cuestionable tendencia a que las grandes colecciones de datos de entrenamiento se enfocan más hacia la consecución de resultados inmediatos que hacia la obtención de modelos versátiles que permitan la generalización o la abstracción. Pese a que existen contraejemplos reseñables (Kwiatkowski y otros, 2019), Yogatama y otros (2019) censuran el hecho de que conjuntos de datos cada vez mayores creados por procesos de aprovisionamiento público (crowd-sourcing) no se correspondan con los repertorios naturales que pretenden abarcar. Asimismo destacan la existencia de colecciones de datos representativos de una misma tarea para diferentes dominios (por ejemplo, varios conjuntos de datos de respuestas a preguntas) que rara vez se evalúan conjuntamente. Concluyen que este estado de cosas propicia el desarrollo de modelos que solo funcionan correctamente para un propósito específico. Se mantiene paradójicamente la creencia de haber resuelto una tarea general pese a no haber sido capaces de generalizar la muestra que la capacidad de descubrir y hacer uso de estructuras lingüísticas ricas requiere, lo cual perjudica, en última instancia, el avance tecnológico.

Para compensar estas limitaciones, Yogatama y otros (2019) apuntan hacia la mejora de métodos de transferencia y aprendizaje continuo, de módulos de memoria que se adapten más rápidamente a los cambios de dominio, así como a la generalización de tareas. Aprender a aprender (es decir, el metaaprendizaje) es otro gran reto pendiente. Pero dado que los modelos de PLN pueden aprovecharse del mismo tipo de entradas para todas las tareas (sean cadenas de caracteres o palabras), estos autores ven factible que los modelos de metaaprendizaje se generalicen y adapten a nuevas tareas no previstas de antemano. Como hemos visto, el principal escollo por el que los modelos se generalizan con dificultad es que se basan en componentes entrenados para tareas específicas. En teoría, un modelo de lengua óptimo debería ser capaz de realizar cualquier tarea lingüística. Debería poder formularse una tarea como una pregunta que se consulta al modelo y este debería ser capaz de generar la respuesta correcta (como propusieron McCann y otros, 2018, aunque con rendimientos todavía muy inferiores a los modelos entrenados para tareas específicas). También se ha demostrado que el preentrenamiento no supervisado de modelos de lengua que luego se utilizan como base de modelos específicos de tareas mejora considerablemente el rendimiento en tareas posteriores (Peters y otros, 2018). Por estos motivos, Yogatama y otros (2019) confían en que la inteligencia lingüística general progrese con la mejora de los modelos generativos de lengua, aunque todavía sean opacos para la lingüística teórica.

Mitigar la opacidad del aprendizaje automático es sin duda uno de los grandes retos pendientes, al menos desde el comentario atribuido a Jelinek de 1988 («Cada vez que despido a un lingüista, el rendimiento de nuestro sistema de reconocimiento de habla mejora», Wikiquote 2019). La anécdota describe bien el trasfondo por el que por más de tres décadas, a medida que las aplicaciones lingüísticas introducían técnicas de aprendizaje automático, los lingüistas han ido perdiendo relevancia en los equipos de desarrollo de PLN. Pero, pese a ocupar un lugar secundario en los laboratorios, en su trabajo diario, los lingüistas, como los arqueólogos, los sociólogos, o los antropólogos, sí deberían beneficiarse de los avances en la tecnología. En este orden de cosas, Linzen (2018) esboza algunas de las formas en que el aprendizaje profundo y el estudio científico del lenguaje pueden beneficiarse mutuamente. Según este especialista, los lingüistas están en mejor posición para definir los estándares de competencia lingüística a los que debería aspirar la tecnología del lenguaje natural e identificar ejemplos concretos que prueben si esas normas se cumplen, e interpretar el comportamiento de las redes neuronales cuando fallan en hacerlo. Aunque es posible encontrar oraciones que sirvan para evaluar en qué medida un sistema se aproxima a los estándares previstos por las gramáticas, un enfoque basado en datos debería complementarse con un enfoque experimental controlado, con ejemplos críticos que minimicen errores.

Por su parte, las redes neuronales proporcionan una plataforma útil para construir modelos de adquisición de lenguaje y procesamiento instantáneo de oraciones. De acuerdo con Linzen, gran parte del trabajo se ha orientado hacia el desarrollo de paquetes de software estándar, pero no hay razón para creer que una arquitectura adoptada del mundo de la ingeniería lingüística no pueda ajustarse a las necesidades de las ciencias cognitivas. Los modelos más populares son los que pueden utilizar con eficacia grandes colecciones de textos; pero posiblemente sus configuraciones no posean los sesgos inductivos que los lingüistas han atribuido a la adquisición del lenguaje en la infancia. En todo caso, incluso si las redes neuronales con estructura sintáctica explícita no son adoptadas por el mundo de la tecnología del lenguaje natural, es probable que tales arquitecturas sean útiles para probar hipótesis con fines cognitivos. En definitiva, sostiene Linzen, el estudio científico del lenguaje debería beneficiarse no solo del consumo de los productos de la investigación en redes neuronales, sino también de sus propias contribuciones a tal disciplina.

Como decimos, durante las tres últimas décadas se ha producido un extraordinario desarrollo de los métodos que aprenden de manera automática a partir de grandes colecciones de datos y en consecuencia los enfoques teóricos de la lingüística y de la traducción han ido perdiendo protagonismo en el desarrollo de aplicaciones lingüísticas y traductológicas, así como en la formulación de la inteligencia lingüística general, tal y como ha sido definida por Yogatama y otros (2019). Es por esto que como contrapartida es posible identificar una serie de áreas-refugio en las que estos profesionales puedan ser productivos al margen de los rigores tecnológicos. Paso a enumerar solo por encima las áreas que me son mejor conocidas, aunque obviamente no se excluyen otras:

  1. La lingüística teórica (la gramática generativa, el programa minimalista, la lingüística cognitiva, la lingüística funcional, etc.).
  2. La lingüística histórica (la lingüística comparada, la glotocronología, las relaciones filogenéticas, las familias lingüísticas).
  3. La geolingüística (la dialectología, la dialectometría, los atlas lingüísticos, las áreas lingüísticas, las variedades diatópicas, el contacto de lenguas).
  4. La sociolingüística (la planificación lingüística, las variedades diastráticas, el bilingüismo, la diglosia).
  5. La antropología lingüística (las variedades diafásicas, la identidad sociocultural, la etnografía de la comunicación, el sexismo lingüístico).
  6. La traductología (la traducción e interpretación, la localización, la literatura comparada, las teorías sobre la equivalencia, la terminología).

El debate de la interacción entre estas disciplinas y los procedimientos de la inteligencia artificial está en pleno auge. De modo ilustrativo, es pertinente traer a colación los argumentos de un destacado especialista de la lingüística histórica, Lyle Campbell (2019), área en la que se han producido algunas incursiones de los métodos cuantitativos de la biología evolutiva, solapandose sobre los métodos tradicionales que estudian el cambio lingüístico a lo largo del tiempo.3 En concreto alerta Campbell acerca de la confusión de los préstamos con los cognados, ya que pueden producir una gran distorsión en el análisis de la distancia lingüística, aspecto que para nada es advertido por los métodos filogenéticos de la biología evolutiva. Es por esto que esta disciplina solo debería crear predicciones a partir de cognados que hayan sido previamente establecidos por los lingüistas tras la aplicación de métodos de la lingüística estándar. Deben ser lingüistas bien adiestrados quienes se ocupen del trabajo pesado de reconocer los cognados, así como de detectar y apartar los préstamos; en definitiva, de adecuar los datos para que sean utilizables por los métodos cuantitativos. Afirma Campbell que el cambio lingüístico y la evolución biológica no son equiparables en aspectos fundamentales. Mientras que los métodos tradicionales de la lingüística histórica abarcan una gama amplia de datos lingüísticos, los enfoques cuantitativos se limitan a cotejar únicamente datos léxicos (en la forma de vocabularios básicos). La transferencia horizontal, esto es, los fenómenos de difusión y contagio que se producen entre las lenguas recibe poca atención en los enfoques cuantitativos, olvidando que las lenguas están sujetas a muchos tipos de cambios que no afectan a las especies biológicas, cambios que no tienen una base biológica y que están motivados por factores sociales y cognoscitivos.

Como ha puesto de manifiesto el matemático Pedro Zufiria en una entrevista reciente «los macrodatos (big data) permiten diagnosticar enfermedades e incluso componer arte, pero no pueden predecir resultados de la lotería, porque el azar no encierra un conocimiento que delate tendencias en favor de unos números u otros» (La Vanguardia 21-12-2017).4 El biólogo Thomas Woolley por su parte se hacía la siguientes preguntas: ¿por qué hay organismos con la misma información genética que son físicamente distintos?, ¿por qué se dan las mutaciones genéticas y las deformaciones físicas? En biología, estas variaciones, resultado del efecto del azar, son difíciles de predecir. Pero para las matemáticas, la predicción del azar puede ser posible gracias al uso de los modelos adecuados (Ramírez Bahena, 22-02-2012). Aunque la lingüística y la traductología no son juegos de azar, la algoritmia más compleja se ha ido apoderando irreversiblemente de los procedimientos que conducen al desarrollo de las aplicaciones que el mercado demanda. El gran reto de futuro para estas disciplinas pasa por dotarse de métodos que además de evitar el llamado olvido catastrófico, como pretenden los ingenieros de software, permitan a los lingüistas y traductólogos desentrañar y comprender los modelos lingüísticos y de traducción (la pretendida «inteligencia lingüística general») que como arcanos se ocultan en las redes neuronales profundas. Solo así los conocimientos adquiridos automáticamente por las máquinas podrán ser interpretados y aprovechados intelectualmente también por las personas.

Referencias bibliográficas

  • Barnés, Héctor G. «Así se gana a la lotería: el truco de los alumnos del MIT para forrarse legalmente». El Confidencial (25-02-2016).
  • Campbell, Lyle. «La lingüística histórica. El estado actual». Charla plenaria de FLV, 50 años: Nuevos métodos y tendencias en lingüística (vasca), Pamplona 6-7 de marzo 2019.
  • Fohr, Dominique, Odile Mella, Irina Illina. «New Paradigm in Speech Recognition: Deep Neural Networks». IEEE International Conference on Information Systems and Economic Intelligence, April 2017, Marrakech, Morocco. 2017.
  • French, Robert M. «Catastrophic forgetting in connectionist networks». Trends in Cognitive Sciences 3, n.º 4 (1999): 128-135.
  • Hassan, Hany, Anthony Aue, Chang Chen, Vishal Chowdhary, Jonathan Clark, Christian Federmann, Xuedong Huang. «Achieving human parity on automatic Chinese to English news translation». arXiv preprint arXiv:1803.05567 (2018).
  • Kwiatkowski, Tom, Jennimaria Palomaki, Olivia Rhinehart, Michael Collins, Ankur Parikh, Chris Alberti, Danielle Epstei. «Natural Questions: a Benchmark for Question Answering Research». Transactions of the Association of Computational Linguistics (2019).
  • La Vanguardia. «El poder de los macrodatos para predecir, ajeno a la lotería y juegos de azar» (21-12-2017).
  • Linzen, Tal. «What can linguistics and deep learning contribute to each other?». arXiv preprint arXiv:1809.04179 (2018).
  • Maini, Philip K., Thomas E. Woolley, Ruth E. Baker, Eamonn A. Gaffney, Suzanne S. Lee. «Turing's model for biological pattern formation and the robustness problem». Interface Focus 2 4 (2012): 487-96 .
  • McCann, Bryan , Nitish Shirish Keskar, Caiming Xiong y Richard Socher. «The natural language decathlon: Multitask learning as question answering». arXiv preprint (2018).
  • McCloskey, Michael, y Neal J. Cohen. «Catastrophic interference in connectionist networks: The sequential learning problem». Psychology of Learning and Motivation, vol. 24, pp. 109-165. Academic Press (1989).
  • McClure, Sean. «Why do many research studies claim that deep learning is a black box?». Quora (06-10-2016).
  • Rajpurkar, Pranav, Jian Zhang, Konstantin Lopyrev y Percy Liang. «Squad: 100,000+ questions for machine comprehension of text». arXiv preprint arXiv:1606.05250 (2016).
  • Ramírez Bahena, Alejandro. «Cuando el azar es predecible» (22-02-2012)
  • Vaswani, Ashish, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Łukasz Kaiser e Illia Polosukhin. «Attention is all you need». Advances in Neural Information Processing Systems, pp. 5998-6008 (2017).
  • Wikiquote contributors, «Fred Jelinek», Wikiquote, https://en.wikiquote.org/w/index.php?title=Fred_Jelinek&oldid=2466264 (accessed March 2, 2019).
  • Yogatama, Dani, Cyprien de Masson d'Autume, Jerome Connor, Tomas Kocisky, Mike Chrzanowski, Lingpeng Kong, Angeliki Lazaridou. «Learning and Evaluating General Linguistic Intelligence» arXiv preprint arXiv:1901.11373 (2019).

Notas

  • 1. «Cuando nos referimos a los modelos de aprendizaje profundo como cajas negras, generalmente nos referimos a la insalvable dificultad de rastrear una predicción y hallar los rasgos que han jugado un papel clave en el proceso. Aunque las matemáticas utilizadas para construir una red neuronal sean sencillas, no se fácil de entender cómo se combinan para llegar a una solución. Si una multitud de neuronas “interactúa” de forma compleja para producir el resultado final, a pesar de que la construcción de una sola neurona es obvia, no se puede saber exactamente cómo se desarrolló todo una vez que el algoritmo se liberó de los datos. Esto no es sólo así para el aprendizaje profundo. Incluso las redes neuronales poco profundas se consideran cajas negras, ya que es extremadamente difícil comprender la forma en que se obtuvo el resultado final» (McClure 2016).Volver
  • 2. Como botón de muestra sirve el reconocedor de habla de Fohr y otros (2017). Su modelo lingüístico se compone de 40 millones de bigramas, un léxico de 96 000 palabras y una base de datos de 200 000 pronunciaciones. El corpus de entrenamiento lo formaban 1,8 mil millones de palabras procedentes de medios de prensa escrita (Le Monde, L’Humanité) y de cables de noticias (Gigaword).Volver
  • 3. Campbell (2019) enumera exhaustivamente los principales aspectos que la biología evolutiva desatiende: los cambios analógicos, los cambios en cadena, la direccionalidad del cambio, la interdependencia entre los subsistemas de la lengua, el condicionamiento sociolingüístico del cambio, el contacto lingüístico, el reanálisis, la gramaticalización, la evitación de la homofonía, el cambio semántico, los neologismos, o los préstamos.Volver
  • 4. Lo cual no ha sido óbice para que James Harvey y sus compañeros, estudiantes de matemáticas del Massachusetts Institute of Technology (MIT), encontraran un método probabilístico con el que llenarse los bolsillos en los juegos de lotería de los EE. UU. (Barnés, 25-02-2016). Volver