Cada vez son más frecuentes las noticias de nuevos productos que dicen poder entender lo que decimos o escribimos para ayudarnos en diferentes tareas, desde reservar una mesa a resumir la opinión de los clientes o traducirlos a nuestro idioma.
Estas aplicaciones de las tecnologías del lenguaje no dependen únicamente de disponer de un algoritmo, también requieren de datos específicos en el idioma en el que se pretende que operen. Son necesarias colecciones de textos y sus vocabularios, textos monolingües y multilingües, enriquecidos con metadatos e información lingüística adicional que sirvan de ejemplos a los algoritmos que aprenden a realizar tareas que van desde identificar la opinión expresada en mensajes, contestar a preguntas o mantener un diálogo a traducir cualquier tipo de documento, o clasificarlo, resumirlo, etc. Los llamados recursos lingüísticos son colecciones de textos y palabras, aquellos que son los usados en las tareas que se quieren automatizar, y que se han seleccionado y convertido en datos procesables. Hay que encontrar esos textos, que tienen que poderse copiar y reutilizar; han de limpiarse y formatearse adecuadamente y, después, hay que anotarlos añadiendo la información necesaria para la tarea. Así se convierten en un producto caro y costoso de desarrollar, y cuya carencia es un obstáculo para la creación de aplicaciones o para el despliegue de una aplicación para más de una lengua.
En Europa hay diferentes iniciativas que defienden la necesidad de que sea la Administración pública la que garantice la creación de recursos lingüísticos. Los recursos lingüísticos se entienden así como infraestructuras para fomentar y agilizar la creación de aplicaciones para todas las lenguas y aumentar así el número de aplicaciones para diferentes lenguas y ámbitos. Un ejemplo es el proyecto europeo ELRC cuyo objetivo es recoger datos de la administración pública de los diferentes Estados miembros de la Unión Europea como recursos lingüísticos para el desarrollo de sistemas de traducción automática entre las lenguas de la Unión. Además, los problemas encontrados en ELRC sirven para ilustrar los problemas de la creación de recursos lingüísticos. Otro ejemplo es el Plan de Impulso de las Tecnologías del Lenguaje del Gobierno de España, un programa cuyo objetivo es fomentar la creación de aplicaciones innovadoras basadas en tecnologías del lenguaje. Este programa propone la creación de recursos lingüísticos como infraestructuras que permitan el desarrollo de aplicaciones en español, y lenguas cooficiales en España, en áreas de interés como sanidad, justicia, turismo o educación.
El proyecto Coordinación Europea de Recursos Lingüísticos, o ELRC por sus siglas en inglés European Language Resource Coordination, dentro del programa Connecting Europe Facility (CEF) se inició en 2016 con el objetivo de adquirir los recursos lingüísticos para entrenar eTranslation, el sistema de traducción automática que está desarrollando la Comisión de la Unión Europea para la traducción entre las 24 lenguas oficiales. eTranslation es un sistema de traducción automática de última generación, la llamada traducción automática neuronal. Para conseguir un nivel de calidad aceptable, ELRC ha estimado que para cada par de lenguas necesita recursos lingüísticos del orden de 10 millones de unidades de traducción, es decir frases que son una la traducción de la otra. El proyecto ya cuenta con las memorias de traducción de la Dirección General de Traducción de la Comisión Europea que se ha convertido en un recurso muy solicitado para desarrollar traducción automática. De hecho, la DGT-Translation Memory lleva años siendo el recurso más descargado del portal de datos abiertos de la Comisión Europea (http://data.europa.eu). Pero este recurso no es suficiente para poder alcanzar los niveles de calidad que se requieren para los ámbitos de aplicación de eTranslation. Se necesita más variedad de documentos y de las temáticas de los servicios para los que se quiere utilizar el sistema de traducción. Por ese motivo ELRC se planteó como un proyecto para adquirir, por donación o compra, textos traducidos de diferentes temas y entre diferentes idiomas. Además, los textos tenían que ser de alta calidad y específicamente estar libres de restricciones para su uso y reutilización.
ELRC se propuso obtener datos de las diferentes administraciones públicas de los Estados miembros ya que, a partir de la directiva europea de Reutilización de la Información del Sector Público (RISP, Directiva 2003/98/CE, de 17 de noviembre de 2003, del Parlamento Europeo y del Consejo), los datos generados y custodiados, es decir, también documentos y sus traducciones, por esos organismos eran considerados datos abiertos y, por tanto, reutilizables. El objetivo de ELRC era conseguir 700 000 unidades de traducción por par de lenguas: unas 35 000 páginas de texto, que según una estimación de los costes hipotéticos de producir desde cero las traducciones necesarias, hubiera supuesto unos 1,7 millones de euros por par de lenguas.
Sin embargo, tras dos años de proyecto, se habían obtenido menos de 2500 páginas para la gran mayoría de pares de lenguas. El análisis de los resultados demostró que en mayor o menor medida los problemas encontrados habían sido los mismos en todos los Estados miembros. Por un lado, no había una conciencia de que los textos son datos que pueden ser explotables. Así el archivo de textos se lleva a cabo con criterios muy diferentes a los de su posible reutilización: no se añade información de confidencialidad en los metadatos de archivo, ni la lengua en la que está escrito y se archiva en formato de escaneado fotográfico en lugar de texto digital. Por otro lado, se constató que, a pesar de la directiva europea RISP, todavía hay incertidumbre legal sobre qué son datos públicos cuando se refiere a documentos y en especial sobre quién en la cadena de mando puede autorizar la reutilización por terceros de esos datos. El proyecto ELRC ha ido solucionando estos problemas y los resultados hasta el día de hoy pueden verse en https://elrc-share.eu/.
La experiencia de ELRC puede servir de guía sobre cómo la Administración pública de los Estados puede ser proveedor de recursos lingüísticos si sus documentos se comparten como datos abiertos como ya se había hecho con las memorias de traducción de la Dirección General de Traducción de la Comisión Europea. Estas memorias se han convertido en un producto lingüístico utilizado por los desarrolladores e investigadores en traducción automática de todo el mundo, pero no contienen suficientes datos. Google Translate y DeepL son traductores automáticos que utilizan también la tecnología neuronal, con la que han conseguido resultados de calidad espectacular, aunque no para todos los pares de lenguas. Por ejemplo, las lenguas que actualmente cubre el traductor DeepL son únicamente alemán, inglés, francés, portugués, italiano, neerlandés, polaco, ruso y español, mientras que Google Translate traduce entre 103 lenguas, aunque con diferente calidad (y tecnología) para los pares de lenguas de los que dispone de menos datos para entrenar. Nótese que los conjuntos de datos de entrenamiento de los pares de lenguas de mayor calidad superan los 300 millones de unidades de traducción.
Como acabamos puede ver, conseguir recursos puede resultar difícil incluso para las grandes empresas y las implicaciones de no disponer de recursos empiezan a ser tenidas en cuenta. El 11 de septiembre de 2018, el Parlamento Europeo votó una resolución sobre la Igualdad Lingüística en la Era Digital (2018/2028(INI)), en la que expresamente denunciaba la situación de las lenguas europeas que, teniendo menos hablantes, no disponían, y probablemente no dispondrían, de las mismas aplicaciones y herramientas que las lenguas más habladas en el mundo si su desarrollo no era apoyado específicamente. En esta resolución 2018/2028(INI) se insta a la Comisión y a los Estados miembros a aceptar la responsabilidad compartida en el desarrollo de políticas, estrategias y medidas políticas para definir y desarrollar recursos lingüísticos mínimos, y con acceso abierto, de los que deben disponer todas las lenguas europeas (conjuntos de datos, glosarios, registros de voz, corpus anotados, memorias de traducción, etc.) para hacer posible el desarrollo de aplicaciones para ellas. Igual, como ya hemos visto, en el caso de la traducción automática, los grandes proveedores de servicios de tecnologías del lenguaje (Amazon Comprehend, Cloud Natural Language API de Google, Microsoft Cognitive Services, IBM Watson Natural Language o Facebook NLP) ofrecen una cobertura relativamente pobre de lenguas, y de hecho, los servicios más sofisticados como la minería de opinión, o la extracción de información de textos solo es posible en inglés en la mayoría, lo que deja a muchas lenguas, como advertía la resolución del Parlamento, sin la posibilidad de beneficiarse de las tecnologías del lenguaje.
En España ya se había puesto en marcha un programa estratégico para fomentar el desarrollo de herramientas de tecnologías del lenguaje, traducción automática y sistemas conversacionales en lengua española y lenguas cooficiales en España. El Plan de Impulso de las Tecnologías del Lenguaje (PlanTL, https://www.plantl.gob.es) de la Secretaría de Estado para el Avance Digital del Ministerio de Economía y Empresa, con una inversión prevista de casi 90 millones de euros entre 2016 y 2021, tiene como objetivo garantizar la disponibilidad de aplicaciones en español y lenguas cooficiales en España, aumentando el número, la calidad, la variedad y la disponibilidad de recursos y herramientas y, de forma más innovadora, hacer que la misma Administración pública sea usuaria de las tecnologías del lenguaje en áreas como la sanidad, justicia, turismo y educación, áreas en las que estas tecnologías pueden proporcionar nuevos servicios o servicios más eficaces.
Entre otras acciones, el Plan de Impulso ha previsto el desarrollo de recursos lingüísticos con función de infraestructura: datos y procesadores lingüísticos para el español y lenguas cooficiales que serán de acceso abierto. Así, en el marco de un convenio de colaboración entre la Secretaría de Estado responsable del Plan de Impulso y la Real Academia Española (RAE), se firmó en diciembre de 2017 un convenio de colaboración para la construcción de un corpus textual de español actual. La RAE se está encargando de diseñar, adquirir y anotar con información lingüística de diferentes características el corpus textual, así como de la gestión de los derechos para hacer posible su posterior distribución como datos abiertos.
También en el área de desarrollo de infraestructuras, la Secretaría de Estado firmó en 2016 un convenio con el Centro Nacional de Investigaciones Oncológicas (CNIO) para, entre otras tareas, desarrollar recursos para la extracción automatizada de información de colecciones de textos médicos tales como bibliografía, patentes, historias clínicas electrónicas. En el marco de este convenio con el CNIO se han construido recursos para el procesamiento de textos clínicos en español. El Corpus de Casos Clínicos en Español (SPACCC) contiene un total de 1000 casos clínicos, unas 400 000 palabras, extraídos de la base de datos Scielo y anotados con diferente información lingüística. Con este corpus ya se han podido desarrollar diferentes herramientas de procesamiento para textos médicos que antes solo estaban disponibles públicamente para textos en inglés. AbreMESS-DB es una base de datos de abreviaturas médicas que se alimenta automáticamente leyendo textos en los que identifica nuevas abreviaturas y su forma larga correspondiente. MEDDOCAN es otra de las herramientas desarrolladas en el marco de este convenio y gracias a la disponibilidad del corpus SPACCC. Es un anonimizador que se utiliza para identificar y enmascarar datos de carácter personal e información médica protegida. Esta aplicación hará posible poder reutilizar los datos clínicos para la investigación y el desarrollo de aplicaciones al evitar los problemas relacionados con los datos personales y privados. Se pueden consultar todos los desarrollos llevados a cabo en https://github.com/PlanTL-SANIDAD.
Con el desarrollo de recursos para lenguas y ámbitos determinados, las aplicaciones de las tecnologías del lenguaje pueden ser un factor de innovación en un amplio abanico de ámbitos. Como hemos visto, la calidad de estas aplicaciones depende, además del algoritmo usado, de la calidad y la cobertura de los recursos lingüísticos disponibles para su desarrollo. El desarrollo de recursos es caro y es también responsabilidad de la Administración pública crear protocolos de reutilización de los datos lingüísticos que ella misma produce en sus actividades y fomentar la creación de otros recursos como contribución a una infraestructura que pueda ser útil a investigadores y desarrolladores de nuevas aplicaciones.