El español en la sociedad digital: una propuestaJosé Antonio Millán
Editor electrónico y escritor. Barcelona (España)

La lengua es algo gratuito. Sin embargo, existe un ámbito en el que usar la lengua cuesta siempre algo, y ése es el terreno en el que se dirime gran parte de la economía y competencia contemporáneas. En el medio digital, en el universo de los ordenadores y redes de comunicaciones, todo uso de la lengua cuesta dinero, porque sólo es posible mediante la utilización de complejos programas. Y en el medio digital tienen lugar varias importantes interacciones lingüísticas: entre seres humanos y sistemas automáticos, entre seres humanos que hablan la misma lengua, y entre hablantes de distintas lenguas. Además, éste precisamente es el campo en el que se dirimen cuestiones clave para la economía y el desarrollo futuros.

El uso de la lengua natural es el procedimiento más simple para comunicarse: no hay interfaz más intuitiva y veloz ni conjunto de comandos más rico y preciso. La interfaz lingüística está destinada a ser la dominante, porque es inmediata y no exige ninguna habilidad especial de sus usuarios. Y por otra razón: con la miniaturización y aumento de potencia de los dispositivos móviles —agendas electrónicas, teléfonos— tendrán que desarrollarse las capacidades de comprensión y emisión oral de los programas.

Para que un programa entienda un enunciado tiene que tener habilidades léxicas, morfosintácticas, semánticas, pragmáticas… Los programas deben además conocer datos sobre el mundo. Y si van a tratar con la lengua oral, tienen que distinguir los fonemas por encima de variantes personales y acentos locales. Estas habilidades equivalen a la posesión de diccionarios, morfologías, gramáticas, fonéticas y enciclopedias completas y formalizadas.

Además, el programa que lidie con la lengua natural debe tener procedimientos de desambiguación, de palabras o frases, y también debe poder interpretar señaladores lingüísticos: ¿cómo traduce una máquina a fechas «esta semana»?

Y por último, este conjunto de investigaciones y datos sobre las habilidades y los comportamientos lingüísticos se tienen que transformar en programas ejecutables por ordenadores.

¿Qué tipo de sistemas van a utilizar la lengua como interfaz? De todos los tipos: los de entrada de datos en general (de la agenda personal a sistemas profesionales), los de comercio electrónico (sistemas que busquen productos con determinadas características y vuelvan con descripciones y comparaciones), de ocio (localización de espectáculos, restaurantes, información turística…), educación y formación (sistemas de tutoría y evaluación automáticas), o investigación (localización de materiales, acceso inteligente a bases de datos). Estos programas serán utilizables desde ordenadores, pero también desde teléfonos móviles, o en vehículos, ligados a sistemas de navegación (GPS). Habrá versiones restringidas (un sistema de reserva de billetes, como los que ya están en uso, sólo exigirá reconocer entre un conjunto pequeño de elecciones) y otras que requieran gran capacidad lingüística.

Usaremos (sin saberlo) estos programas cada vez más: los buscadores en la Red dominarán progresivamente sus contenidos (ya se habla de la «Web semántica») para permitirnos encontrar lo que otros han publicado en ella. Y contenidos en lenguas que nos son extrañas se nos facilitarán con grados variables de fiabilidad (porque la traducción automática perfecta es un mito…).

Las herramientas lingüísticas que posibiliten estas interacciones tienen gran interés económico: lo cuantificamos hace pocos meses (véase http://jamillan.com/tesoro.htm), y sólo diremos que puede muy bien equivaler anualmente al volumen de negocio de todo el sector editorial en lengua española (tanto en España como en Hispanoamérica). Estamos hablando sólo del uso de herramientas lingüísticas como mediación en comercio electrónico, formación, información turística, etc., no del volumen que luego generen esas transacciones, que será muy superior.

Es, pues, un buen negocio, que estará basado en un canon, un peaje de facto: para usar nuestra lengua en las redes tendremos que pagar programas lingüísticos. A lo mejor no directamente: el comprador de un paquete turístico mediante uno de estos sistemas no pagará un plus por usar su lengua, pero sin duda un parte del producto de la transacción irá a costear el software lingüístico utilizado.

¿Quiénes van a ser los dueños de estos programas lingüísticos? La triste realidad es que los autores de los programas que van a permitirnos interactuar en español en el universo digital van a ser un reducido conjunto de compañías de países no hispanohablantes. En ese sentido, pagaremos por usar nuestra lengua en las redes. Pero bueno: también pagamos regalías al exterior por recorrer nuestra geografía (no a pie, pero sí cada vez que cogemos un coche…).

Sin embargo, depender para la comunicación digital de este reducido conjunto de empresas es un grave problema, y la razón no es el puro chauvinismo (al fin y al cabo, el mundo de hoy es el dominio de las empresas multinacionales). La disminución de la competencia hace que los servicios se encarezcan para el comprador. Además, las pocas empresas que dominan el mercado están llevando el desarrollo informático por caminos que no benefician al consumidor final: éste está con gran frecuencia mal atendido y forzado a comprar más cosas, y más veces, de lo que desearía.

Si pasamos del dominio de usos individuales al universo inmediato de grandes interacciones automáticas que usan la lengua en las redes, la situación no mejorará. Las aplicaciones informáticas de comunicación que ya se están haciendo están atesorando en pocas manos un extenso saber lingüístico, que evolucionará en direcciones que la sociedad no desea especialmente. Este saber lingüístico formalizado proviene además en muchos casos de investigación pagada con fondos públicos. Los desarrollos que provienen de ella seguirán los caminos que marquen las empresas (que no tienen por qué coincidir —y muchas veces no lo hacen— con los que la sociedad necesita), y además en el caso de que una de estas compañías quiebre (o desee discontinuar un producto), los frutos de la investigación —los datos y algoritmos lingüísticos altamente formalizados que constituyen los programas— morirán también.

¿Dónde se gesta la investigación lingüística que puede luego alimentar los sistemas automáticos? Una gran parte en nuestras instituciones públicas, como universidades, o históricas, como la Academia: entre todas tienen no sólo los recursos (como corpus y programas de desarrollo) sino también —en distintos grados de evolución— los conjuntos de datos estructurados que luego alimentarán a los sistemas automáticos: diccionarios morfosintácticos, redes semánticas, etc. Las instituciones luego normalmente las ceden (o venden) al puñado de empresas que hacen los desarrollos finales… que luego nos cobrarán, porque así es la vida.

Mi propuesta es clara: que las instituciones que cuenten con recursos de desarrollo de herramientas lingüísticas, o datos elaborados, las cedan a cualquiera que quiera desarrollar software lingüístico. De semejante disposición sólo se derivarán beneficios para todos, y ningún daño.

A diferencia de los bienes materiales, los digitales no se desgastan con el uso. El Estado crea carreteras para que quien cumpla ciertos requisitos (matriculación, etc.), transite libremente por ellas. Pero cada camión que las atraviesa aumenta su desgaste. Sin embargo, el copiar un corpus o un diccionario morfológico no los merma en nada, en ningún aspecto. Si todos los agentes que quieran hacer desarrollos lingüísticos consiguen libremente los resultados de esta imprescindible investigación de base lo más que puede pasar es que tengamos al poco tiempo una proliferación de programas que reconocen palabras, analizan frases, etc. Muchos de ellos no serán directamente utilizables por los usuarios finales, pero podrán formar parte de sistemas automáticos más elaborados, y el resultado final es que habrá más sistemas que usen nuestra lengua, de más tipos, y más baratos. Si al final son las compañías de siempre las que hacen los mejores desarrollos, enhorabuena (y si una compañia usa los datos de la investigación y no los convierte en productos, peor para ella…).

No creo que nadie pueda poner objeciones al hecho de que la investigación creada en nuestras instituciones públicas se abra a la creación de productos, porque para eso está (que sepamos…). La práctica actual es cederla (por un precio dado, por regalías, o incluso gratis…) sólo a determinadas empresas, sobre la base de no se sabe muy bien qué criterios. Esto el mejor de los casos sólo confirmará el oligopolio vigente —con las consecuencias que hemos visto. Pero además numerosas instituciones con investigación jamás han hecho un acuerdo con una empresa; atesoran recursos lingüísticos —muchas veces duplicados con otros grupos— que nunca darán un servicio a la sociedad… Si se abrieran los datos de investigación, pequeñas (y grandes) empresas y grupos de desarrollo de nuestros países podrían incorporarse a un mercado que si no les estará completamente vedado.

No veo, francamente, ninguna razón por la que la investigación lingüística financiada con dinero público deba seguir en su mayoría sin rendir frutos prácticos. No comprendo tampoco que una pequeña parte se explote en acuerdos que no van a redundar en el mejor servicio a la comunidad hispanohablante.

Si súbitamente surgiera un preocupación sobre los fines sociales de la investigación financiada con dinero público, la propuesta podría ser: que ésta se ceda en régimen de «software libre». Resumiremos sus implicaciones diciendo que bajo este sistema cualquier programa desarrollado debe permanecer abierto (a diferencia de lo que ocurre en el software normal o propietario), de tal modo que cualesquiera datos de investigación incorporados a él serían reutilizables por otros.

Si la institución A o las universidades U y V cedieran sus recursos a quien quisiera desarrollar programas lingüísticos de nuestra lengua, y los cedieran bajo un tipo de licencia de las que caracterizan el software libre, proliferarían módulos y programas lingüísticos que buscarían su camino en el mercado, y que pronto otras empresas o grupos mejorarían y recombinarían, para acabar dando el servicio que los hispanohablantes necesitamos…

¿No es la lengua, al fin y al cabo, un modelo o metáfora del funcionamiento del software libre? Códigos que sólo funcionan porque son compartidos, que han sido creados entre todos (como recordaba el poeta Pedro Salinas), que están abiertos al uso y a la mejora (desde los hallazgos del escritor a las expresiones populares), y donde las innovaciones que triunfan pueden alcanzar hasta al último hablante. Tal vez, curiosamente, la misma lengua nos dé un ejemplo de qué hacer con ella en el siglo digital.

Y tal vez nos libremos de pagar por usar nuestra lengua en las redes.