Corpus históricos electrónicos y generalizaciones en lingüística históricaConcepción Company Company
Universidad Nacional Autónoma de México y miembro de la Academia Mexicana de la Lengua

1. Lengua y tecnología

Una constante que salta a la vista en los programas de los Congresos Internacionales de la Lengua Española, mejor conocidos como CILE, es que la lengua, cualquier lengua, es un importantísimo activo económico, cuyo análisis, enseñanza o difusión constituye un valor comercial de primera línea para las instituciones y espacios gubernamentales encargados de su cuidado, enseñanza y divulgación. Nos centraremos, como es lógico, en la lengua española porque ella es la que nos convoca en los CILE, hoy en Córdoba, Argentina, en su VIII edición.

La lengua es, sin duda, un activo económico, porque antes y sobre todo es el patrimonio esencial de los seres humanos. Nos relacionamos, trabajamos, formamos sociedad, creamos nuestro entorno y ponemos de manifiesto nuestra identidad y visión del mundo mediante la lengua. La lengua es un extenso y diverso territorio por donde atraviesa la cultura toda y por donde atraviesa y se manifiesta casi cualquier faceta de la vida cotidiana. En suma, la vida diaria se construye y fluye gracias a que tenemos lengua, y, en consecuencia, seres humanos e instituciones necesitamos de la lengua, de ahí su activo económico. Somos además seres históricos, herederos de un gran acumulado de hábitos, tradiciones y rutinas culturales manifestadas en gramáticas específicas, gracias a que tenemos lengua. Somos, cosa sabida, seres de sintaxis libre, rasgo que nos define como seres humanos.

Tal activo económico sería impensable sin los avances tecnológicos realizados con la lengua española y sobre la lengua española desde los años ochenta del siglo pasado, aproximadamente, y de manera muy visible en las dos décadas de este siglo xxi. Buena parte de tales tecnologías, hay que decirlo, son réplica de tecnologías creadas y pensadas en lengua inglesa, fundamentalmente, pero buena parte de las nuevas tecnologías son ya creaciones ad hoc para la lengua española.  

Los avances tecnológicos son, esencialmente, de dos tipos, producción y compresión, cada uno de ellos con dos ángulos, oral y textual, y cada uno de aquellos, a su vez, con ramas y desarrollos muy diversos y muy complejos. Los dos tipos replican, como es sabido, las dos actividades esenciales y cotidianas que un humano hace con la lengua, hablar y comprender.

a) Tecnologías de Producción. Se centran en tecnologías del habla, conocidas también como tecnologías de voz, que ayudan a mejorar la vida cotidiana en aspectos muy distintos. Desde trámites bancarios con identificación inequívoca de seguridad del usuario, a partir de la medición de la emisión de altura del primer formante o del fundamental, altura que es única, como se sabe, en cada ser humano, hasta mejoras en la salud pública, como es la aplicación de tecnología de voz, junto con análisis de mensajes de chat, en la predicción de perfiles depresivos y suicidas, por citar un caso en pleno desarrollo, pasando por geolocalizadores para la orientación y ubicación espacial, el famoso Waze o Google Maps, para citar dos casos muy conocidos, pasando, igualmente, por el gran desarrollo de la lingüística forense en los últimos diez años, con utilidades muy variadas, y concluyendo con compras y búsquedas muy diversas, ya sin necesidad de teclear el producto o la búsqueda en cuestión, sino simplemente preguntando con voz. Todas estas actividades de nuestra cultura y sobrevivencia cotidiana se realizan mediante tecnologías de producción.

b) Tecnologías de Comprensión. Se trata básicamente, como se sabe, de almacenamiento masivo de datos y procesamiento sofisticado de la masa de datos almacenada. Mediante buscadores ad hoc se proporciona al usuario accesibilidad inmediata a miles o millones de datos de información sobre los temas más diversos, casi siempre con la generación de datos estadísticos refinados, vinculados a la consulta en cuestión, además de proporcionarnos la información buscada per se, para ayudar en la realización de tareas muy diversas de la vida cotidiana y profesional de cualquier individuo. Desde ayudas que sirven para «matar» la curiosidad intelectual del usuario, la famosa enciclopedia Wikipedia o Google, hasta hacer transparente muy distintos ángulos de la vida oficial de una sociedad, transparencia que es un imperativo en las democracias actuales, pasando por traductores simultáneos o creación de imagen institucional e individual que otorga visibilidad e inserción social a instituciones e individuos a través de páginas y canales de muy distinta naturaleza. Almacenamiento, procesamiento y creación de bases masivas de datos para el desarrollo y análisis de ciertas áreas disciplinarias y del funcionamiento actual cotidiano, todo ello opera con tecnologías de lengua de comprensión. Muchas de las tecnologías a nuestro alcance combinan ambas facetas, producción y comprensión.

Un subtipo particular de almacenamiento masivo de datos son los corpus electrónicos, sincrónicos e históricos, que tienen dos finalidades últimas, a mi modo de ver. Una, que es preservar la memoria histórica de un pueblo, porque tal memoria histórica se construye día a día en y con lengua ―en una dialéctica constante de deconstrucción y reconstrucción, que no es sino comprender y hablar, mantener y cambiar―, en tanto que la lengua es soporte y actividad esencial de la vida diaria de cualquier ser humano, como ya dije. Dos, crear infraestructura de investigación, tanto para los usuarios actuales, como, sobre todo, para quienes habrán de tomar la estafeta de hacer y sostener cultura y educación en el corto plazo para cualquier país. El costo de construcción de un corpus es alto, sin duda, pero las ventajas que ofrecen superan el costo.

Los corpus electrónicos son, además, de especial utilidad para avanzar en la investigación, inter y multidisciplinaria, sobre la relación entre lengua y otros hechos culturales manifestados en lengua; son, por tanto, tecnologías hoy indispensables para analizar la relación entre lengua, cultura e identidad, relación que permite entender mejor quiénes somos y cómo ha sido nuestro devenir histórico.

Los corpus electrónicos son, en suma, tecnologías de comprensión, de textos escritos u orales, aunque apenas inician los corpus con estos últimos, consistentes en almacenamiento masivo de datos ordenados bajo ciertos criterios y puestos a disposición del usuario mediante motores de búsqueda ad hoc que permiten aflorar tales ordenamientos. Su construcción y constantes mejoras forman parte de la disciplina que se ha dado en llamar Humanidades Digitales, ya que se basa en el diálogo entre la Lingüística, la Filología y la Informática. En ellos me centraré en los minutos que restan.

Además de esta breve introducción, este texto está organizado en tres apartados. En §2 listaré y caracterizaré, en primer lugar, de forma muy concisa, las utilidades generales que proporcionan los corpus electrónicos, y en segundo lugar listaré los corpus existentes para lengua española, aquellos de mayor almacenamiento de datos y de mayor difusión y empleo en lingüística, particularmente en la lingüística histórica. En §3 ejemplificaré dos informaciones identitarias para América, para mostrar la capacidad de generalización inmediata que proporciona el empleo de un corpus electrónico, prácticamente sin necesidad de analizar datos puntuales. En §4, concluiré con la pregunta, ya clásica, de si la tecnología sustituye a los modos más tradicionales o más conservadores de acercarse a la información, o se trata de acercamientos complementarios.

2. Corpus electrónicos

Los corpus electrónicos, además de constituir repositorios masivos de memoria histórica y crear infraestructura de investigación, tienen utilidades inmediatas y mediatas no menores, siete, al menos, inmediatas las seis primeras, mediata la última, porque, hasta ahora, ha sido menos visible y menos utilizada.

  • a) Fortalecimiento de la base empírica de análisis. Fortalecen la base de evidencias para muy diversas disciplinas, más allá de la lingüística, aunque esta disciplina haya sido, hasta ahora, creo yo, la privilegiada en hacer uso de tales almacenamientos masivos, porque dado que son almacenamientos de datos de lengua, su empleo obvio e inmediato es en la lingüística.
  • b) Posibilidad de hacer generalizaciones robustas, afinadas y certeras, consecuencia de la amplísima base empírica sobre la que están construidos.
  • c) Posibilidad de confirmar o refutar hipótesis, e, incluso muchas veces, entrever, aventurar o formular una hipótesis, una vez que el usuario tiene ante sí decenas, cientos o miles de datos concentrados en una concordancia determinada, resultante de una determinada búsqueda.
  • d) Posibilidad de establecer dataciones de fenómenos, con grados de certeza altos, resultantes del almacenamiento masivo de datos, sin dejar la vida en la búsqueda de repositorios o escucha de cintas, y, con no poca frecuencia, permiten establecer primeras dataciones, que es la joya de la corona para la lingüística histórica.
  • e) Posibilidad de matizar los análisis con un alto refinamiento, si así se desea, porque los corpus electrónicos, en general, permiten ordenar la información de una búsqueda desde muy distintos ángulos, aunque no todos los corpus actuales están programados para ello: búsquedas continuas y discontinuas, por orden cronológico, sea en lapsos amplios o pequeños, por orden alfabético, por tipos textuales, por autor, ordenamientos distintos que son de gran utilidad porque el usuario ve la «misma» información concentrada de muchas maneras y ello le genera nuevas ideas para afinar su análisis.
  • f) Posibilidad de formular nuevas preguntas de investigación e, incluso, preguntas de investigación antes impensables, porque el usuario sabe que no tendrá que leer cientos de textos y sentarse por meses a fichar hasta tener un conjunto de datos significativo que le permita vislumbrar por dónde van las tendencias y concentrados de la lengua.
  • g) Generación de vínculos transdisciplinarios bastante refinados entre concentrado de datos lingüísticos y motivaciones culturales ―sociales, demográficas, geográficas, económicas, antropológicas, etc.―, vínculos que pueden, y suelen, explicar el porqué de tal concentrado lingüístico; es decir, favorecen la interdisciplinariedad y respaldan el hecho bien sabido, ya tradicional, de que la mayoría de las manifestaciones lingüísticas, sea en forma de continuidades sea en forma de discontinuidades, permanencia y cambio pues, tiene una causación múltiple, expresión afortunada y certera, creada hasta donde sé, y múltiplemente empleada y mostrada en sus análisis, por Yakov Malkiel, uno de los grandes romanistas del siglo pasado.  

En el conjunto de los corpus existentes para español, puede decirse que hay de dos tipos: los que apuestan a la cantidad de datos almacenados y los que apuestan a la calidad textual del almacenamiento; cada vez más, ambas apuestas empiezan a coincidir. Unos corpus apuestan a la cantidad porque su objetivo es proporcionar bases empíricas muy robustas, aunque la calidad de las ediciones, la clasificación tipológica textual o la datación de las fuentes no sean siempre las mejores, en tanto que no han cuidado los tipos de edición y datos subidos, porque no es este el objetivo. Otros corpus apuestan a la calidad filológica, tienen datos muy refinados, metadatos asociados de gran veracidad y utilidad, son muy exigentes en cuanto a la calidad de las transcripciones y ediciones subidas, su almacenamiento o subida progresiva es, en consecuencia, más lenta y por ello su capacidad de realizar generalizaciones robustas es menor que en los primeros. No quiere ello decir que los primeros no sean de fiar, y que los segundos no ayuden a obtener resultados robustos, todos hacen todo, basta con saber fortalezas y debilidades de cada corpus. Unos y otros, no obstante, han modificado radicalmente nuestra relación con los datos base del análisis, han modificado sustancialmente el quehacer lingüístico y han enriquecido enormemente lo que sabemos de los vínculos entre lengua y cultura.

Los corpus electrónicos de mayor empleo en lingüística histórica, todos de acceso abierto, no especializados en cuanto a los textos subidos (no solo de economía, no solo de medicina, no solo crónicas de viajeros, no solo inventarios, no solo textos de tema marítimo, etc.), con un almacenamiento grande de datos, son los siguientes:

1. Corpus Diacrónico del Español, CORDE, de la Real Academia Española (www.rae.es); abarca nueve siglos, 1200-1975, fue el corpus electrónico pionero, cambió, sin duda, el modo de hacer lingüística histórica y obtener generalizaciones y datos refinados, aunque tiene una tipología textual muy atomizada, las ediciones subidas no son siempre las adecuadas, consideradas en el avance ecdótico actual, y el español en América está infrarrepresentado (no llega a 8 %, antes del siglo xx); con todo, es el corpus que más ha contribuido hasta ahora a hacer una nueva lingüística histórica.

2. Corpus de Referencia del Español Actual, CREA, de la Real Academia Española (www.rae.es); abarca un lapso muy breve, 30 años, último cuarto del siglo xx e inicios del xxi, contiene textos escritos y la gran innovación para la época en que se construyó es que incorpora transcripciones de textos orales de alta inmediatez comunicativa, por ello es muy útil, así como textos de la distancia comunicativa, la representación americana es en el CREA mucho mayor, la tipología textual es similar a la del CORDE, muy atomizada.

3. Corpus del Español del siglo xxi, CORPES xxi, de la Real Academia Española y Asociación de Academias de la Lengua Española, (www.rae.es); contiene millones de datos de este siglo de todos los países de lengua española, están muy cuidadas las ediciones subidas, es un corpus lematizado, el motor de búsqueda es refinado, pero, a mi modo de ver, la interfaz es poco amigable, la tipología textual es muy poco explícita y también bastante atomizada, aunque mejor que los dos corpus precedentes.

4. Corpus Diacrónico y Diatópico del Español de América, CORDIAM, de la Academia Mexicana de la Lengua (www.cordiam.org); es el único corpus que solo contiene textos americanos, escritos en América y en su gran mayoría por hispanohablantes nativos americanos, abarca los 19 países de América más cinco americanos en donde se habló y escribió en español, ya que formaban parte de la Corona Española; abarca de 1494 a 1905 (para los siglos xx y xxi la representación americana en los dos corpus precedentes es alta), ofrece una plantilla de metadatos asociada a cada texto, esta plantilla es única en los corpus electrónicos existentes hasta ahora; contiene tres subcorpus ―documentos de archivo, prensa y literatura―, tipologizados cada uno con criterios ad hoc y explícitos, permite ver el documento completo, a diferencia de todos los otros corpus que dejan ver un fragmento de unas 10 líneas, y permite bajar el documento completo a una computadora personal, además de que las búsquedas pueden ser almacenadas de forma automática en una base de datos, tipo Excel, en una computadora personal; está lematizado al 70 %.

5. Corpus de Biblias. Biblia Medieval, de la Universitat de les Illes Balears y el Centro de Lenguas de San Millán de la Cogolla (www.bibliamedieval.es/index.php); es un corpus refinadísimo en ecdótica y en motor de búsqueda, ya que permite el acoplamiento en línea de todos las traducciones de la Biblia al español y testimonios bíblicos, que no necesariamente biblias, para una determinada búsqueda; es utilísimo para constatar la variación y cambio lingüístico de un determinado fenómeno, pero es algo restringido en cuanto a temas y léxico, como es lógico, dada la base textual.

6. Corpus Hispánico y Americano en la Red: Textos Antiguos, charta, radicado en la Universidad de Alcalá de Henares (http://www.corpuscharta.es/); reúne textos archivísticos en español de los siglos xii al xix, tiene una gran fidelidad filológica ya que contiene el facsímil, la transcripción paleográfica estrecha y la edición crítica para cada documento, aunque no permite el acoplamiento de facsímil y transcripción para una determinada búsqueda; la representación del español de América es bastante significativa, pero requiere muchos pasos de búsqueda en la interfaz hasta llegar a los textos de América.

7. Corpus de Documentos Españoles Anteriores a 1800, CODEA + 2015 (http://corpuscodea.es/) coordinado por investigadores de varias universidades; es de altísima fidelidad filológica y ecdótica, contiene poco más de 1500 documentos de archivo y textos literarios, la representación de América es pequeña, casi inexistente, su peculiaridad es que están subidos algunos textos de los llamados géneros literarios menores, no incluidos, por ejemplo, en el CORDE.

8. Corpus del Español, CE, también conocido como Corpus Davies, ya que Mark Davies lo construyó y dirige; se distingue por estar constituido por un universo de palabras gigante, 100 millones de palabras, con documentos de archivo, prensa y literatura, abarca del siglo xiii al xxi, es, posiblemente, el corpus del español con mayor almacenamiento de datos, si bien el filtro de calidad filológica y ecdótica dista de ser el adecuado, podría decirse que es nulo, ya que es un corpus construido sin criterio filológico, contiene de todo, pues su objetivo es poner a disposición inmediata millones de formas para cualquier periodo de la lengua española.

9. Corpus del Nuevo Diccionario Histórico del Español, NDHE, de la Real Academia Española (www.rae.es); es la base para el futuro y esperado diccionario académico Diccionario histórico de la lengua española; contiene 62 millones de palabras, 38 de España y 24 de América, tiene incorporados el CORDE y el CREA, la desventaja es que, no obstante el nombre del corpus, el desequilibrio temporal, al día de hoy, es muy grande ya que concentra una tercera parte, 23 millones de palabras, solo en el siglo xx, de una diacronía de casi 1000 años de historia de la lengua española, más 14 millones del Medioevo, 11 de los Siglos de Oro y 12 millones de los siglos xviii y xix; su interfaz es la misma del CORPES.

10. Post Scriptum. Arquivo Digital de Escrita Cotidiana em Portugal e Espanha na Época Moderna, de la Universidade de Lisboa (http://ps.clul.ul.pt/es/index.php?); aunque no es estrictamente de lengua española, tiene el interés y especificidad de contener solo cartas, algunas de gran inmediatez comunicativa y de manos inhábiles; como se sabe, las cartas y notas son el único tipo de texto que se atreve a escribir el que no sabe escribir, y por ello son joyas para el análisis de cambios en proceso, de ahí que lo haya incluido en esta lista de corpus electrónicos del español.

3. Corpus electrónicos y generalizaciones en lingüística histórica

Como es sabido, la lingüística histórica es una disciplina caracterizada por una fuerte tendencia a la atomización del análisis de datos y, asimismo, atomización en los resultados del análisis, entre otras razones, porque el cambio lingüístico nunca opera sobre una clase de palabra o una categoría total a la vez, sino sobre ítems específicos de esas clases o categorías, y por lo tanto, uno de los grandes retos de esta disciplina es hallar el impacto que un determinado cambio tiene sobre la lengua general en un periodo dado, y más reto aún hallar la relación del cambio con la cultura. Los corpus electrónicos han ayudado, como dije, a potenciar la capacidad de generalización, a establecer y matizar dataciones, y a refutar, matizar e incluso formular nuevas hipótesis. Dos ejemplos, que atañen a la construcción e identidad del español en América, bastarán.

El término y concepto indio es, qué duda cabe, parte de la construcción de este continente. Una pregunta de investigación válida puede ser cómo los referentes aludidos por este término fueron conceptualizados y codificados por los conquistadores. Por ejemplo, ¿los conceptualizaban en bloque, como grupo genérico inespecífico, o los codificaban de forma individuada? (por supuesto, el singular puede codificar genéricos).

Los datos del CORDIAM, bajo las búsquedas indios / indio, arrojan en segundos luz para la relación entre lengua, cultura y otredad en la conformación del español en América y la percepción de la nueva realidad americana. Veamos este resultado de la búsqueda aludida.

Indios (masculino y femenino, sin el topónimo Indias) = 13841 casos = 77 %
Indio (masculino y femenino, sin el topónimo India)  = 4046 casos = 23 %

La conclusión cultural inmediata resultante de esta desproporción es casi una obviedad, y ya la intuíamos o la sabíamos desde la historia y desde la antropología, pero eran intuiciones, no evidencias empíricas robustas: los españoles no tenían mayor interés en el nombre e individuación de los naturales de este continente, puesto que tres cuartas partes de los naturales están codificados en plural, un cuarto en singular, y de este un número no desdeñable es también un empleo genérico.

Los corpus electrónicos permiten acercarse en segundos a generalizaciones que, sin ellos, requerirían meses de trabajo de fichado. De hecho, es muy posible que esta pregunta de investigación sea resultado de la existencia de corpus, porque posiblemente un filólogo que deba fichar a mano tiene en mente otros tipos de preguntas de investigación. Por supuesto, tras los primeros resultados, el investigador tendrá que hacer la tarea minuciosa de decidir cuáles singulares son también empleos genéricos, del tipo el / un indio sabe orientarse, próximos por ello a plurales.

Si buscamos (indios) naturales e (indio) natural, uno de los términos más frecuentes para aludir a los nativos americanos, la codificación en bloque se confirma; casi nueve veces más plural, naturales, que singular natural (solo con la acepción de «originario de», en una ojeada detenida en las miles de ocurrencias resultantes de la búsqueda natural*). Y si restringimos la búsqueda indio* a la prensa, por ejemplo, sale un total de 6 casos en plural y ninguno en singular; es decir, el indio nunca fue noticia. Sin corpus electrónicos sería casi impensable establecer generalizaciones fuertes y hacer vínculos interdisciplinarios explícitos de manera inmediata, apoyados en una base empírica robusta.

Otra posible pregunta de investigación es: ¿cuándo empieza a generalizarse el empleo de América y el gentilicio americano en la escritura de los que vivieron y escribieron en este continente? Pues bien, una búsqueda en el CORDIAM nos informa que esta generalización se produjo muy a finales del siglo xvii, y que aparece de forma casi simultánea en tipos textuales muy diversos, ya que no hay datos, acumulados, anteriores al siglo xvii. Es decir, una cosa es vivir en un espacio, América en el caso de la búsqueda, y otra muy distinta es tomar conciencia, codificarlo de forma explícita y conceptualizarse como «perteneciente a» y hacer explícita tal pertenencia a ese espacio.

4. A modo de conclusión: ¿sustituyen los corpus electrónicos el análisis «a la antigua»?

La respuesta depende de lo que se busca y depende de en qué etapa de investigación se está. Si la búsqueda es de carácter gramatical, por ejemplo orden de constituyentes o complementos circunstanciales, los corpus son de poca utilidad, excepto si dejan ver el documento completo, como es el caso del CORDIAM, porque no es posible saber a priori cómo se codifica un complemento circunstancial o un orden de palabras, por tanto, no se puede buscar. Otra cosa es que, tras el análisis, el investigador sepa cuál es la codificación o codificaciones más comunes del fenómeno gramatical y se aboque entonces a búsquedas puntuales para saber si todos los periodos o tipos de textos contenidos en un corpus electrónico se comportan del mismo modo. En suma, si lo que el usuario busca es muy gramatical, es más sencillo leer textos y hacer un excel.

Si la búsqueda es de naturaleza más léxica, el modo natural de entrar es por un corpus electrónico, porque las posibilidades de encontrar la forma léxica en cuestión en una lectura tradicional de textos son muy bajas y tardará mucho más el usuario en tener un concentrado de ejemplos que le sea útil para iniciar el análisis.

Con todo, hay que ser muy precavido, porque el gran concentrado automático de datos que arroja un corpus electrónico puede hacer pensar que la forma léxica en cuestión es muy frecuente, cuando no es así en la realidad de la lengua. Un ejemplo bastará: el empleo de los verbos intransitivos nacer y morir, en todas sus ocurrencias flexivas. La búsqueda en corpus arroja miles de datos para cualquier época, y parece que ambos verbos están muy presentes en el uso de la lengua española. En cambio la lectura de 15 textos en tres cortes cronológicos, de tipología textual diversa y comparable en cada corte, arroja solo 410 ejemplos, no hay casi empleos en futuro de ninguno de los dos verbos, cosa lógica porque nadie proyecta al futuro el nacimiento y la muerte, y nos dice que se metaforiza más nacer que morir, contra lo esperado, porque hay muchas expresiones metafóricas con morir que cualquier hablante tiene de inmediato en su competencia, morirse de vergüenza / de pena / de dolor / de hambre, y casi no hay a primera vista expresiones metafóricas con nacer. La búsqueda de estos dos verbos en un corpus no nos informa a primera vista de estos resultados interesantes, porque las ausencias son tan significativas como las presencias, como dice Jakobson y su postulación de signo cero.

Por último, si la búsqueda, aun siendo léxica, pertenece al mundo de la inmediatez comunicativa y es un disfemismo o tabú en una sociedad, los corpus electrónicos tradicionales como los listados en 1-10 arriba son de poca utilidad, porque la escritura tradicional inhibe estas formas, y habrá que recurrir a otro tipo de corpus electrónicos en que aflora la inmediatez comunicativa y la intimidad, como chats, y soportes en redes, Twitter, Facebook, etc. Pero este es otro tema muy distinto: ¿qué se debe considerar documentación textual?