Lengua, Internet e instituciones de memoriaCarlos Wert
Director de la biblioteca de la Residencia de Estudiantes. Madrid (España)

… la palabra ‘significado’ es probablemente la palabra cuyo significado es, de todo el lenguaje, el más difícil de hallar. ¿Qué significa ‘significar’? Me parece que la única respuesta que podemos dar es que ‘significar’ significa la capacidad de cualquier clase de dato para traducirse a un lenguaje diferente.¹

Claude Lévi-Strauss

A vueltas con el significado

De repente, la discusión sobre el significado ha inundado Internet. No es raro encontrar hoy en la Red, y en muchos escritos que se refieren a ella, la expresión semántica. De hecho, una buena cantidad de la información, los planes y las discusiones del momento se refieren a la construcción de una web semántica² (e incluso la Comisión Europea le ha dedicado una completa línea de investigación en su último programa de I+D). Quienes han lanzado la iniciativa, entre ellos, el propio creador de la World Wide web, Tim Berners-Lee, explican que la web ha sido hasta ahora sobre todo una manera de presentar información a los humanos. El lenguaje en el que se basa (HTML) les dice a las máquinas cómo disponer en la pantalla texto, gráficos, imágenes e hiperenlaces… Pero nada, o muy poco, acerca de qué trata la información que presenta. Para entenderla, la información tiene que ser leída por seres humanos. La idea de una web semántica expresa el intento de convertir, al menos en parte, el contenido de la Red en piezas de información cuyo significado entiendan las máquinas, lo que permitirá que automáticamente puedan hacer operaciones relativamente sofisticadas con ella. Esta capacidad está en la base de la creación de agentes inteligentes que, además del conocimiento que incorporen en su construcción, se alimenten con la información presente en la Red o que le enviemos por ella. Así, a medida que se implante la web semántica coexistirán en la Red información para consumo humano e información especialmente preparada para su uso por las máquinas, o, al menos, comprensible para éstas.

Aún más, en cualquier debate sobre estas capacidades semánticas de la web no extraña ya oír hablar de ontologías, término que, derivado de su uso en el terreno de la ingeniería del conocimiento, de la inteligencia artificial,³ se refiere a un sistema que establece la relación entre un conjunto de términos (una taxonomía: clases y relaciones, y las reglas que se le aplican). Una forma típica de ontología sería la organización del léxico de un dominio determinado en una red semántica, estableciendo los elementos que la constituyen y sus relaciones. Desde el punto de vista práctico, una ontología permite compartir conocimiento, porque se comparte una semántica, por limitado que sea su ámbito, con y entre máquinas, permitiendo en efecto la construcción de tales agentes inteligentes. Hay que decir que la actual preocupación por la semántica o las ontologías, en el sentido enunciado, no se refiere sobre todo a intereses culturales, sino precisamente a la necesidad de nuevas herramientas que permitan el desarrollo del comercio electrónico y, más en general, del intercambio eficiente y seguro de información a través de la Red

No obstante, este interés por el significado responde también a una cierta insatisfacción con la incapacidad de Internet para cumplir sus más brillantes promesas: poner todo el conocimiento humano a disposición de cualquiera en cualquier lugar y en cualquier momento. En la medida que el ancho de banda o la capacidad de proceso van dejando de ser la limitación principal, problemas menos materiales y más complejos, relacionados con la localización, la calidad y el uso de los recursos que ofrece Internet, van convirtiéndose en los importantes.

Estos problemas pueden verse desde una doble perspectiva. En primer lugar, como se ha señalado tantas veces, si bien en Internet está potencialmente todo, toda la información digital, encontrarla no es trivial y la productividad de cualquier búsqueda en Internet se incrementa en la medida en que la información está ordenada y sobre todo descrita, traducida a otro nivel, más formal, en el que se dice algo sobre su significado (como decía Lévi-Strauss en el texto citado en el epígrafe) o en la medida en que su contenido textual está preparado de una manera que permita a las máquinas comprender directamente su significado. Normalmente, esto significa que está etiquetado o codificado, es decir, que incluye una descripción implícita. Ni que decir tiene que ninguna de estas dos situaciones es la norma en la web. Pero, en segundo lugar y, a la larga esto, aunque menos visible, es más importante, es que muchas tareas complejas que los ordenadores podrían hacer con la información, están limitadas por esa incapacidad para comprender lo que encuentran en la web, o lo que, a través de ésta, reciben de otras máquinas.

Buscar en la Red

Y es que la web está hoy bastante lejos del ideal que Vannevar Bush concibió en 1945⁴ y que se encarna en ese artilugio, el memex, que habría de permitir a los científicos disponer en su escritorio de acceso vía un catálogo universal a todo el conocimiento significativo sobre un tema, al tiempo que, vía una suerte de hiperenlaces, al recorrido entre las diversas piezas que lo constituyen. En efecto, la web carece de catálogo e incluso decir que lo que contiene es conocimiento es posiblemente, en muchos casos, una exageración.

Sin duda una parte importante de la historia de la web desde que esta situación se hizo patente es el intento de superarla, bien por la vía directa de catalogar manualmente la web (directorios), bien por la vía indirecta de encontrar un procedimiento para rastrear cualquier pieza de información que responda a una búsqueda concreta (motores de búsqueda).⁵ Ambos enfoques, que tienden hoy a ofrecerse en formas híbridas, han mostrado problemas. La limitación de los directorios es evidente. Un servicio centralizado que pretenda clasificar toda la producción informativa de la web presenta rasgos utópicos. De aquí la perspectiva inversa adoptada por otros, se trata de catalogar descentralizadamente, de añadir, cada vez que se incorpora un documento a la Red, datos sobre los datos: metadatos.

Los motores de búsqueda rastrean automáticamente gran parte del contenido de la web copiando páginas web e indexando su contenido completo, por lo que normalmente encuentran un número inabarcable de resultados para cualquier búsqueda, que no sea demasiado rebuscada, e incorporan distintos y cada vez más sofisticados procedimientos para decidir en qué orden sirven esta información.⁶ Los motores de búsqueda están concebidos para dedicarse a eso, no a buscar en información estructurada. Y esto tiene también algunas consecuencias. Así, el enfoque basado en los metadatos no parece ir con ellos: a pesar del esfuerzo por introducir orden en la descripción que de sí mismas dan las páginas (meta-etiquetas), los grandes buscadores no parecen aceptar utilizarlos en sus búsquedas. Por otra parte, y esto tiene aún más importancia, sus procedimientos no encuentran las páginas dinámicas generadas a partir de la consulta de información estructurada (bases de datos), así que no permiten penetrar en la web oculta que tales páginas configuran.

Las búsquedas en la web, en definitiva, dan habitualmente como resultado un enorme número de ocurrencias en muchos casos irrelevantes, que requieren un costoso filtrado manual por el usuario. Los programas (los motores de búsqueda) pueden tener problemas, pero la mayor parte de la frustración que provoca la busca de información en la Red viene de los propios datos. Las razones son tres: los datos no están bien catalogados (no tienen metadatos o éstos son sospechosos), no contienen información semántica legible por la máquina o bien su calidad (su pertinencia desde el punto de vista del usuario) es ínfima.

Se adopte el punto de vista que se adopte, lo que está claro es que salvo en ocasiones muy especiales buscaremos información en Internet usando herramientas que tienen contenido lingüístico, que tratan con palabras. Y, aunque puede suceder que unos u otros buscadores carezcan de algunas capacidades lingüísticas avanzadas, lo que más afecta a su productividad es que se carece de las herramientas auxiliares: buenos diccionarios y sintaxis digitales, redes semánticas operativas, ontologías complejas…, que les permitan aprovechar todo su potencial. Esto, que es cierto en general, lo es más si nos referimos a la lengua española. No insistiré aquí en este punto, que se ha discutido ya demasiadas veces y al que al final de este trabajo se vuelve.

Si un estudiante de español en una ciudad norteamericana quiere localizar en Internet recursos sobre el poeta español Pedro Salinas y sólo recuerda su apellido y busca Salinas, por ejemplo, en Google, obtendrá 272 000 ocurrencias para examinar y en las primeras páginas de resultados ninguno se referirá al objeto de su búsqueda. Con las adecuadas herramientas, un agente inteligente debería poder dilucidar, primero, que el atribulado internauta no se está refiriendo a la ciudad californiana de ese nombre ni al plural del sustantivo salina, y que entre las personas que llevan el apellido mencionado la que le interesa es Pedro. Pero si, además de esta información básica que le va a permitir desambiguar suficientemente la búsqueda, nuestro supuesto agente tiene acceso a un conjunto de redes semánticas u ontologías relacionadas con el poeta, podrá saber, entre otros muchos datos, cuál es la forma canónica que adopta en una lista de autoridades, aunque también aparece referido con algunas variantes, que su parentesco con Solita Salinas, que también aparece entre los recursos mencionados, es padre de, que murió en 1951, que escribió Seguro azar en 1929, que colaboró en tales y cuales revistas, y que, además de formar parte de la conocida generación del 27, algunos se han referido a él como uno de los poetas profesores.

Con este conocimiento acumulado, el agente podría tal vez informar de las biografías suyas presentes en la Red, que algunas de sus obras están disponibles en línea en tal dirección, que el inventario de su legado documental está también en línea en tal otra, que sus manuscritos se encuentran accesibles en otro sitio web para quienes estén suscritos a ese servicio, que los titulares de los derechos de autor pueden contactarse en tal dirección… Podría incluso ofrecerse a elaborar una completa bibliografía del autor o sobre él, ofrecerle los textos disponibles en la Red de manera libre, o a adquirir para nuestro usuario los libros u otros documentos que incluya en su carro de la compra. Tal vez hasta pueda ofrecerle un material didáctico preparado por una prestigiosa institución sobre el poeta o la posibilidad de matricularse en un curso ofrecido en línea por tal otra…

Nada de esto es ciencia-ficción en lo que se refiere a la disponibilidad de las tecnologías implicadas y es algo que, en ciertos sectores de actividad, ya existe; pero sí en lo relativo a las herramientas digitales, esencialmente lingüísticas y, muy específicamente, semánticas y enciclopédicas, necesarias para que esta situación se convierta en realidad.

Sea como sea, se puede ver que, para convertir la información en conocimiento, y en saber, que se encuentre dónde está la información y que se pueda utilizar eficientemente su contenido; tenemos que utilizar herramientas (palabras-clave, metadatos, índices del contenido, ontologías, redes semánticas…) de contenido lingüístico. En el presente estado de cosas, las tecnologías de la lengua e Internet están íntimamente entrelazadas.

Instituciones de memoria

Pues bien, resulta que hay un tipo de instituciones que lleva dedicándose toda la vida, toda su historia, a organizar la localización de recursos de información, a catalogar recursos. Las hoy llamadas instituciones de memoria (bibliotecas, archivos y museos) tienen por objeto conservar, almacenar, ordenar, describir y, aunque esto no siempre, poner al alcance de los hombres (unos pocos o muchos, eso en este punto no es lo esencial) documentos, información… Sus profesionales, y en especial los bibliotecarios, fueron probablemente los primeros en comprender que para encontrar rápidamente la información era mejor buscar en una representación resumida de ésta. Al desarrollar catálogos de sus colecciones (en especial, ficheros alfabetizados por campos especialmente sensibles: autor, título, materia, fecha…) estaban inventando, presumo que sin saberlo, los metadatos.

Y, aunque la Red no es sólo eso, la analogía con estos depósitos de la memoria humana ha sido algo natural para quienes hablaban de Internet y muchas veces se ha aludido a ella como una biblioteca universal que cumpliría un viejo sueño de nuestra cultura. Pero ya lo dicen múltiples detractores de Internet, y lo reconocen muchos de sus defensores, si Internet es una biblioteca, es una biblioteca desordenada, llena de basura y, en el extremo, si no se le pone remedio, bastante inútil. Y el problema al que se enfrenta la Red es, en efecto, como ha resumido recientemente José Antonio Millán: dónde está la información, cuál es su valor, cuál su utilidad para desarrollar el saber.⁷

En efecto, hoy buscar en Internet es buscar agujas en un pajar global. Pero la solución, para algunos de los creadores de la web, estaba al alcance de la mano, justamente en el ejemplo de las instituciones de memoria.⁸ Porque los catálogos que éstas solían producir son útiles para manejar colecciones y cuanto mayores son éstas, mayor es su utilidad. Catalogar se puede considerar un proceso de representación del conocimiento: determinar lo esencial de los elementos de la colección, sus atributos significativos. Pero es que además, los ordenadores son particularmente hábiles para manejar catálogos. De hecho, siempre funcionaron internamente con catálogos para identificar y localizar los datos que almacenaban. Tales catálogos informatizados, almacenados ellos mismos como datos: datos sobre datos, son lo que se ha acabado por llamar metadatos.

Así que toda una línea de analistas de la Red propone a ésta emular a las instituciones de memoria catalogando, al menos, una parte de sus contenidos. Este proceso de fomento y estandarización del uso de metadatos, íntimamente ligado al despliegue de la web semántica, aunque distinto de éste, está siendo, como aquél, impulsado por el consorcio industrial y académico que pretende orientar la marcha de la web, el conocido W3C, y ya ha significado un acicate para la creación de nuevos estándares.⁹ Al tiempo que, de rebote, tiene efectos sobre los propios usos de las instituciones de memoria, estimulando la armonización de las descripciones de los distintos tipos de objetos documentales.¹⁰

Pero esto último es sólo un aspecto de un fenómeno mucho más general. Las instituciones de memoria están cambiando profundamente, y su potencial de cambio es aún grande, por la irrupción de lo que se ha llamado la Sociedad de la Información y, muy especialmente, por el impacto de Internet. Estos cambios no afectaron desde el primer día ni homogéneamente a las instituciones de memoria. Las bibliotecas siempre han ido por delante. Fueron las primeras en informatizar sus catálogos y, lo que tiene una importancia mucho mayor, en crear un formato de intercambio, una estructura formal independiente de la lengua, de la disciplina científica, etc., para representar objetos documentales: el formato MARC. Y, de la misma manera que, si una colección está descrita digitalmente de una manera normalizada, puede formar parte de un catálogo colectivo y combinarse con otras, o partes de ellas, para formar una colección virtual, que físicamente no está en ninguna parte concreta, sino distribuida; se puede acceder a esta colección virtual, a condición de que sus componentes estén disponibles digitalizados, como si de una colección real se tratara.

Colecciones virtuales

Estas posibilidades permiten hoy que las instituciones de memoria se conviertan en un nuevo tipo de institución, que tiene las características de una red. Algunos proyectos, desarrollados individualmente o, en la mayoría de los casos, conjuntamente por las instituciones de memoria, están realizando experiencias piloto de lo que esto puede significar. Así, el que puso en marcha la Residencia de Estudiantes en 1999, en colaboración con la Fundación Marcelino Botín, y que ha dado lugar a lo que hemos llamado Archivo virtual de la Edad de Plata (http://www.archivovirtual.org/). Un archivo virtual, podríamos haberle llamado colección virtual, pues también es una biblioteca y un museo virtuales, que reúne una red de centros diferentes con colecciones relacionadas, crea un catálogo colectivo informatizado con sus descripciones y una colección virtual, con las imágenes digitales de sus contenidos, y que da acceso global a tales descripciones y copias de documentos de todo tipo.

Lograr esto significa plantearse cómo superar una serie de problemas metodológicos, en especial cómo convertir las descripciones típicas de las diferentes instituciones de memoria en un tipo homogéneo de documentos que pudiera formar parte de un solo catálogo y cómo construir un sistema de acceso que permitiera buscar en bases de datos distribuidas en cualquier ubicación física. A estos problemas se quiso dar una solución de futuro, planteando este problema, general para las instituciones de memoria, como un proyecto de investigación.¹¹ Pero en primer lugar, este planteamiento supuso la opción por Internet como medio en el que hoy había que plantearse el cumplimiento de las funciones de las instituciones de memoria.

Javier Echeverría¹² ha resumido recientemente las funciones de Internet en las siguientes: como un medio de comunicación (público y privado), como un medio de información (de documentación), como una memoria, como un lugar de producción (de productos informacionales), como un medio de comercio y de ocio y como un lugar de interacción. Pues bien: las instituciones de memoria, que ya tienen un lugar reconocido como depositarias de la memoria y como medio de información, pueden cumplir muchas otras de tales misiones si se adaptan a la Sociedad de la Información y al mundo de Internet.

Para que estas potencialidades se realicen, debe superarse con éxito una serie de retos. El primero es, naturalmente, formar una colección digital. De imágenes (copias de seguridad de cualquier clase de material, facsímiles para consulta y estudio de documentos manuscritos, objetos gráficos planos y objetos tridimensionales) y de textos digitales (textos electrónicos nativos o transcripciones digitales a partir de impresos, documentos mecanografiados o manuscritos). El segundo también es obvio y consiste en describir adecuadamente sus colecciones. Pero las instituciones de memoria pueden ir más allá, más allá de sus tradicionales funciones, y plantearse también elaborar sus contenidos para comunidades específicas de usuarios, especialmente, para el mundo de la educación, personalizar el acceso a los mismos definiendo perfiles de usuario diferentes y definir diferentes sistemas de publicación en Internet, o por otros medios, de tales contenidos que sean consistentes con el respeto a las condiciones que los propietarios de los derechos sobre la información hayan establecido.

Proyectos de futuro

Con su Archivo virtual de la Edad de Plata, la Residencia de Estudiantes ha iniciado deliberadamente una reflexión sobre el futuro de las instituciones de memoria; se ha planteado su lugar en la Sociedad de la Información, sus nuevas funciones en el mundo de Internet. Esta reflexión, que se ha querido plantear con la mayor generalidad, para trazar en lo posible un camino que pueda ser transitado por muchas otras organizaciones, ha conducido al planteamiento de nuevos proyectos, algunos de ellos ya en marcha.

En el proyecto ACCEDE (Acceso a la memoria digital de la cultura contemporánea) el énfasis está en mejorar el acceso a la información, personalizar la información, crear servicios y productos para públicos específicos, crear servicios de comunidad y herramientas de explotación, en especial en dos campos complementarios: la investigación y la educación. El proyecto está en marcha y empezará a presentar públicamente sus resultados a comienzos de 2002. Otros proyectos surgidos del mismo planteamiento: para la creación de tesauros especializados u ontologías de dominio que faciliten la búsqueda y explotación de recursos documentales de las instituciones de memoria, para la creación de servicios de aprendizaje en la Red a partir de los contenidos de éstas o para la constitución de corpus documentales textuales dotados de todas las capacidades de explotación para investigación que las tecnologías lingüísticas e informáticas ofrecen. Todos ellos están en fase de definición o iniciándose, irán completando este proceso de adaptación a la Sociedad de la Información.

Con proyectos como éstos, las instituciones de memoria que custodian documentos en lengua española se enfrentan a los mismos problemas a los que globalmente se enfrenta Internet: mantener y dar acceso a la información y ofrecer instrumentos, cuyo contenido tiene mucho que ver con la lengua, para encontrar esta información y explotarla, para convertirla en conocimiento y, a partir de aquí, en saber.

Ya tenemos reunidos a los tres protagonistas que aparecían en el título: Internet, las instituciones de memoria y la lengua española. De acuerdo con lo planteado, la aportación a la construcción de las tecnologías lingüísticas del español en la nueva etapa que se abre ante las instituciones de memoria, y que se ejemplifica en algunos proyectos que desarrollan o preparan, se produce siguiendo tres líneas principales: la elaboración de ontologías (y su utilización en la mejora de la capacidad de buscar y recuperar información en la web), la creación de corpus documentales de carácter textual y la personalización de servicios para sus usuarios. Los proyectos concretos puestos en marcha por la Residencia de Estudiantes y otras instituciones de memoria plantean, en efecto, cómo y para qué diseñar, alimentar y explotar ontologías relacionadas con colecciones documentales concretas, con dominios concretos, y cómo crear bases de conocimiento útiles para los investigadores de tales dominios y alimentadas por el trabajo de éstos.

Herramientas

Para desarrollar todo esto hacían falta instrumentos. En este sentido, la palabra mágica es XML (eXtensible Markup Language: lenguaje de marcado extensible), un lenguaje ideado para convertir la información (cualquier información) digital en autodescriptiva.¹³ XML es en realidad un metalenguaje, como su antecesor SGML, desbancado por su vástago a causa de su menor flexibilidad, que ha definido un conjunto de reglas que permiten crear lenguajes para marcar el contenido de objetos digitales. Si se siguen las reglas, un único programa analizador (parser) puede procesar (entender y traducir) cualquiera de estos lenguajes de marcado. El lenguaje específico dependerá del sector de actividad o de conocimiento del que se trate y el conjunto de etiquetas que se usará y las reglas que definan su composición, el vocabulario y la sintaxis, reflejará los intereses de intercambio y proceso automático de información de una comunidad profesional determinada. Estos elementos suelen dar lugar a una Definición de Tipo de Documento (DTD). Existen acuerdos para aplicar a sus documentos DTD específicas que implican a muy diferentes comunidades y, en el campo de las instituciones de memoria, los bibliotecarios, archiveros y conservadores de museo han desarrollado DTD operativas,¹⁴ que todavía están evolucionando, pero que ya permiten intercambiar y procesar documentos (o metadatos de documentos) usando herramientas creadas sobre la base de XML. Diferentes DTD pueden compararse entre sí y establecerse las equivalencias entre sus etiquetas, mapearse, permitiendo que, para ciertos propósitos, documentos heterogéneos sean tratados por las máquinas como si fueran del mismo tipo.

Así que XML permite, según sus autores, que la gente que comparte un mismo interés científico o comercial se concentre en lo realmente importante: ponerse de acuerdo en cómo representar la información que habitualmente intercambian. Esto afecta tanto al marcado de objetos como a la creación de metadatos. Para completar lo que hace XML, otra iniciativa del W3C es la denominada RDF (Resource Description Framework: Marco para la descripción de recursos),¹⁵ cuyo objetivo es crear un lenguaje estándar para que las máquinas comprendan de manera unívoca las descripciones de recursos (documentos, partes de documentos, personas…) presentes en la web. Este esquema es especialmente útil para el intercambio significativo de metadatos. RDF utiliza XML para marcar los recursos (con un identificador unívoco, URI: Uniform Resource Identifier) y las relaciones entre recursos. Por último, modelos para la construcción de ontologías, basados también en el uso de XML completan la panoplia de instrumentos para ir integrando territorios en la web semántica, y, lo que es mucho más importante, para que los servicios que presta Internet sean cada vez más útiles… Y todos estos instrumentos están a disposición de las instituciones de memoria para contribuir a esta construcción.

Lengua y memoria

Los proyectos de las instituciones de memoria son especialmente adecuados para desarrollar casos prácticos de alcance limitado de investigación en este terreno y se benefician de la experiencia en una serie de campos (metadatos, vocabularios controlados, autoridades…) de la comunidad profesional. Pero también pueden beneficiarse de la aplicación de los resultados de la lingüística computacional o de la ingeniería lingüística¹⁶ a la información cultural que custodian con el doble objetivo de mejorar el rendimiento de las búsquedas entre sus recursos y de favorecer, y automatizar, al menos en parte, la explotación de estos recursos para la investigación y otros usos, principalmente educativos.

Esta aplicación tiene una dimensión léxica, se precisa un diccionario digital que integre la terminología especializada relacionada con el contenido de los documentos con los que se desea trabajar. También morfológica, aplicando un conjunto de modelos morfológicos, nuestro conocimiento gramatical, que debe cubrir todo el léxico incluido en el diccionario, y las reglas de asignación de tales modelos a los lemas incluidos. Con estos elementos, un primer nivel de expansión de las búsquedas es ya posible. Esta morfología digital (diccionario, modelos de lematización y/o modelos de flexión/derivación, reglas de aplicación) puede enriquecerse a lo largo del desarrollo de los proyectos por dos vías. En primer lugar, a partir de las bases de datos a las que se aplique, comparando con el diccionario los índices de los contenidos a los que accede el sistema, e incluyendo lo que sea pertinente, y, en segundo lugar, a partir del trabajo de los propios usuarios, a través de un sistema de filtrado cooperativo, en el fondo semejante a las experiencias analizadas recientemente por Javier Candeira.¹⁷

Pero si además nuestras herramientas consiguen discriminar entre las diferentes combinaciones gramaticales y reconocen al menos sintagmas nominales correspondientes a nombres de entidades, de persona o de lugar, o formas verbales compuestas, las posibilidades de no equivocar nuestras búsquedas, o de reducir el nivel de ruido en ellas, mejorarán. Estas capacidades suponen ya un nivel, limitado, de conocimiento sintáctico que, aunque más complejo, está también al alcance.

El tercer nivel es semántico. En este terreno, los esfuerzos deben caminar por dos vías. La primera, de carácter general, se refiere a la aplicación de una red semántica básica (que incluya las relaciones de sinonimia/antonimia, de hiperonimia/hiponimia, de holonimia/meronimia). El modelo en este terreno lo proporciona el veterano proyecto Wordnet (referido naturalmente a la lengua inglesa), cuya extensión a varias lenguas europeas, entre ellas, el español, apoyó la Comisión Europea a través del proyecto Eurowordnet.¹⁸ La segunda, en la línea de lo apuntado más arriba, al desarrollo de ontologías de dominio específicas con un conjunto de relaciones mucho más rico que comprenda las relativas a nombres de persona, topónimos, obras, movimientos intelectuales y artísticos, etc. y que, utilizando una metodología lo más normalizada posible, permitan ir construyendo bases de conocimiento relacionadas con los contenidos de las colecciones, en nuestro caso, con la cultura española contemporánea, que incluyan lo que pueda ser formalizado del saber acumulado por los estudiosos.

Experimentar un modelo

Las instituciones de memoria pueden hoy considerarse a sí mismas factorías de contenidos, de obras para el mundo Internet. No es probable que los bibliotecarios se conviertan en acreditados guías del ciberespacio.¹⁹ Pero las instituciones de memoria se adecuan hoy a prestar servicios, probablemente de manera conjunta, típicos de lo que en los años anteriores se ha llamado un portal vertical. En efecto, se puede decir que Internet segmenta la demanda: los públicos, permite una demanda muy diferenciada de aficionados, de maníacos, de hooligans de un tema cualquiera; e integra la oferta: permite ofrecer juntas colecciones físicamente separadas formando colecciones virtuales. Esto define una misión nueva para las instituciones de memoria, para la que se pueden sentir especialmente bien dotadas. En la prestación de estos servicios, pueden plantearse a escala, como un microcosmos de la web, los problemas que se mencionaban en la primera parte de este trabajo. Ofreciendo ventajas que las hacen particularmente útiles para ejemplificar desarrollos a los que se enfrenta la comunidad de Internet, como la filosofía de la web semántica, la construcción de ontologías de dominio y la creación de metadatos se adaptan muy bien a algunas de las características de las instituciones de memoria:

Ofrecen contenidos de calidad, de cuya fiabilidad y autoría pueden responder.
La información a la que tienen que proporcionar acceso y para la que tienen que crear herramientas presenta dimensiones abarcables. No es lo mismo crear una densa red semántica de carácter general que una ontología adaptada a una parcela concreta (por la época, por la materia…).
Conocen el perfil de sus usuarios y pueden diseñar servicios adaptados a su público objetivo, aprovechando procedimientos de personalización.
Están especialmente capacitadas para diseñar servicios de localización de la información especializada en el interior de sus propias bases de datos.
Pueden experimentar con provecho con herramientas que les permitan extender sus logros de manera controlada al mundo exterior. Desarrollar, por ejemplo, herramientas de búsqueda, anotación, creación de anillos… de recursos ajenos especializados, que se beneficien de todas las herramientas creadas en casa.

La definición de proyectos de desarrollo y de aplicación de herramientas de contenido lingüístico a dominios muy concretos puede ser una de las vías que preparen el futuro de las instituciones de memoria en la Sociedad de la Información. Limitando el campo de aplicación de estos proyectos a un terreno de dimensiones razonables se pueden conseguir resultados útiles y definir, al mismo tiempo, una metodología generalizable. Ésta puede ser su contribución, necesariamente modesta, a recuperar el retraso de las tecnologías lingüísticas del español.

Liberar la memoria

Con todo esto, no debemos perder el camino. Se trata de dar pasos que faciliten la conservación, a ser posible ordenada y bien descrita, del patrimonio documental. Pasos que mejoren el acceso a éste, sobre todo, una localización eficaz de recursos culturales de calidad, y, muy especialmente, su explotación para crear conocimiento y transmitirlo. Convertir, pues, a las instituciones de memoria en centros de recursos para una infinidad de actividades: para la investigación y la educación, en especial, pero también para el ocio creativo. Y todo ello liberando a los hombres en lo posible de la parte ingrata de la tarea. Ya lo decía en 1945 Vannevar Bush en el texto citado:

El ser humano ha creado una civilización tan compleja que le resulta absolutamente necesario mecanizar por completo sus archivos si desea llevar toda su experiencia a su conclusión lógica en lugar de quedarse bloqueado por sobrecargar su limitada memoria. Sus excursiones conceptuales podrían resultar más placenteras si pudiese recuperar el privilegio de olvidar las múltiples cosas que no necesita tener a mano inmediatamente, aunque sin renunciar a la seguridad de poder encontrarlas en el momento en que le pudiesen resultar útiles.²⁰

.Y, aunque no estoy seguro de que lo más prudente sea siempre confiar la memoria a las máquinas, tal vez hacerlo así sea hoy una imposición de la cantidad y del modo en que la información está accesible, e Internet no ha hecho, probablemente, más que agudizar el problema. La humanidad, para desarrollar su creatividad, ha necesitado irse liberando, primero de las tareas físicas, ahora también de algunas que solían considerarse intelectuales. La idea de la inteligencia artificial o de los agentes inteligentes, en cuyo desarrollo las herramientas discutidas en este trabajo cumplen un papel, apunta en ese sentido. Cuantas más tareas arduas o tediosas consigamos que las máquinas hagan por nosotros (buscar la información que responde a nuestro interés, organizarla, procesarla para que quede lista para su uso) más podremos centrarnos en lo que verdaderamente importa: la construcción del saber.

Notas

1. Claude Lévi-Strauss: Myth and meaning, Schocken Books, New York, 1979, p. 12. En definitiva, aclara a continuación, esto es imposible sin un orden, sin reglas de traducción: cómo una palabra sustituye (traduce) a otra.
2. Tim Berners-Lee, James Hendler y Ora Lassila: «The Semantic web . A new form of web content that is meaningful to computers will unleash a revolution of new possibilities», publicado en Scientific American, Mayo 2001: http://www.sciam.com/2001/0501issue/0501berners-lee.html. También puede consultarse el sitio http://www.semanticweb.org/.
3. Por ejemplo, en Tom Gruber: «What is an Ontology?», http://www-ksl.stanford.edu/kst/what-is-an-ontology.html.
4. Vannevar Bush: «Como podríamos pensar», en Revista de Occidente, 239, marzo 2001, pp. 19-52 (publicado originalmente como «As we may think» en Athlantic Monthly, 1945).
5. Se puede encontrar un resumen de esta cuestión en el artículo de Tony Gill: «Metadata and the World Wide web», http://www.getty.edu/research/institute/standards/intromedata/ (última actualización 7/5/2000). El propio Tim Berners-Lee, además de participar en la aventura de la web semántica, está en el origen del proyecto de catalogación de la web «WWW Virtual Library»: http://www.vlib.org/.
6. Una discusión sobre los procedimientos utilizados por Google para conseguir que este orden de pertinencia de los resultados de las búsquedas resulte eficiente, en Javier Candeira: «La web como memoria organizada: el hipocampo colectivo de la Red», en Revista de Occidente, 239, marzo 2001, pp. 87-113.
7. José Antonio Millán: «Para poder pensar», Revista de Occidente, 239, marzo 2001, pp. 5-18: http://jamillan.com/parapoder.htm.
8. Tony Gill en el artículo citado (http://www.getty.edu/research/institute/standards/intrometadata/)
9. El ejemplo más notable es la Dublin Core Metadata Initiative (DCMI), que ha pasado a la jerga simplemente como Dublin Core o DC. Esta iniciativa, lanzada en Dublin (Ohio) en 1995, ha desarrollado un conjunto de 15 elementos que se suponen los metadatos esenciales (core) para describir buena parte de los documentos que pueblan Internet: la semántica de estos elementos del Dublin Core Metadata Element Set ha sido definida por consenso por un grupo interdisciplinar y existen ya versiones en múltiples lenguas. Puede consultarse en http://dublincore.org/.
10. Las posibilidades, así como las dificultades a que se enfrenta este proceso se han experimentado en el proyecto COVAX, al que se alude más adelante: http://www.covax.org/.
11. El proyecto COVAX (Contemporary culture virtual archive in XML), financiado por la Comisión Europea y coordinado por la Residencia de Estudiantes, se basa en la utilización de XML y su objetivo es potenciar ese acceso global a diferentes tipos de documentos y descripciones contenidos en bases de datos distribuidas: http://www.covax.org/.
12. Javier Echeverría: Los señores del aire. Telépolis y el tercer entorno. Barcelona, Ediciones Destino, 1999, pp. 52-53.
13. Entre la inabarcable literatura acerca de XML, puede consultarse el artículo «XML and the Second-Generation web» de Jon Bosak y Tim Bray (dos de los creadores de este lenguaje), publicado en Scientific American, Mayo 1999: http://www.sciam.com/1999/0599issue/0599bosak.html.
14. Por ejemplo, MARC DTD para descripciones bibliográficas, EAD para descripciones de archivos, AMICO DTD para descripciones de objetos de museo, TEI (la DTD más veterana, creada para SGML) para textos electrónicos. Éstas son las usadas en el proyecto COVAX, al que se aludió más arriba.
15. Un resumen útil en Tim Bray: «What is RDF?» http://www.xml.com/pub/a/2001/01/24/rdf.html. Puede también consultarse el sitio http://www.w3.org/RDF/.
16. En todo este apartado, hago abundante uso del trabajo de Rafael Millán: «Plan de trabajo 2001-2002. Área de Tecnología lingüística. Estudio sobre sistemas avanzados de recuperación para bases de datos», documento producido en el marco del proyecto ACCEDE.
17. En el artículo citado en la nota 6.
18. Sobre Wordnet, puede consultarse http://www.cogsci.princeton.edu/~wn/. Sobre Euroworne, por ejemplo, http://www.ub.es/ling/ewn.htm.
19. La expresión es de José Antonio Millán, en el artículo citado, p. 13.
20. En el artículo citado, p. 52.

Lengua, Internet e instituciones de memoriaCarlos Wert Director de la biblioteca de la Residencia de Estudiantes. Madrid (España)