Informática y literatura por Internet: análisis de la lengua en textos hispánicos Estelle Irizarry
Presidenta de la Comisión de Informática de la Academia Norteamericana. Washington D. C. (Estados Unidos)

I. Lengua y literatura

Si las Academias de la Lengua admiten no sólo a lingüistas sino también a autores de obras literarias, ha de ser porque éstos suelen preocuparse por la lengua a la vez que nos dan ejemplo del mejor uso. Implícitamente identificamos la lengua con la literatura cuando hablamos del español como «la lengua de Cervantes». De la misma manera, la tradición de la filología europea (Croce, Vossler, Spitzer) ha vinculado el estudio de la lengua y los textos literarios. Se ve en los títulos de Leo Spitzer, La interpretación lingüística de las obras literarias (1930) y Lingüística e historia literaria (1948), y en la revista inglesa Literary and Linguistic Computing. El crítico argentino Enrique Anderson Imbert, en sus Métodos de crítica literaria, de 1969, llamó a la literatura un «proceso lingüístico» (p. 86).

No obstante, se puede decir que hoy en día, los lingüistas olvidan a Cervantes a la hora de estudiar la lengua y los literatos se olvidan de la lengua a la hora de estudiar a Cervantes. Ambos grupos se encuentran, en general, muy separados, aunque existen varias áreas de convergencia en su preocupación por la lengua, áreas que podrían beneficiarse del análisis de textos literarios electrónicos.

La lingüística actual típicamente estudia la competencia o práctica lingüística en datos que ocurren naturalmente (Ball). Su atención se enfoca hacia el lenguaje ordinario, los hábitos colectivos, mientras que la del literato se enfoca hacia el lenguaje «extraordinario» del escritor individual. En los Estados Unidos, el desarrollo académico de la lingüística del español como disciplina propia en el siglo xx parte de la filología y la gramática histórica basadas en textos escritos para dirigirse al estudio del habla colectiva (Lipski).

Algunos lingüistas han trabajado sobre textos literarios, pero son relativamente pocos. Se pueden citar los estudios de Rafael Lapesa, Tomás Navarro Tomás y Raimundo Lida sobre obras de Rubén Darío, dentro de lo que Anderson Imbert llama el «método lingüístico, estilístico, de la crítica literaria» (p. 85). Y se destacan varios estudios de Charles Kany, publicados en los 40 y los 60, sobre eufemismos, sintaxis y semántica hispanoamericanos, y basados enteramente sobre fuentes literarias (Lipski, p. 252). Pero más y más, la lingüística moderna se ha alejado de la literatura. En las bibliografías comprensivas de Randal Fulk sobre el español de México entre 1970 y 1999, sólo 16 de 589 entradas corresponden a estudios de la lengua en obras de autores literarios. Entre los 21 trabajos publicados en la memoria del X Congreso de Academias de la Lengua Española de 1994, solamente uno relaciona lengua con literatura («Rubén Darío, precursor de los congresos de Academias de la Lengua Española y renovador de nuestro idioma», de Edgardo Buitrago).

Si los lingüistas suelen desatender la literatura, los críticos literarios a su vez suelen desatender el estudio de la lengua. En 1969 Anderson Imbert describió un método de crítica que llamó la «estilística de la lengua» (p. 143), ejemplificada por Dámaso Alonso y Amado Alonso. Hoy, en cambio, al situar en primera plana cuestiones teóricas y sociales, los críticos cometen el error de abandonar el texto, justo cuando la informática ha puesto a su alcance la posibilidad de comprobar sus teorías con vastas cantidades de datos textuales. Los críticos que usan métodos computacionales para el análisis literario textos se vuelven un poco lingüistas, pero no es muy frecuente que se entrecrucen las disciplinas.

El lingüista cubano Juan Jorge Fernández Marrero describe el fenómeno mismo del lenguaje «como una actividad de creación verbal… como poiesis» (p. 174). Lo será aún más, entonces, tratándose del lenguaje intencionadamente literario, porque la literatura representa una importantísima forma de comunicación y expresión humana, distinguida de otras por su calidad estética o «poética». Fernández Marrero también habla de una «dinámica lengua-sociedad-grupo-individuo» (p. 177) dentro de la cual se debe extender la producción de normas más allá de la palabra socializada, al individuo. Se debe tomar en cuenta la actividad del sujeto con su conciencia abierta y creadora, influida, según el caso, por sus circunstancias personales, nacionales y sociales (p. 177). A mi modo de ver, este sujeto por antonomasia es el autor literario; en él convergen lengua y lenguaje.

Al mismo tiempo, no hay que mirar el corpus literario siempre con ojos de normatividad. No todo son ejemplos del buen uso culto y estético. Los escritores, como advirtió Spitzer, pueden desviarse intencionadamente de la lengua normal. Son los atrevidos de la lengua, los que forjan innovaciones, neologismos y reforma. Jugar y experimentar con la lengua implican en muchos casos un rechazo de las normas. Con acierto alega Edgardo Buitrago, en torno a Darío, que «la mejor comprobación de sus logros en la labor de renovación y reforma del lenguaje es su propia obra poética y de prosa, por la cual merece llamarse el Libertador» (pp. 384-85).

Fernández Marrero capta plenamente las posibilidades de la lengua culta cuando afirma: «Conozco y suscribo el valor de la lengua culta como institución central para el aprendizaje y la creación verbal» (p. 180). En la literatura, encontramos ejemplos normativos («para el aprendizaje») y anómalos (de «creación verbal»). Por lo tanto, el poder acceder a literatura en Internet permite al individuo buscar su propio nivel de normatividad.

En términos de su utilidad para el estudio de la lengua, la literatura es un género híbrido. Una novela, por ejemplo, puede representar la expresión culta de su autor a la vez que reproduce el habla popular de personajes de diversos tipos. Los novelistas suelen ser buenos observadores; además de reproducir el discurso de sus personajes, proporcionan datos de interés al sociolingüista, relativos a su edad, educación, procedencia, sexo, etc. Me parece, entonces, que el uso de literatura como material de corpus podría reunir a lingüistas y literatos en un diálogo común, al servicio de la lengua.

En fin, la gran utilidad de un corpus literario proviene del hecho de ser de uso mixto, ya que puede servir por igual a las tres estilísticas que señala Julio Casares: la general de la lengua, la particular de determinada comunidad lingüística y la individual del autor (Casares, p. 103). Se explican a continuación algunos recursos y métodos para el análisis de textos literarios vistos como un corpus electrónico para el estudio de la lengua en la época de Internet.

II. Un poco de historia

Un aparato capaz de manipular palabras y computar sus características fue ideado por un novelista más de dos siglos antes de que se convirtiera en realidad, en Los viajes de Gulliver de Jonathan Swift, de 1726. En la década de los 1950 se llevaron a cabo varios proyectos colectivos de concordancias en computadoras grandes y costosas, que empleaban tarjetas perforadas. Con estas computadoras trabajaron pioneros internacionales del análisis textual como Susan Hockey, Robert L. Oakman, Alvar Ellegård, Andrew Q. Morton, M. W. A. Smith, Paul Fortier, Rosanne Potter y otros. Las primeras concordancias computarizaras en español —del Quijote, el Martín Fierro y obras de Eugenio Florit y de Góngora— datan de los 1960. La computadora personal de la década de los 80 ofrecía nuevas posibilidades al investigador individual, pero había que entrar códigos para representar las marcas diacríticas y la puntuación del español por las limitaciones del texto ASCII (American Standard Code for Information Interchange). La poca capacidad de los discos y la reducida memoria de las computadoras limitaban la cantidad de texto que podía ser procesado. Los textos mismos escaseaban: el escáner individual no existía y el lector óptico Kurzweil —lento y poco preciso en la conversión del español a forma electrónica— costaba una pequeña fortuna y era más grande que una estufa eléctrica.

Los programas disponibles para uso en esa época (los 80) fueron programados para el sistema operativo DOS. Los más conocidos de los programas para el análisis de textos eran WordCruncher, que se originó en Utah, y Micro-OCP, un producto de Oxford. Al mismo tiempo, muchos profesores de literatura (por ejemplo, Ian Lancashire, Stephen Reimer, Rosanne Potter) crearon sus propios programas en Pascal o Basic para realizar tareas específicas o colaboraron con programadores para poner en práctica ideas originales. Generosamente compartían sus programas con colegas y sus conocimientos en congresos y en revistas como Computers and the Humanities y Literary and Linguistic Computing. Pero con el tiempo, los profesores encontraban que sus esfuerzos no eran apreciados por sus instituciones como una aportación académica a la hora de otorgar la permanencia, los ascensos y los aumentos por mérito, y la creación de programas por profesores decayó.

Los que no éramos programadores, ni teníamos deseos de serlo, descubrimos una función muy útil en nuestros tratamientos de textos: el macro, que registra una serie de operaciones en el teclado que después puede ser repetida automáticamente. El macro viene a ser un tipo de mini-programa específico creado por el usuario. Ned Davison publicó varios artículos en Hispania sobre el uso de macros para el análisis de textos en WordPerfect. En mi introducción a Sonetos de la muerte de Odón Betanzos Palacios, diseñé un macro así para crear un diccionario de rima, que me permitió establecer un índice de variedad de rima en los 56 sonetos.

Existen hoy conjuntos de programas muy robustos para Windows como Tact y WordSmith, y otros, más especializados y sencillos, como MonoConc y Microconcord, para concordancias. Algunos archivos de textos incorporan sus propios programas de búsqueda y concordancia. La página http://www.concordance.com/ permite la creación de distintos tipos de concordancias, con el beneficio adicional de poder coordinarlas allí mismo con un diccionario de sinónimos. Pero el usuario está limitado a los textos disponibles, en este caso grandes libros en inglés, y tiene que cortar y pegar para copiar los resultados. Otros sitios permiten que el usuario entre su propio texto, pero imponen límites de extensión.

La creación de colecciones de textos electrónicos, generalmente como proyecto en equipo, se ha intensificado desde mediados del siglo xx. Algunas de las más antiguas y conocidas son el archivo de textos de Oxford; el corpus Brown, concebido como proyecto de diccionario en 1961; las colecciones British National y LOB of British Texts; el Century of Prose, recopilado por Luis Milic; el Thesaurus Linguae Grecae (TLG) de textos clásicos y el Trésor de la Langue Française (http://humanities.uchicago.edu/ARTFL/ARTFL.html). Este último archivo comenzó en 1957 como proyecto cooperativo del Institut National de la Langue Française (INaLF) y el Centre National de la Recherche Scientifique (CNRS) y la Universidad de Chicago, con la idea de preparar un diccionario de los siglos xvii a xx. Usando Internet o «Philologic» el usuario puede buscar palabras, sufijos, prefijos, listas de palabras en la base de textos, pero no puede acceder a los textos mismos. El Trésor, que sólo ofrece acceso a instituciones, a cambio de una cuota, actualmente comprende unos 115 millones de palabras, de unos dos mil textos que abarcan cuatro siglos. Para textos en inglés, el Proyecto Gutenberg, comenzado en 1971 (http://promo.net/pg/), distribuye unas diez mil obras a través de sitios satélites, en los formatos FTP en ASCII (con letra itálica, subrayado y negrita representados con mayúscula) o en HTML, para máxima accesibilidad.

Hasta muy reciente, escaseaban recursos de este tipo en español. Cuando preparaba la mayor parte de los textos que figuran en mi libro Informática y literatura, tenía que pasar largas horas, como los copistas medievales, en las tareas de reproducción por métodos rudimentarios: la entrada manual en teclado o la conversión con la el lector óptico Kurzweil. Preparé así un corpus de 30 narradores españoles del siglo veinte y otro de 27 novelas de Galdós, proyectos modestos de muestras aleatorias de 5000 palabras. Pero desde 1999, por iniciativa del entonces rector de la Universidad de Alicante, Andrés Pedreño, y con el patrocinio del Banco de Santander Central Hispano y la Fundación Marcelino Botín, el mundo hispánico cuenta con el archivo más extenso y consistente de cualquier idioma, la Biblioteca Virtual Miguel de Cervantes (http://www.cervantesvirtual.com/). En apenas dos años (para mediados de julio de 2001, según Javier Fresnillo Núñez, quien dirige la preparación de textos) la Biblioteca alcanzó la cifra de 5774 textos cuidadosamente digitalizados y, un tesoro de clásicos que está a la entera y gratuita disposición de todo el mundo a través de Internet. Con la Biblioteca Virtual Miguel de Cervantes (dirigida ahora por José Carlos Rovira), entramos en el nuevo siglo y milenio con recursos comparables a los que han disfrutado ya los estudiosos de la literatura en los idiomas francés e inglés.

III. El corpus electrónico como extensión del diccionario

El famoso lexicógrafo inglés Samuel Johnson estaba convencido de la ventaja de ilustrar su diccionario con ejemplos literarios. Pero apremiado por la obligada economía impuesta por el medio impreso, comprimía pasajes, condensó secciones y a veces alteró una cita para que ilustrara más de una palabra (Kolb y Kolb, pp. 61-73). Una base de textos completos libera al lexicógrafo de la tiranía del espacio. El texto en sí proporciona ejemplos primarios a petición y puede usarse para crear glosarios y diccionarios, o para consulta. Los textos en Internet nos dan la capacidad de viajar por el espacio inacabable.

El texto electrónico, sin más auxiliar que la búsqueda capacitada por un tratamiento de textos cualquiera, puede servir de suplemento a cualquier diccionario. Se está editando en Toronto la nueva edición, completamente electrónica, del Dictionary of Old English, que será el primer diccionario académico que ofrece al lector acceso a la misma información primaria que sirvió a los lexicógrafos (CETH, p. 13). No hay que prescindir de los diccionarios en papel para disfrutar de las ventajas de un corpus electrónico. Muchos diccionarios ofrecen definiciones sin ejemplos y un corpus de literatura en Internet ofrece ejemplos sin definiciones. Combinando los dos recursos, los diccionarios tradicionales adquieren una dimensión nueva; uno puede leer la definición y buscar muestras de su uso en distintos autores de distintos lugares, épocas y situaciones. Con poco esfuerzo, cada persona puede crear sus propios diccionarios de autoridades.

Un corpus de multiuso, para el estudio de lengua y literatura cae plenamente dentro de un principio enunciado como planteamiento de un Congreso de Lexicografía celebrado en la Universidad de California, Riverside, en 1969, donde se propuso investigar «no sólo cómo los diccionarios pueden iluminar poemas, sino también cómo los poemas pueden iluminar los diccionarios» (Weinbrot, p. vii). El Diccionario de Autoridades de la Real Academia Española de 1726 y el famoso Diccionario del inglés de Samuel Johnson, de 1755, son ejemplos de diccionarios que recogen citas de obras literarias. El lexicógrafo Sheridan Baker insiste en la primacía de los textos escritos por encima de las transcripciones orales cuando afirma: «Queremos un diccionario sensible a las preferencias pensativas y cognitivas en su mejor estado —es decir, a la lengua como pensamiento, que probablemente se cristaliza al máximo en el crisol de la escritura» (p. 151, trad. y subrayado míos). ¿Dónde encontraremos «el mejor uso» pregunta el autor gallego Rafael Dieste, al citar la definición de Amado Alonso y Pedro Henríquez Ureña de que la gramática normativa de un idioma es el sistema de normas para escribirlo o hablarlo «conforme al mejor uso». ¿Quiénes son las autoridades? Los escritores, según el primer Diccionario de Autoridades en castellano, publicado por la Real Academia Española en 1726, el primero en castellano que recoge ejemplos de obras literarias. Dice la introducción: «Las citas de los Autóres para comprobación de las voces, en unas se ponen para autoridad, y en otras para exemplo…, como las voces que no están en uso, y el olvído las ha desterrado de la Lengua» (p. V, subrayado mío).

Sobre la selección de autores, el prólogo señala dos criterios: «…la Académia (como se ha dicho) ha elegido los Autóres que la han parecido haver tratado la Lenguá con mayor gallardía y elegancia» y otros «para comprobar la naturaleza de la voz, …pues solo ha puesto el cuidado de citar los que usaron con la mayor propriedád la voz de que se habla» (pp. V-VI, subrayado mío). La Academia Española reconoció el problema que podría causar el exceso de datos, por lo cual «se ordenó, para evitar esta prolixidád, que solo se autorizasse cada voz, ò phrase con dos, ù tres autoridades: pues si es castíza, y expressíva, dos (dos ot tres testigos conformes bastan para asegurar su naturaleza)». Almacenar datos en aquellos tiempos fue un enorme trabajo que podía ser realizado únicamente en equipo. Hoy, en cambio, gracias a Internet y a la casi inconcebible capacidad de almacenaje y de recuperación de las computadoras, la «prolijidad» ya no es una preocupación.

¿Qué ventajas trae el poder consultar un corpus grande? Se sabe que en un corpus de cualquier tamaño la mitad de los vocablos aparecen una sola vez (Sinclair) y por lo tanto se pueden caracterizar de poco comunes. En un corpus de un millón de palabras, podemos esperar 500 000 palabras poco comunes (por ejemplo, que ocurren una sola vez). En un corpus reducido, digamos de 10 000 palabras, éstas no sobrepasarán 5000. Si todos los archivos textuales ofrecieran, como ARTFL y concordance.com, la opción de búsqueda global en su colección completa, el investigador tendría la mayor probabilidad de encontrar ejemplos del uso de vocablos inusitados.

Hasta el momento, los diccionarios no han aprovechado suficientemente el uso de textos literarios. Una excepción es el Pequeño diccionario de construcciones preposicionales de Emile Slager, pero en general la literatura no forma la reserva principal de los diccionarios hoy en día. Es de esperar que, con los recursos que existen ahora, se acuda más a la literatura para ilustrar diccionarios con modelos del mejor uso.

IV. Análisis de textos electrónicos: ¿qué podemos hacer y cómo?

Se dice, y con razón, que el medio crea el uso. La manera más práctica de ajustar las necesidades a los medios disponibles es comenzar con operaciones conocidas y adaptarlas a nuestras exigencias. Sabemos que las computadoras realizan ciertas tareas con suma facilidad: buscar, aislar, ordenar, desordenar, contar, y generar listas, concordancias, estadísticas y gráficos. Examinemos algunas de estas funciones en más detalle:

Las búsquedas. Esta función, realizada con cualquier tratamiento de textos y en muchas páginas en Internet, recoge todos los ejemplos encargados, de palabras, fragmentos, combinaciones, frases o puntuación.

El descubrimiento. Hay programas que pueden descubrir grupos (clusters) de dos, tres o más palabras que se repiten. Se pueden identificar así expresiones insistentes que de otro modo pasarían desapercibidas, como, por ejemplo, la de «la pena me…» diez veces en los 56 Sonetos de Betanzos.

Las funciones ordenadoras concentran en un lugar lo que es diverso. Se pueden crear listas alfabéticas (en forma ascendente o a la inversa), o en orden de aparición o de frecuencia. En esta categoría ordenadora se incluyen las funciones comparativas, como las que describe Francisco Marcos Marín para reunir y resolver variantes del Libro de Aleixandre con ADMYTE.

Los recuentos de frecuencia. Los grandes diccionarios de frecuencias ofrecen datos de gran utilidad sobre los hábitos lingüísticos, pero su preparación hasta ahora ha representado un proyecto de proporciones monumentales, de larga gestación y de costoso trabajo colaborativo. Un ejemplo es el Recuento de vocabulario español en dos tomos, recopilado por Ismael Rodríguez Bou como proyecto de la Universidad de Puerto Rico, el Consejo Superior de Enseñanza de Puerto Rico y la OEA (1952). Otros son el Vocabulario usual, común y fundamental en dos tomos, recopilado por Víctor García Hoz (CSIC, Instituto San José de Calasanz, Madrid, 1953), y Frequency Dictionary of Spanish Words de Alphonse G. Juilland y Eugenio Chang-Rodríguez, de 1964. Estos proyectos se hicieron a base de diversas fuentes orales y escritas y representan universos fijos de cien mil palabras a un millón. Los recuentos electrónicos ofrecen más flexibilidad al investigador individual. Pueden abarcar múltiples obras o una sola y mostrar la información de diversas maneras, en orden alfabético, de rango o de aparición en el texto.

Los programas disponibles en español registran formas y no vocablos lematizados, es decir, no reducidos al infinitivo o a la forma singular masculina. Hace falta un buen programa lematizador.

La concordancia es el formato clásico para examinar el uso de las palabras, ya que enseña una palabra o expresión rodeada de contexto. La concordancia electrónica es un recurso completamente interactivo y flexible. Al examinar el contexto, uno puede desambiguar homónimos —para determinar si junta, por ejemplo, es sustantivo o verbo— y reorganizar los ejemplos de cada aceptación. El contexto original puede ser de pocas palabras o llenar toda la pantalla. Es posible también examinar varias obras al mismo tiempo, en ventanillas separadas.

Las concordancias avanzadas organizan los contextos inmediatos que la estilometría llama en inglés collocation. (Estimo que la mejor traducción es contigüidad, puesto que el cognado colocación en español tiene otro sentido y colocalidad implica la calidad de ser colocable). Un examen de contigüidad ayuda a determinar cuáles son las palabras que más frecuentemente acompañan a otras, o antes o después. Por ejemplo, en un importante estudio electrónico de varios siglos de miles de obras francesas en ARTFL, Mark Olsen determinó influencias históricas en las palabras que acompañan mujer, que en ciertas épocas favorecían características físicas, de edad y bellezas, en otras cualidades morales.

La concordancia tipo KWIC (Key Word in Context) reúne el máximo número de ejemplos en un espacio mínimo, produciendo una lista con el objeto de la búsqueda en el centro, rodeado de algunas palabras de contexto.

Parece que ya ha pasado la época de las grandes concordancias impresas porque los programas hoy en día permiten la generación instantánea de concordancias que antes exigían años, o de concordancias parciales según las necesidades del investigador.

V. ¿Análisis literario o lingüístico?

La estilística es la vertiente de los estudios literarios que más ha acercado a los literatos a la lingüística. En 1969, Enrique Anderson Imbert comentó que la estilística «todavía no es una ciencia, pero con técnicas cada vez más precisas constituirá la base de una ciencia futura» (p. 133), se puede decir que ese futuro es ahora y esa ciencia se llama estilometría. A veces la estilometría, aun cuando utiliza análisis de lengua, sirve a propósitos esencialmente literarios. Repasaré brevemente algunos de ellos:

Resolver problemas de autoría de obras anónimas o de autoría disputada. El propósito es identificar la huella digital estilística de un autor por medios científicos. En mi edición de Infortunios de Alonso Ramírez procuro resolver la polémica de trescientos años en torno a la primera novela publicada en América. Las pruebas que comparan Infortunios con otros textos de Carlos de Sigüenza y Góngora apoyan la tesis de Menéndez y Pelayo de que Alonso Ramírez, lejos de ser un personaje ficticio, es co-autor de la narración.

Distinguir dos voces en textos de autoría doble y sus consecuencias. El Diario de Colón nos ha llegado como una transcripción del original hecha por el P. Bartolomé de las Casas, en la cual las citas directas del Almirante ocupan sólo un 25 por ciento del texto entero. Distinguir las voces de los dos autores es de gran importancia porque algunos juicios acerca de Colón resultan injustos y proceden de la equivocación de atribuir a Colón rasgos del estilo de Las Casas.

Desarrollar nuevas metodologías de análisis literario: en mi estudio sobre En la ardiente oscuridad de Buero, separo los papeles de los dialogantes para contrastar su expresión. En otro estudio («Tampering with the Text») estudio la resistencia del texto poemático a la subversión de su léxico o forma conseguida por funciones desordenadoras de la computadora.

Otros tipos de estudio estilístico se enfocan primordialmente hacia la lengua. Doy a continuación dos ejemplos desarrollados en mi libro Informática y literatura y en otras publicaciones:

Trazar imitación de estilo y su propósito. En «Juzgando la evidencia: Concepción Arenal» comparo su estilo al de los códigos legales y al de los tribunales para mostrar cómo esta autora defiende la causa de las mujeres, utilizando el estilo tradicional forense y de registro legal.

Estudiar múltiples textos y autores. Una de las tareas imposibles de llevar a cabo sin ordenador es abarcar vastas cantidades de textos para determinar o comparar características de autores o de obras. Un corpus colectivo permite distinguir épocas, grupos de obras de estilo parecido y cambios en el estilo. En un corpus de 27 obras de Galdós, los resultados de un examen de ciertos rasgos estilísticos contradicen algunos de los supuestos críticos comúnmente aceptados. En otros estudios de este tipo estudio la lengua del puertorriqueño en las 14 novelas de Enrique A. Laguerre y el estilo de 30 novelistas españoles del siglo xx.

Caracterizar «lengua femenina». ¿Existe la llamada escritura femenina? Examino este problema en mi estudio sobre ideolecto masculino e ideolecto femenino en ensayos de los autores mejicanos Octavio Paz y Rosario Castellanos. En la Edad Media surgió la pregunta de si las mujeres tenían alma. En nuestros tiempos, una investigadora (Thorne) ha preguntado si las mujeres tienen un vocabulario más reducido que los hombres. Los resultados de mi investigación computacional refutan esta idea. Hay implicaciones aquí para el establecimiento de normas, que proceden mayormente de autoridades masculinas. Las normas son iguales para hombres y mujeres, pero hay evidencia, por lo menos en Paz y Castellanos, de diferencias significativas en el uso de la puntuación, el vocabulario y el sufijo diminutivo.

VI. El verificador de ortografía como herramienta de investigación

Dada la relativa escasez de programas para el análisis de texto, he recomendado siempre el uso creativo de programas existentes y de recursos de fácil manipulación y bajo costo. Uno de ellos es el verificador de ortografía, cuyo uso describo más detalladamente en el Boletín de la Academia Norteamericana de la Lengua Española.

Se trata del uso de esta herramienta, no para asegurar la corrección, sino para hallar anomalías. En vez de servir de instrumento normativo; se convierte en un instrumento de exploración. El mismo logical que caza errores tipográficos y los corrige, en un texto ya corregido realiza una función contraria al aislar palabras inusitadas o inaceptables. El corrector electrónico, dotado de inteligencia artificial, se detiene ante toda palabra que no encuentre en su léxico, como haría cualquier lector, pero a diferencia de éste, no sigue adelante sin permiso. Si, en vez de cambiar las palabras que el verificador rechaza, las guardamos en una lista, ésta sirve para identificar neologismos, indigenismos, regionalismos, extranjerismos y calcos que no están en su memoria y que a veces eluden nuestra atención durante la lectura porque el contexto y el interés distraen. Más eficiente aún es generar una lista de todas las palabras del texto primero —porque cada palabra aparece una sola vez— y luego pasar el corrector por ella. Claro está, los verificadores no fueron diseñados con este propósito. Al utilizarlo en su forma normal, las palabras raras constituyen un estorbo; para el investigador de lengua, son objetos de interés.

En un examen de dos capítulos de novelas históricas de Ángeles de Irisarri (Las damas del fin del mundo e Isabel, la Reina; 7 166 palabras), el verificador rechazó la ortografía arcaica de aparescía, aparesció y la colocación enclítica de pronombres átonos en vez de la paraclítica normal en diríase y quedóse, formas utilizadas con eficacia estilística y estética.

Repasar el ya citado corpus de 14 novelas de Enrique A. Laguerre con el verificador ortográfico reveló la presencia de numerosas palabras que no se encuentran en diccionarios de puertorriqueñismos, entre ellas el vocablo filiche, que significa algo tan común como 'niño' y aparece con una frecuencia de siete veces. El verificador también presentó oportunidades para estudiar neologismos en este autor y sus experimentos con compuestos y onomatopeya. De hecho, podemos aprender mucho sobre el proceso de formar neologismos en los grandes escritores.

Naturalmente los resultados dependen de que se utilice un buen verificador de ortografía. Su implícita normatividad es razón de más para sugerir que la creación de este tipo de programa es un campo en el que deben incurrir las instituciones preocupadas por la lengua y no sólo dejar para los programadores de los tratamientos de textos.

VII. Retos y peligros del análisis de textos literarios en Internet

Las nuevas tecnologías facilitan muchas tareas, pero también presentan retos e inconvenientes que hay que tener en cuenta. Por ejemplo, preparar un texto electrónico para el análisis computacional exige tiempo y esfuerzo, especialmente si el investigador quiere entrar etiquetas o códigos para identificar funciones de palabras, localidad en el texto, etc. Además, el corpus tiene que estar en un formato compatible con el programa analizador. Diría, como regla general, que la inversión de tiempo y esfuerzo no debe exceder por mucho el posible rendimiento.

Para el que emprende el análisis de textos electrónicos, hace falta cierto entrenamiento en los principios y prácticas de la disciplina. Por ejemplo, para que un recuento sea válido, hay que comparar textos o muestras de igual extensión, o si no son iguales, ajustarlos. El investigador tiene que usar el mismo programa para analizar todas las muestras, porque a veces no sus criterios no coinciden (WordPerfect, por ejemplo, cuenta sólo palabras y excluye números, mientras que WordSmith incluye palabras y números). De todas formas, hay que respetar las normas ya tradicionales en el análisis de textos electrónicos. Ignorar estas normas o aplicar normas arbitrarias puede conducir a grandes equivocaciones. Para los humanistas, puede ser un reto el tener que tratar con números y estadísticas, aunque sean relativamente sencillos. Citar cifras da una impresión de objetividad, pero los números pueden engañar si se les da una interpretación subjetiva. Especialmente peligroso es citar números discretos, decir, por ejemplo, que el vocablo casa aparece cien veces, sin tener en cuenta que el número sólo adquiere significación con relación a la extensión del texto y su tasa de uso habitual en la lengua. En fin, es esencial que los métodos de análisis sean correctos y que los resultados se expresen en términos claros y comprensibles.

Otro gran reto del análisis de la literatura virtual es que nos conduce inevitablemente a consideraciones teóricas acerca de lo que es la literatura. Los textos se combinan con otros elementos para convertirse en multimedia o se enlazan y se bifurcan en hipertexto. No obstante, el análisis realizado con apoyo informático nos recuerda que la esencia de la literatura es el texto y el texto es la lengua.

Pensemos un momento en cómo la informática ha cambiado la experiencia del contacto con el texto. Ha introducido nuevas formas de libro y cambios en el modo de distribuir, recibir y presentarlo. Un ejemplo es el pequeño y portátil e-book que permite cargar libros enteros en un aparato personal que no pesa más que un libro de bolsillo. El lector puede hacer anotaciones al margen en el texto leído en la pantalla. Sin embargo, estos textos no sirven todavía para usos de corpus porque están en tres formatos distintos e incompatibles (Gemstar/RCA, Microsoft Reader y Adobe Acrobat eBook).

No hemos meditado suficientemente sobre un cambio tan obvio que es fácil olvidarlo: la unidad del campo visual ha cambiado desde la página a la pantalla, que es la ventana al texto. Vemos el libro en forma paisaje —rectángulo horizontal, en vez de retrato— rectángulo vertical. La pantalla suele abarcar menos texto que la página tradicional y, además, es capaz de dividirse en múltiples ventanas de distintas dimensiones y formas. El texto está más fragmentado que en los libros y estamos ciegos a partes que antes podíamos ver completas al yuxtaponer varias páginas enteras. El hecho de leer en pantalla dificulta la fluidez de la lectura, sobre todo en la prosa, pero es más útil para el análisis textual porque la concentración del campo visual nos hace fijarnos más en los detalles. La unidad de medida y de identificación no es la página; en el texto electrónico las coordinadas son las partes mismas del texto: capítulos y párrafos, o escenas y actos.

El texto electrónico es proteico y capaz de visualizarse como texto seguido o recombinado en otros formatos como listas y concordancias. La linealidad importa para la lectura, pero no para el análisis.

Internet contiene sus propios peligros que contribuyen a la escasez de literatura contemporánea en las bibliotecas electrónicas. En general, facilita el plagio y el atropello de la propiedad intelectual. Páginas individuales ofrecen textos sobre los cuales no tienen ningún derecho y luego reclaman derechos para la versión electrónica. Mucha gente teme publicar obra inédita en la Red, y con razón. En consideración de esto, la Biblioteca Virtual Miguel de Cervantes va a editar ciertos textos en CD-ROM con su propio número ISBN. Otra solución es el ambicioso proyecto apoyado por editoriales, sociedades profesionales y autores para identificar libros en Internet con un número DOI (Digital Object Identifier) que combinará un código de editorial con el número ISBN. Si bien no protege contra el plagio, por lo menos identifica a las publicaciones legítimas.

Una solución parcial sería que autores y editoriales publicaran muestras en Internet —un capítulo de novela, por ejemplo—. Para la lectura, uno necesita el texto entero, pero se ha demostrado que para muchos propósitos lingüísticos se pueden usar muestras (Irizarry, Informática, p. 110). Un modelo es el servicio de primera vista de la Biblioteca Virtual Miguel de Cervantes (http://www.primeravistalibros.com/), donde varias editoriales han autorizado la publicación de páginas selectas de libros recién publicados. La mayor parte de los 200 títulos actuales son ensayos, pero podría hacerse lo mismo con obras literarias. La extensión de una especie de lectura adelantada o lectura muestra de este tipo a las páginas de editoriales y autores en la Red podría remediar la escasez de textos literarios de autores contemporáneos en Internet, pero para ser útiles para propósitos de análisis, las muestras deben llegar a por lo menos 10 000 palabras.

VIII. Conclusiones

La literatura en la Red mundial es, en potencia, una «biblioteca de bibliotecas» (Wildstrom), un vasto universo literario que ofrece modelos del mejor uso de la lengua en el presente y en el pasado. Valentín García Yebra observa que hay expresiones en español que «son peculiaridades de nuestra lengua, que no se deben a razones lógicas, sino a factores históricos velados por la bruma del tiempo. Pero quien desee escribir correctamente en español, tiene que conocer estas particularidades, aunque desconozca su razón y ser, y tiene que ajustarse a ellas» (p. 8). Están sobre todo en la literatura, que tiene la virtud de juntar el presente y el pasado. En sus novelas históricas, Ángeles de Irisarri incorpora elegantes términos del pasado como estotro, asaz, maridar, empreñada, alunada, demenciada, en esta guisa, además de una dosis generosa del futuro del subjuntivo, que nos recuerdan que no sólo lo nuevo sino también lo antiguo enriquecen la lengua. Sobre todo, la literatura nos protege del empobrecimiento de la lengua, rescatando términos olvidados a la vez que introduce lo nuevo.

Al comentar las afinidades entre la lingüística y la literatura, Anderson Imbert en 1969 describe un método estilístico en el que «el lector recibe una obra seleccionada por la crítica y analiza lo más científicamente que puede su forma interior» (p. 133). Implícita en esta descripción es la colaboración entre los que seleccionan, tomando en cuenta la lengua como vehículo literario, y los que analizan la lengua como vehículo comunicativo. El crítico argentino percibió que «por ciertos pasadizos la lingüística contemporánea se aproxima hacia el lado donde, con otros instrumentos, están laborando los críticos literarios» (p. 31) Treinta y dos años más tarde se puede decir que tanto el lingüista como el crítico literario podrán aproximarse con los mismos instrumentos, gracias a la informática. Por el momento, resulta más probable que los lingüistas trabajen con periódicos, revistas y otras formas de escritura fácilmente asequibles en la Red Pero con una mayor difusión de textos literarios en la Red, puede esperarse que todos los amantes de la lengua tengan a la mano un recurso idóneo para estudiarla en su mejor uso y que lo aprovechen. La tecnología nos abre nuevas posibilidades, como la de una subdisciplina dentro de la filología, que pudiera llamarse filología de corpus parecida a la lingüística de corpus (que no es lo mismo que lingüística computacional, cuyo énfasis está en la programación y el aspecto técnico). Esta filología de corpus se enfocaría hacia el uso de los textos literarios electrónicos como un corpus para el estudio de la lengua.

Obras citadas

  • Anderson Imbert, Enrique, Métodos de crítica literaria, Madrid, Revista de Occidente, 1969.
  • Baker, Sheridan, «The Sociology of Dictionaries and the Sociology of Words», ed. Howard D. Weinbrot. D., New Aspects of Lexicography. Literary Criticism, Intellectual History, and Social Change, Carbondale, Southern Illinois University Press, 1972, pp. 138-152.
  • Ball, Cathy, http://www.georgetown.edu/cball/corpora/tutorial.html.
  • Buitrago, Edgardo, «Rubén Darío, precursor de los congresos de Academias de la Lengua Española y renovador de nuestro idioma», en X Congreso de Academias de la lengua española: memoria (1994), Madrid, RAE, 1997, pp. 379-386.
  • Casares, Julio, Introducción a la lexicografía moderna, Madrid, Consejo Superior de Investigaciones Científicas, Revista de Filología Española, Anejo 52, 1950.
  • CETH Newsletter 3.1 (primavera de 1995), 13.
  • Davies, Mark, «Analyzing Syntactic Variation with Computer-Based Corpora: The Case of Modern Spanish Clitic Climbing», Hispania 78.2 (1995), pp. 370-380.
  • Dieste, Rafael, «A vontade de esilo na fala popular», Obra galega completa 1, ed. Xosé L. Axeitos, Vigo, Galaxia, 1995, pp. 225-274.
  • DRAE, 1992.
  • Fernández Marrero, Juan Jorge, «Actividad normativa y conciencia lingüística», en Universidad de La Habana 247 (1997), pp. 168-181.
  • Fulk, Randal C., «The Spanish of Mexico: A Partially Annotated Bibliography for 1970-89». Publicada en dos partes en Hispania 76.2 y 76.3 (1993).
  • Fulk, Randal C., «The Spanish of Mexico: A Partially Annotated Bibliography for 1990-99 with Updates for 1970-89». Publicada en dos partes en Hispania 84.1 y 84.2 (2001).
  • García Yebra, Valentín, «Extranjerismos sintácticos en la traducción», Glosas (Academia Norteamericana de la Lengua Española) 3.9 (junio 2001): pp. 1-8.
  • Irizarry, Estelle, Informática y literatura, Barcelona & San Juan: Proyecto A/ Ediciones y Universidad de Puerto Rico, 1997.
  • Irizarry, Estelle, Infortunios de Alonso Ramírez, Río Piedras, Cultural, 1990.
  • Irizarry, Estelle, «Literary Analysis and the Microcomputer», en Hispania 71.4 (1988), pp. 984-995.
  • Irizarry, Estelle, «Recursos electrónicos para el estudio del español del puertorriqueño en las novelas de Enrique A. Laguerre», en Boletín de la Academia Norteamericana de la Lengua Española, 9-10 (1998-1999), pp. 53-72.
  • Irizarry, Estelle, «Tampering with the Text to Teach Awareness of Poetry's Art (Theory and Practice with a Hispanic Perspective)», Literary and Linguistic Computing 11.4 (1996).
  • Kolb, Gwin J. y Kolb, Ruth A., «The Selection and Use of the Illustrative Quotations in Dr. Johnson's Dictionary», Weinbrot, 71-72.
  • Lipski, John, «Spanish Linguistics: The Past 100 Years: Retrospective and Bibliography», en Hispania 81 (mayo 1998), pp. 248-260.
  • Marcos Marín, Francisco, El comentario filológico con apoyo informático, Madrid, Síntesis, 1996.
  • Meijs, Willem, «Lexical Organization from Three Different Angles», en Association for Literary and Linguistic Computing [ALLC] Journal, 6.1-2 (1985), pp. 1-13.
  • Nelson, Theodor Holm, Literary Machines, ed. 87.1, South Bend, IN, The Distributors, 1987.
  • Olsen, Mark, «Gender Representation and histoire des mentalités: Language and Power in the Trésor de la langue française», en Histoire et measure 6 (1991), pp. 349-373.
  • Real Academia Española, Diccionario de Autoridades, edición facsímil (1726), Madrid, Gredos, 1963.
  • Sinclair, J. M., Corpus, Concordance, Collocation, Oxford, Oxford University Press, 1991.
  • Slager, Emile, Pequeño diccionario de construcciones preposicionales, Madrid, Visor, 1997.
  • Thorne, Barrie, et al., Language, Gender and Society. Rowley, MA, Newbury House, 1983.
  • Weinbrot, Howard D., «Prologue», New Aspects of Lexicography. Literary Criticism, Intellectual History, and Social Change, Carbondale, Southern Illinois University Press, 1972, pp. vii-xv.
  • Wildstrom, Steven H., «A Library to End All Libraries», Business Week, 23 de julio de 2001, p. 23.