Uno de los objetivos de los lingüistas de la escuela descriptivista ha sido y es reunir los datos de la realidad suficientes para observar de cerca los fenómenos lingüísticos objeto de su investigación. Para alcanzar este objetivo, los dialectólogos visitan los lugares de la lengua meta de sus estudios para apuntar las características del habla local. Los sociolingüistas realizan encuestas controladas por varios parámetros lingüísticos y extralingüísticos. Los estudiosos que manejan los datos textuales, tanto en el estudio sincrónico como en el diacrónico, almacenan los corpora en formato digital para luego analizarlos extrayendo los ejemplos relevantes.
A la hora de llegar a algunas conclusiones, nos damos cuenta de que los datos no son exhaustivos sino que se limitan a presentar algunas partes de la totalidad. Trabajamos con especímenes parciales y no con la población total de los datos concernientes. ¿Cómo podríamos salvar el problema de la parcialidad frente a la totalidad o por lo menos alcanzar la representatividad deseada de los datos procedentes de la comunicación humana?
En la actualidad, la comunicación no se realiza exclusivamente cara a cara, ni a través de la forma tradicional de discursos, teléfonos, cartas, documentos en papel, etc. El mensaje, la información y el conocimiento se transmiten por medios inimaginables en los siglos pasados. Nos referimos al mundo de Internet, que apenas comenzó a finales del siglo xx.1 Los sueños de los lingüistas del pasado están realizados ya en gran escala por la tecnología de la información y la comunicación. Por medio de algunos servicios que se prestan gratuitamente, podemos acceder a la cantidad de información presentada en las páginas digitales de todos los lugares del mundo.
Por una cuestión de límite de tiempo, en esta ocasión nos limitamos a informar sobre algunos resultados de experimentos llevados a cabo en una sincronía de dos días2 sobre dos aspectos relacionados con la presencia de la lengua española en su proyección mundial en Internet, y obtenidos mediante la aplicación de algunas técnicas de lingüística computacional.
Dejando aparte el inglés, la lengua internacional por excelencia, el español, es una de las más difundidas en los espacios de Internet.3Para aproximarnos a la cantidad de páginas editadas en español, podemos utilizar el sistema del buscador Google de los Estados Unidos, la marca más conocida y utilizada en el mundo. Este buscador es utilizado por los lingüistas para encontrar ejemplos reales de palabras,4 a diferencia de los usos normales de búsqueda de información general sobre asuntos concretos. La utilización primera sería la del diccionario, mientras que la segunda sería la de la enciclopedia.
Aparte del uso normal de la búsqueda, tanto en forma de diccionario como de enciclopedia, nos fijamos en una información muy importante sobre la cantidad aproximada de páginas encontradas. Si uno está versado en la «Búsqueda avanzada»,5 puede obtener una información estadística del número de páginas de acuerdo con varias condiciones, entre las cuales destacamos la elección y condición de palabras, «Idioma» y «Región».
Google ofrece cuatro condiciones de las palabras: «con todas las palabras», «con la frase exacta», «con alguna de las palabras» y «sin las palabras». Estos criterios resultan sumamente útiles a la hora de estudiar los usos de algunos elementos lingüísticos. La tabla siguiente muestra la cantidad de páginas encontradas con la condición de «con alguna de las palabras» solicitadas6.
Tabla 1: Palabras y páginas en español7. | |
Palabra | Páginas en español |
---|---|
de | 1 610 000 000 |
de el | 1 620 000 000 |
de el la | 1 630 000 000 |
de el la y | 1 620 000 000 |
de el la y a | 1 680 000 000 |
de el la y a en | 1 680 000 000 |
Según el estudio de estadística léxica de Juilland y Chang-Rodríguez (1965)8, basado en un corpus de 500 000 palabras, las voces más frecuentes son de, el, la, y, a, en, en este orden. Es decir, sería muy difícil que hubiera páginas sin la preposición de y mucho más difícil que haya páginas sin de ni el. Pensamos que es casi imposible editar las páginas sin usar las cinco palabras más frecuentes: dos preposiciones, dos artículos definidos y una conjunción, de modo que si buscamos con estas palabras mediante la condición optativa «con alguna de las palabras», el cálculo que ofrece el buscador representaría muy fielmente la cantidad de páginas en español existentes en el mundo.
Ahora bien, la misma operación puede efectuarse por «Región». En la opción que ofrece el buscador podemos elegir la localidad por país. Lo he intentado con la mayoría de las opciones y encontrado las cifras siguientes de los 41 países que poseen más de un millón de páginas (tabla 2):9
Tabla 2: País y páginas. | |
País | Páginas |
---|---|
EE. UU. | 796 000 000 |
España | 470 000 000 |
Chile | 206 000 000 |
México | 129 000 000 |
Argentina | 97 700 000 |
Brasil | 33 100 000 |
Uruguay | 31 000 000 |
Colombia | 29 600 000 |
Perú | 25 500 000 |
Venezuela | 24 600 000 |
Francia | 19 900 000 |
Alemania | 13 300 000 |
Reino Unido | 12 700 000 |
Suecia | 12 000 000 |
Ecuador | 11 000 000 |
Costa Rica | 8 390 000 |
Bélgica | 8 320 000 |
Italia | 6 840 000 |
Canadá | 5 910 000 |
Países Bajos | 5 260 000 |
Guatemala | 4 890 000 |
Puerto Rico | 4 570 000 |
Panamá | 3 600 000 |
Rep. Dominicana | 3 520 000 |
China | 3 320 000 |
Portugal | 3 250 000 |
El Salvador | 3 140 000 |
Corea del Sur | 2 990 000 |
Suiza | 2 880 000 |
Paraguay | 2 790 000 |
Bolivia | 2 720 000 |
Rusia | 2 650 000 |
Irlanda | 2 440 000 |
Rep. Checa | 2 160 000 |
Nicaragua | 2 080 000 |
Luxemburgo | 1 880 000 |
Cuba | 1 670 000 |
Japón | 1 500 000 |
Taiwán | 1 390 000 |
Turquía | 1 140 000 |
Honduras | 1 040 000 |
En este cuadro podemos observar que Estados Unidos es el país que presenta más páginas en español, seguido de España, Chile, México, Argentina, etcétera.10 A pesar de que se presenta una distribución desigual, lo que es normal en la estadística de frecuencia, podemos destacar el hecho de que las páginas en español se distribuyen no sólo en los países hispanohablantes sino también en los no hispanohablantes: Brasil, Francia, Alemania, Reino Unido, Suecia, Bélgica, Italia, Canadá, Países Bajos, China, Portugal, Corea del Sur, Suiza, Rusia, Irlanda, República Checa, Luxemburgo, Japón y Taiwán, aparte de Estados Unidos, que ocupa el primer lugar. ¿Estas páginas son realmente emitidas desde el país en cuestión? ¿Se divulga la lengua española con tanta fuerza en el mundo?
Al observar las primeras 343 páginas «de Japón» que ofrece el buscador, hemos comprobado que la mayoría son realmente emitidas desde la dirección «.jp», aunque también encontramos algunas excepciones, por ejemplo, las páginas de embajadas japonesas residentes en los países hispanohablantes, las que llevan la dirección «.edu» o «.com», etcétera. Estas excepciones, a nuestro modo de ver, no constituirían unos contraejemplos si los consideramos «páginas de Japón», dejando aparte su situación física geográfica. Ahora lo que importa es el hecho de que la lengua española se ha difundido más allá del mundo hispanohablante. Lo mismo puede decirse de los casos de las páginas emitidas por los hispanohablantes residentes en Japón. La cuestión de la autoría es relativa. Hay profesores japoneses de universidad que elaboran páginas en español, los cuales probablemente cuenten con la ayuda de colegas, amigos o conocidos nativos. Lo más destacable para nuestro actual objeto de estudio es que en estas páginas se publican mensajes e informaciones en español fuera del ámbito hispanohablante.
Después de observar los espacios en español extendidos por el mundo, ampliemos nuestra visión a varios idiomas. Dentro de la multitud de idiomas que ofrece el buscador, hemos elegido cinco lenguas europeas: español, inglés, francés, alemán y ruso; y dos asiáticas: chino y japonés. Cuando se trata de personajes históricos en estas páginas, se respeta su ortografía original, aparte de las transliteraciones en su propio idioma. Lo que nos interesa es la frecuencia de las formas españolas de personalidades que se presentan en el contexto del idioma en cuestión. A través de la función de «con la frase exacta» y elección de «Idioma» del buscador Google, podemos saber la cantidad aproximada de páginas. He elegido nombres propios de la literatura, pintura y música, tratados en enciclopedias japonesas.11 La tabla siguiente muestra la cantidad de páginas en orden descendente de WWW («cualquier idioma»), con el límite de más de un millón de página:12
Tabla 3: Personajes e idiomas. Frecuencia absoluta. | |||||||||
Personas históricas | WWW | Español | Inglés | Francés | Alemán | Ruso | Chino | Japonés | 7 idiomas |
---|---|---|---|---|---|---|---|---|---|
Miguel de Cervantes | 3 540 000 | 2 400 000 | 1 060 000 | 115 000 | 65 300 | 5 400 | 4 810 | 11 900 | 3 662 410 |
Pablo Picasso | 3 410 000 | 459 000 | 2 880 000 | 401 000 | 233 000 | 12 300 | 14 800 | 28 500 | 4 028 600 |
Pablo Neruda | 2 980 000 | 1 120 000 | 1 890 000 | 211 000 | 89 800 | 13 100 | 14 200 | 17 000 | 3 355 100 |
Diego Rivera | 2 550 000 | 1 010 000 | 2 160 000 | 52 500 | 19 200 | 9 060 | 3 880 | 7 740 | 3 262 380 |
El Greco | 2 260 000 | 357 000 | 907 000 | 48 300 | 81 800 | 25 800 | 5 220 | 23 800 | 1 448 920 |
Jorge Luis Borges | 1 780 000 | 1 070 000 | 738 000 | 82 400 | 50 800 | 3 520 | 11 400 | 10 800 | 1 966 920 |
José Hernández | 1 770 000 | 1 210 000 | 574 000 | 22 900 | 7 550 | 567 | 1 950 | 4 260 | 1 821 227 |
San Juan de la Cruz | 1 660 000 | 403 000 | 37 600 | 5 120 | 3 660 | 282 | 310 | 3 320 | 453 292 |
José Martí | 1 450 000 | 1 220 000 | 474 000 | 31 100 | 20 200 | 4 460 | 2 540 | 4 490 | 1 756 790 |
José Ortega y Gasset | 1 430 000 | 286 000 | 83 800 | 8 730 | 16 700 | 554 | 659 | 3 570 | 400 013 |
Ramón Pérez de Ayala | 1 420 000 | 1 300 000 | 96 900 | 13 300 | 16 900 | 69 | 83 | 542 | 1 427 794 |
Antonio Machado | 1 380 000 | 979 000 | 190 000 | 42 300 | 11 900 | 2 480 | 1 250 | 3 200 | 1 230 130 |
Sor Juana Inés | 1 370 000 | 347 000 | 89 900 | 3 700 | 4 160 | 167 | 247 | 954 | 446 128 |
Luis de Góngora | 1 360 000 | 1 780 000 | 285 000 | 38 400 | 36 100 | 797 | 1 260 | 2 250 | 2 143 807 |
Pau Casals | 1 350 000 | 155 000 | 38 600 | 20 900 | 4 320 | 994 | 1 110 | 15 400 | 236 324 |
Federico García Lorca | 1 260 000 | 1 100 000 | 194 000 | 109 000 | 48 000 | 4 070 | 1 610 | 3 370 | 1 460 050 |
Isaac Albéniz | 1 240 000 | 142 000 | 168 000 | 27 100 | 23 700 | 2 150 | 3 300 | 30 800 | 397 050 |
Francisco de Goya | 1 240 000 | 207 000 | 85 900 | 13 600 | 28 400 | 2 560 | 935 | 3 140 | 341 535 |
Astor Piazzolla | 1 190 000 | 316 000 | 560 000 | 58 800 | 59 000 | 24 400 | 17 500 | 64 500 | 1 100 200 |
Julio Cortázar | 1 170 000 | 832 000 | 249 000 | 94 500 | 13 900 | 1 820 | 4 870 | 4 810 | 1 200 900 |
Octavio Paz | 1 150 000 | 697 000 | 681 000 | 42 500 | 19 600 | 1 100 | 1 720 | 4 900 | 1 447 820 |
Joan Miró | 1 080 000 | 319 000 | 464 000 | 65 800 | 66 500 | 2 840 | 4 850 | 13 600 | 936 590 |
Santa Teresa de Jesús | 1 070 000 | 265 000 | 18 000 | 2 480 | 2 140 | 209 | 324 | 681 | 288 834 |
Francisco de Quevedo | 1 060 000 | 298 000 | 60 200 | 9 890 | 3 980 | 446 | 386 | 1 020 | 373 922 |
TOTAL | 40 170 000 | 18 272 000 | 13 984 900 | 1 520 320 | 926 610 | 119 145 | 99 214 | 264 547 | 35 186 736 |
Por este cuadro podemos saber la cantidad aproximada de páginas donde aparecen los nombres en cuestión. Reconocemos de nuevo la fuerza de las dos lenguas internacionales: español e inglés. En comparación con estos dos idiomas, otras lenguas europeas, francés y alemán, ofrecen muchas menos páginas y todavía menos las dos lenguas asiáticas y la rusa.
Estas cifras no pueden ser necesariamente indicadoras de citas culturales, puesto que los nombres de grandes figuras de historia pueden ser utilizados en nombres de calles, hoteles, institutos de enseñanza, aulas de universidad, etcétera. Sabemos que la aerolínea española Iberia utiliza los nombres de grandes autores de la literatura española para identificar los aviones de tipo B-747.13 Podemos considerar estas utilizaciones como fenómenos socioculturales. Los nombres de calles, hoteles, aviones, etcétera, no están lexicalizados,14 completamente separados de los nombres de persona, a pesar de que a veces no nos damos cuenta del origen de su denominación. Serían resultado de una identificación artificial de entidades con la historia cultural. Todas estas cifras reflejan de alguna manera la referencia al pasado de la cultura hispánica, lo cual podríamos denominar como una «proyección lingüística cultural». Y una vez más nos llama la atención el hecho de que las personalidades de la cultura hispánica son proyectadas no solamente en español, sino en otras lenguas del mundo, en mayor o menor escala.
Además de todas estas cifras en cantidades absolutas, también nos interesa el orden inverso de la frecuencia, que se muestra de la manera siguiente:15
Tabla 4: Personajes e idiomas. Orden inverso de frecuencia. | |||||||||
Personas históricas | WWW | Español | Inglés | Francés | Alemán | Ruso | Chino | Japonés | 7 idiomas |
---|---|---|---|---|---|---|---|---|---|
Miguel de Cervantes | 24 | 24 | 21 | 22 | 20 | 19 | 17 | 17 | 23 |
Pablo Picasso | 23 | 12 | 24 | 24 | 24 | 21 | 23 | 22 | 24 |
Pablo Neruda | 22 | 19 | 22 | 23 | 23 | 22 | 22 | 20 | 22 |
Diego Rivera | 21 | 16 | 23 | 16 | 11 | 20 | 16 | 15 | 21 |
El Greco | 20 | 10 | 20 | 15 | 22 | 24 | 20 | 21 | 15 |
Jorge Luis Borges | 19 | 17 | 19 | 19 | 18 | 16 | 21 | 16 | 19 |
José Hernández | 18 | 20 | 17 | 9 | 6 | 7 | 13 | 11 | 18 |
San Juan de la Cruz | 17 | 11 | 2 | 3 | 2 | 4 | 3 | 8 | 8 |
José Martí | 16 | 21 | 15 | 11 | 13 | 18 | 14 | 12 | 17 |
José Ortega y Gasset | 15 | 5 | 5 | 4 | 9 | 6 | 6 | 10 | 6 |
Ramón Pérez de Ayala | 14 | 22 | 8 | 6 | 10 | 1 | 1 | 1 | 13 |
Antonio Machado | 13 | 15 | 10 | 13 | 7 | 13 | 9 | 7 | 12 |
Sor Juana Inés | 12 | 9 | 7 | 2 | 4 | 2 | 2 | 3 | 7 |
Luis de Góngora | 11 | 23 | 13 | 12 | 16 | 8 | 10 | 5 | 20 |
Pau Casals | 10 | 2 | 3 | 8 | 5 | 9 | 8 | 19 | 1 |
Federico García Lorca | 9 | 18 | 11 | 21 | 17 | 17 | 11 | 9 | 16 |
Isaac Albéniz | 7 | 1 | 9 | 10 | 14 | 12 | 15 | 23 | 5 |
Francisco de Goya | 7 | 3 | 6 | 7 | 15 | 14 | 7 | 6 | 3 |
Astor Piazzolla | 6 | 7 | 16 | 17 | 19 | 23 | 24 | 24 | 10 |
Julio Cortázar | 5 | 14 | 12 | 20 | 8 | 11 | 19 | 13 | 11 |
Octavio Paz | 4 | 13 | 18 | 14 | 12 | 10 | 12 | 14 | 14 |
Joan Miró | 3 | 8 | 14 | 18 | 21 | 15 | 18 | 18 | 9 |
Santa Teresa de Jesús | 2 | 4 | 1 | 1 | 1 | 3 | 4 | 2 | 2 |
Francisco de Quevedo | 1 | 6 | 4 | 5 | 3 | 5 | 5 | 4 | 4 |
Ahora todas las cifras anteriores se han convertido en el orden inverso de frecuencia. Por ejemplo, la máxima cantidad alcanzada por Miguel de Cervantes en la tabla 3 se ha reducido en 24, el máximo del orden inverso; mientras que la mínima cantidad correspondiente a Francisco de Quevedo obtiene 1 en WWW. Por este cuadro podemos observar qué lugar ocupa cada nombre dentro del universo de cada idioma. Aparte del orden general de WWW, cada idioma ofrece unas características peculiares en su proyección de la cultura hispánica. Por ejemplo, Astor Piazzolla y Joan Miró alcanzan cifras relativamente altas en idiomas tanto europeos como asiáticos en contraste con el caso del español, donde ocupan una posición intermedia. Un caso inverso es el de José Hernández. La ordenación que presenta el Total de 7 idiomas no coincide exactamente con la de WWW, lo cual significa que se supone haber variaciones en otras lenguas no tratadas en la figura.
En el siguiente cuadro se muestra la matriz de coeficientes de correlación de las 9 categorías de idioma:
Aparecen marcadas las cifras superiores a 0,7, que indican un alto grado de correlación. A partir de esta matriz podemos elaborar un dendrograma, resultado del análisis multivariado cluster (método de valor medio):
Mediante esta figura podemos observar que hay dos grupos principales:
Por la figura 1, sabemos que el coeficiente de correlación entre WWW y Español es 0,594. Esta cifra es tan abstracta que indica simplemente que se da un grado mediano de correlación. Veamos la realidad de la correlación, utilizando los datos de la tabla 4. Personas e idiomas - Orden inverso de frecuencia:
En este gráfico Miguel de Cervantes aparece situado en primer lugar tanto en Español como en WWW, mientras que Francisco de Quevedo e Isaac Albéniz ocupan el último lugar en WWW y Español, respectivamente, dentro de los primeros 24 nombres más frecuentes. La distribución presenta una forma gradual y regular.
Ahora bien, el caso de Japonés es peculiar en el sentido de que el coeficiente de correlación entre este idioma y WWW es relativamente bajo: 0,367, lo que demuestra una baja correlación, por no decir nula:
Según este gráfico los nombres que presentan valores peculiares son: Astor Piazzolla, Isaac Albéniz, Pau Casals y Joan Miró, que se sitúan en posiciones altas en Japonés, mientras que en el mundo de WWW ocupan lugares inferiores al valor medio dentro de los 24 elementos tratados. Las personas indicadas pertenecen a actividades musicales y pictóricas. Nos llama la atención que estos autores y Pablo Picasso y El Greco ocupan lugares superiores al de Miguel de Cervantes, el primero en Español y en WWW.
El objetivo de nuestro análisis en las secciones anteriores no ha sido elaborar un ranking de la cantidad de páginas ni de la proyección cultural, sino medir por algunos datos estadísticos la envergadura de la actividad de la lengua española divulgada en el mundo de Internet, así como observar la proyección de la cultura hispánica en las páginas en español y en otros idiomas16. Ninguno de los dos datos es homogéneo, sino que presentan una gran divergencia respecto de sus propias características.
Tradicionalmente, la lingüística hispánica ha venido investigando las variedades del español de acuerdo con la diversidad geográfica (geolingüística), la diversidad de parámetros personales y sociales (sociolingüística), de estilo de habla (estilística lingüística) y de tiempo (lingüística histórica). El resultado de investigación se titula como «Español DE América», «Español DE jóvenes», «Español DE estilo coloquial», «Español DEL Siglo de Oro», etcétera. Además de estas directrices establecidas, lo que podríamos proponer ahora es, tomando en cuenta la pertenencia constante a los parámetros tradicionales, aproximarnos a las variedades dinámicas del «español EN» distintos campos de actividades humanas: «español EN el ámbito universitario», «español EN Internet», «español EN la comunicación intercultural» y «Español EN el Mundo».17