Ángel Martín Municio

Proyecto Fénix: los medios de comunicación como recurso lingüísticoAgustín Vera
Director Académico del Instituto Cervantes (España)

El objetivo del proyecto es llevar a cabo la distribución periódica de materiales lingüísticos de español procedentes de los medios de comunicación (prensa, radio y televisión) de España, América, Filipinas y Guinea, poniéndolos a la libre disposición de los investigadores interesados.

Descripción

Tal como se ha indicado, este proyecto se centra en la recogida y distribución de materiales lingüísticos que reflejan el uso real del español en la prensa, la radio y la televisión tanto de España como de América, incluyéndose también materiales procedentes de Filipinas y Guinea. El corpus planeado se estructura, pues, en tres grandes bloques, que se describen a continuación.

Prensa

La recogida de materiales de prensa se realizará contando con la colaboración de periódicos que puedan proporcionar textos en soporte electrónico o en papel, requiriéndose en este segundo caso realizar un escaneado de los textos para su posterior difusión en formato electrónico. Para facilitar la utilización general de los textos y su intercambio, se marcarán mediante etiquetas SGML (Standard Generalized Markup Language) siguiendo los estándares de la TEI (Text Encoding Initiative). Sin embargo, el nivel de marcación será predominantemente estructural, atendiendo a los principales componentes macrotextuales (titulares, párrafos, etc.) sin que se pretenda llegar a un etiquetado en niveles más profundos. Ello permitirá tanto el uso de los materiales en formato ASCII como su explotación con herramientas más sofisticadas, facilitando también su posterior incorporación en páginas Web.

Radio

Igualmente se contará, para la recogida de materiales procedentes del medio radiofónico, con la colaboración de emisoras de los diversos ámbitos geográficos considerados. El corpus de radio se concibe formado por dos elementos: por una parte, un conjunto de grabaciones que se difundirán en formato digital y en casete, de modo que puedan ser utilizadas para el estudio fonético y fonológico de la lengua hablada, y para la realización de actividades de comprensión oral en las clases de «español como lengua extranjera»; por otra parte, un subconjunto de estas grabaciones se ofrecerá también acompañado de la correspondiente transcripción ortográfica, marcada con los mismos estándares que los textos de prensa —además de aquellas marcas que sean específicas de la lengua oral—, de modo que se facilite su uso para diversas aplicaciones que requieran contar con una representación escrita estructuralmente marcada, o simplemente en formato ASCII.

Televisión

Los materiales procedentes de la televisión se recogerán también con la colaboración de cadenas de las zonas determinadas en el proyecto. En este caso, está previsto ofrecer tres soportes diferentes: vídeo, grabación de audio y texto transcrito, aunque no necesariamente todos los textos se presenten con todas las posibilidades. Las transcripciones ortográficas se realizarán también con los mismos criterios que las de radio y prensa, mientras que el audio y el vídeo se presentarán en un formato digital fácilmente intercambiable y adaptable a las necesidades de su difusión en la Web, así como en casete o en vídeo según el caso.

Estos tres tipos de materiales se recogerán en diversos Cd-rom, que serán periódicamente distribuidos a medida que avance el proyecto. Cada Cd-rom contendrá una selección de los tres medios de comunicación, realizada atendiendo a criterios de diversidad geográfica y de variedad en el uso lingüístico, incorporando los tres tipos de formato anteriormente descritos (texto, audio y vídeo). Se prevé también, para facilitar la utilización de los materiales en centros que no dispongan de Cd-rom y para aumentar la facilidad de la explotación didáctica, la distribución de los materiales en disquete, casete y vídeo.

Aplicaciones de los materiales

Los medios de comunicación constituyen una fuente de materiales o recursos lingüísticos aplicables tanto a la investigación como a la enseñanza de la lengua.

En el primer aspecto, una colección amplia de muestras de la lengua de los medios de comunicación permite llevar a cabo investigaciones de tipo descriptivo en todos los niveles y componentes del análisis lingüístico —fonético, fonológico, morfológico, léxico, sintáctico, semántico, textual y pragmático—, así como elaborar estudios sociolingüísticos centrados en los diversos registros y estilos característicos de este medio o realizar trabajos orientados a la observación de las tendencias de la lengua mediante la documentación de fenómenos diversos. La inclusión de materiales procedentes de España, América y de otras zonas de habla española permitirá también la comparación entre variantes espaciales en el marco de los estudios dialectológicos.

Por otra parte, el conjunto de materiales propuesto constituye un recurso de gran importancia en la enseñanza de la lengua, pues proporcionan a profesores y alumnos el acceso a textos reales en formato electrónico susceptibles de diversas explotaciones didácticas, tanto en la enseñanza del español como lengua materna como en los niveles avanzados de un curso de español como lengua extranjera. En el primer caso, el profesor podrá disponer de una amplia variedad de materiales que ejemplifican diversos fenómenos lingüísticos, presentando al mismo tiempo la variedad de la lengua desde la perspectiva geográfica y estilística; los materiales recogidos serían utilizables tanto en la enseñanza secundaria como en los niveles universitarios, en función de la profundidad del análisis que se desee realizar. Igualmente, este conjunto de textos resultaría accesible a los estudiantes, facilitándoles su iniciación en la investigación lingüística a partir de un conjunto de muestras auténticas del uso lingüístico.

Estos materiales podrían encontrar también su lugar en los cursos avanzados de español como lengua extranjera, constituyendo la base para distintos estudios lingüísticos, así como para la presentación de la diversidad cultural del mundo hispanohablante.

Especificidad del proyecto

En la actualidad existen diversos proyectos en el marco de los cuales se están llevando a cabo recopilaciones sistemáticas de materiales lingüísticos procedentes de los medios de comunicación.1

Cabe citar especialmente el proyecto DIES-RTP (Difusión internacional del español por radio, televisión y prensa) realizado coordinadamente entre España y América. En lo que se refiere a la parte española, se ha llevado a cabo en el Departamento de Filología de la Universidad de Alcalá de Henares la transcripción de 75.000 palabras con anotación morfológica y semántica según los estándares del propio proyecto, y se espera que los datos obtenidos sean accesibles a los organismos públicos de investigación con fines no comerciales. En el ámbito de la radio y la televisión, el proyecto ADPA (Análisis del discurso público actual), desarrollado en el Departamento de Lingüística General y Teoría de la Literatura de la Universidad de La Coruña, contempla la transcripción ortográfica de 75 horas de grabación sin que por el momento esté prevista la anotación lingüística; los resultados serán igualmente accesibles para fines no comerciales a centros públicos de investigación.

Otros proyectos de constitución de corpora incluyen entre sus materiales textos procedentes de los medios de comunicación, en proporciones diversas según el objetivo y las limitaciones del corpus. A modo de ejemplo, ARTHUS (Archivo de textos hispánicos de la Universidad de Santiago) recoge un 11 por ciento de textos periodísticos; el Corpus Chileno de Referencia de la Universidad Autónoma de Madrid contiene un 15 por ciento de este tipo de textos, mientras que la proporción del Corpus del Español de la República Argentina de esta misma universidad es del 28 por ciento. En lo que se refiere al CREA (Corpus de referencia del español actual) de la Real Academia Española, un 40,5 por ciento corresponde a textos periodísticos, mientras que un 10 por ciento corresponde a transcripciones de lengua oral procedentes de los medios de comunicación.

Sin embargo, el primer problema con el que se encuentra el investigador y, principalmente, el profesor de lengua es la accesibilidad de estos repertorios. Si bien en los proyectos llevados a cabo en departamentos universitarios con financiación pública suele ser habitual que los datos sean utilizados por otros centros de investigación, la difusión de tales proyectos se restringe habitualmente a la comunidad universitaria especializada en la constitución y explotación de recursos lingüísticos. El presente proyecto tiene como característica esencial la voluntad de difundir libremente los datos recogidos y procesados, llegando a un público lo más amplio posible, superando las estrictas fronteras de los grupos de investigación dedicados al tratamiento de corpora y realizando los esfuerzos necesarios para que la adquisición del material se efectúe de manera simple y directa. Por ello, se prevé también la difusión de los materiales en Internet, en Cd-rom y en soportes más convencionales como disquete, casete y vídeo.

Por otra parte, muchos de los proyectos actuales se encuentran en curso de realización y, por sus características, responden, en general, a necesidades muy concretas del grupo investigador que los desarrolla. El proyecto que aquí se describe se caracteriza también por no constituir un corpus cerrado, únicamente utilizable en el momento en que finalicen los trabajos, sino por pretender ofrecer de forma periódica y regular un conjunto de materiales cuya explotación dependerá del investigador o del profesor.

En tercer lugar, cabe destacar las dificultades de obtención de materiales procedentes de diversos ámbitos geográficos con que se encuentran habitualmente los investigadores y, más especialmente, los profesores de lengua. Con el presente proyecto se pretende contribuir a una difusión más amplia de las distintas variedades del español, paliando así algunos de los problemas más comúnmente encontrados en la docencia y en la investigación.

En cuarto lugar, la explotación de los datos recogidos en los proyectos de constitución de corpora viene condicionada por los sistemas de transcripción, codificación y anotación utilizados por los investigadores. El proyecto que se propone pretende contribuir a paliar estas dificultades utilizando un formato de codificación de los textos que los haga directamente accesibles sin ningún tipo de marca (ASCII), o que permita utilizarlos en el marco de entornos de codificación unánimemente aceptados como estándares, como es el caso del SGML en el que se basan las propuestas de la TEI y de EAGLES anteriormente mencionadas.

Finalmente, cabe destacar que, a diferencia de otros proyectos, el que aquí se propone no se plantea como un programa de trabajo cerrado, sino que tiene como objetivo la difusión periódica de materiales durante todo el tiempo en que sea posible llevarla a cabo.

Organización

La organización del proyecto requiere, además de una coordinación general y una coordinación técnica, la creación de una red de corresponsales para la recogida de los materiales y de una red de centros que los adecuen a los diversos formatos previstos. Por otra parte, será necesaria también la creación de una infraestructura adecuada para la difusión.

Coordinación

La Coordinación General del Proyecto se realizará desde la Dirección Académica del Instituto Cervantes.

Recogida de los materiales

La Coordinación Técnica para la recogida de materiales se adscribirá a diferentes periódicos, emisoras de radio y canales de televisión que, en cada zona geográfica, se encargarán de la recogida de los materiales respectivos.

Producción de los materiales

Para la producción de los materiales, se prevé la constitución de equipos paralelos especializados, respectivamente, en el tratamiento lingüístico y en el tratamiento del soporte informático específicos de cada medio.

Difusión de los materiales

La definición final del proyecto requiere establecer un procedimiento de difusión de los materiales. Cabe pensar en el establecimiento de convenios con entidades que dispongan de una buena red de difusión de materiales audiovisuales o también en contar con la colaboración de los servicios de publicación de las universidades.

Periodicidad y contenidos

En principio está prevista la realización de dos entregas anuales, cada una de ellas en uno o varios Cd-rom conteniendo la totalidad de los textos transcritos y codificados, parte de las grabaciones digitalizadas y muestras de vídeo digitalizado en función de la capacidad del soporte, así como en disquete, casete y vídeo en los que se incluyan los mismos materiales con una selección más amplia de grabaciones de audio y de vídeo.

Notas

  • 1. Informe sobre recursos lingüísticos para el español (III): Corpus orales y escritos disponibles y en desarrollo en España. Alcalá de Henares: Observatorio Español de Industrias de la Lengua, Instituto Cervantes, 1996.Volver