Neus Figueras Casanovas

Estándares y calidad en la elaboración y administración de pruebas y exámenes. Criterios mínimos para el reconocimiento y la comparabilidad Neus Figueras Casanovas
Departamento de Educación de la Generalitat de Cataluña (España)

Ante todo, quisiera agradecer al Instituto Cervantes, a la Real Academia de la Lengua Española y a la organización de este tercer Congreso de la Lengua la invitación para participar en este panel, es para mí un honor asistir como congresista y como ponente a un evento tan importante. Además, como especialista en evaluación acostumbrada a ser llamada para participar en proyectos que requieren reparar trasatlánticos en alta mar, quiero hacer constar que es una satisfacción poder participar en un panel que tiene como principal objetivo la discusión de posibles futuros y caminos para los certificados de español como lengua extranjera, y no la solución de un problema. Mi ponencia tiene como titulo «Estándares y calidad en la elaboración y administración de pruebas y exámenes. Criterios mínimos para el reconocimiento y la comparabilidad».

Como el título indica, su objetivo es el de enmarcar la discusión sobre certificación. Mi intervención se centrará en los principios que deben regir cualquier evaluación de calidad y en cómo pueden establecerse comparaciones entre distintos certificados. Describiré en el breve tiempo de que dispongo lo que se considera ortodoxia en evaluación y me referiré a los pasos que se han dado en Europa para potenciar la transparencia entre certificados que acreditan conocimientos de lenguas.

La situación del español como lengua extranjera en el mundo, con su reciente y creciente expansión, merece un trabajo riguroso tanto en las vertientes de docencia como de evaluación para sentar las bases de un aprendizaje exitoso y una certificación de calidad. Para poder hablar de calidad en evaluación, que es precisamente el tema que nos ocupa en este panel, debemos estar en condición de probarla, lo que representa haber trabajado de acuerdo con estándares internacionales y poder dar razón de este trabajo en tres ejes principales, que describiré a continuación y cuyos resultados a su vez incidirán directamente en el proceso de docencia-aprendizaje. Todos sabemos que, de una manera u otra, en mayor o menor grado, los formatos y los contenidos de pruebas y exámenes inciden en cómo se enseña y en cómo se aprende una lengua. Por este motivo quisiera insistir en que los docentes que nos escuchan consideren los principios generales que listare con relación a las pruebas de certificación como principios que deben tenerse también en cuenta —salvando las distancias— en cualquier dispositivo de evaluación.

Los tres ejes que definen una evaluación de calidad han sido ampliamente recogidos en la bibliografía especializada (Alderson 1995, Bachman 1990, Messick 1989, Standards for Educational Assessment 1999, entre otros) y son:

  • Una definición explícita de aquello que se evalúa: el constructo, definición que incluye no sólo qué se evalúa sino también porqué, y concretada por escrito en un documento que se llama especificaciones de examen. Yo seguiría en este respecto una visión general del uso y del aprendizaje de la lengua española que fuera integradora, transparente y coherente, de acuerdo con las propuestas del Marco Común Europeo de Referencia para las lenguas: aprendizaje, enseñanza, evaluación documento publicado por el Consejo de Europa durante el año 2001, año europeo de las lenguas y que caracteriza la lengua con un «enfoque orientado a la acción». Existen trabajos publicados en este campo que pueden ayudar a definir un constructo de evaluación, algunos de ellos traducidos al castellano (Alderson 1995, Bachman,1990, Bachman y Palmer 1996, Davidson 1996) y ahora también podemos utilizar las publicaciones que han surgido en Europa a partir del uso y lectura del Marco, como el Manual para relacionar exámenes con el MCER o el Informe final del Proyecto financiado por el gobierno holandés para elaborar especificaciones de examen utilizando el MCER, también llamado el Dutch Construct Project (Alderson et al. 2004). Una disciplina que puede contribuir a la definición del constructo y que se ha olvidado demasiado a menudo en la evaluación de lenguas es el análisis del discurso. Esta disciplina permite identificar con base empírica aquellos exponentes lingüísticos que definen más concretamente los distintos contextos de uso de la lengua y garantiza un muestreo representativo de aquello que se evalúa. En el caso del español como lengua extranjera, y vistas las discusiones acerca de modelos de lengua, creo que este es un campo que dará mucho de sí y en el que se debería trabajar, tanto en el ámbito de la lengua en uso en la vida real como en el ámbito de la lengua generada en situación de examen. Hay ya publicados trabajos muy interesantes sobre el análisis del discurso, tanto escrito como oral (McCarthy y Carter 1994, Calsamiglia y Tusón 1999) que pueden ser un muy buen punto de partida.
  • Una vez se ha definido el constructo que se va a evaluar, el segundo eje de trabajo ha de ser el de la validez: la comprobación de que realmente se evalúa aquello que se quiere evaluar. Aunque muy simple en apariencia, garantizar que se evalúa lo que se dice que se evalúa es la causa de la mayor parte de irregularidades e injusticias en evaluación (tanto si es certificativa como si no), y afecta directamente a la credibilidad de los certificados y del sistema que los ha creado, a la docencia y al aprendizaje. Hay demasiadas pruebas que no superan procesos de pilotaje que permitan comprobar que sus resultados dan respuestas a sus objetivos y coinciden con las capacidades reales de los candidatos, demasiadas pruebas que se llaman «comunicativas» con baterías de preguntas gramaticales, pautas de corrección de la lengua escrita basadas en excepciones y con pruebas de expresión oral que se limitan a unas cuantas preguntas por parte del profesor. La validez de una prueba es crucial para su credibilidad, pero no hay una única validez; el término validez debe siempre ir acompañado de un para, y esta preposición está directamente relacionada con el constructo que se evalúa y con las especificaciones que lo definen. Un examen sin una prueba oral puede ser muy válido para seleccionar correctores de galeradas y totalmente inválido para seleccionar guías turísticos.
  • Si contamos con un constructo claramente definido y especificado por escrito, y tenemos información suficiente para creer que nuestro examen refleja fielmente los objetivos de evaluación previstos, debemos poder garantizar la fiabilidad de los resultados, y éste es el tercer eje en el que debemos trabajar. Una prueba es fiable si sus resultados no varían según la hora, el día, el aula o la versión, o según el corrector o administrador. Mientras que para evaluar la validez y para definir un constructo debemos llevar a cabo procesos de análisis detallados y las respuestas son necesariamente imprecisas, y matizables, la fiabilidad si puede establecerse de forma cuantitativa, mediante análisis estadísticos. Debemos insistir, sin embargo, que sin un constructo definido y sin validez la fiabilidad nos sirve de bien poco.

Sólo cuando se han trabajado con rigor estos tres ejes y se ha dado a conocer el trabajo a estudiantes, profesores, empresas, etc., puede hablarse de calidad en evaluación, calidad que se concreta en coherencia, transparencia y comparabilidad de los certificados. Estamos entonces en situación de podernos formular la pregunta «¿Es mi nivel intermedio tu nivel intermedio? Y tener posibilidades de obtener una respuesta concreta, aunque no necesariamente la que quisiéramos.

Las cuestiones apuntadas en relación con la calidad de los exámenes todavía no están resueltas en Europa para idiomas como el inglés, o el francés, o el alemán, y no están resueltas por tres razones:

  • La poca exigencia de los usuarios, que no tienen suficiente información sobre los objetivos, cualidades y usos de los distintos certificados.
  • La poca profesionalización de aquellos que diseñan, elaboran, administran o corrigen pruebas de certificación.
  • El poco interés de políticos e instituciones responsables en un trabajo riguroso que resulta costoso y que por lo tanto se tiende a dejar en manos de docentes voluntariosos.

Un paso importante que se ha dado en Europa es la publicación del Marco Común Europeo de referencia para las lenguas (MCER), cuyo objetivo es precisamente el de facilitar mediante referentes comunes el intercambio de información sobre conocimientos de lengua.

El MCER se articula en dos dimensiones igualmente importantes: una dimensión cualitativa u horizontal, que se concreta en la especificación detallada de los elementos que constituyen el uso de la lengua en un enfoque orientado a la acción, en el que:

El uso de la lengua —que incluye el aprendizaje— comprende las acciones que realizan las personas que, como individuos y como agentes sociales, desarrollan una serie de competencias, tanto generales como competencias comunicativas lingüísticas, en particular. Las personas utilizan las competencias que se encuentran a su disposición en distintos contextos y bajo distintas condiciones y restricciones, con el fin de realizar actividades de lengua que conllevan procesos para producir y recibir textos relacionados con temas en ámbitos específicos, poniendo en juego las estrategias que parecen más apropiadas para llevar a cabo las tareas que han de realizar. El control que de estas acciones tienen los participantes produce el refuerzo o la modificación de sus competencias.

(MCER 2002, p. 9)

Este enfoque orientado a la acción se concreta en la descripción de actos de comunicación utilizando definiciones o «descriptores» formulados con relación a aquello que un aprendiente puede hacer, tanto en general como en distintos contextos y en distintas actividades.

La segunda dimensión, cuantitativa o vertical, se concreta en el escalonamiento por niveles de aquello que los aprendientes de una lengua pueden llevar a cabo en los contextos, ámbitos, actividades, etc. descritos y contemplados en la dimensión cualitativa. Los niveles de referencia descritos en el MCER son seis:

 
Nivel Básico Nivel Intermedio Nivel Avanzado
A1 B1 C1
A2 B2 C2
                                           

Pero el MCER no es una panacea. La rápida y entusiasta aceptación de sus contenidos en Europa e incluso a este lado del Atlántico (las pruebas del TOEFL se han estudiado en relación con los niveles del MCER) ha evidenciado problemas. Por una parte aquellos que han intentado utilizar las propuestas del MCER al pie de la letra en sus dos vertientes han constatado que el documento es en realidad aquello que dice ser: una metodología de trabajo; el MCER no ofrece recetas infalibles que pueden adaptarse rápidamente, sino que propone líneas de trabajo que necesitan investigación y trabajo riguroso. Por otra parte, aquellos que han «adoptado» rápidamente los niveles del MCER han sido objeto de críticas por el poco rigor de sus afirmaciones y por las excesivas «adaptaciones» que las distintas adopciones han llevado a cabo. Ante la presión de la comunidad de evaluadores, el Consejo de Europa se vio obligado a publicar un Manual que permitiera relacionar exámenes con los niveles del MCER de forma rigurosa y transparente. El Manual, publicado en su versión preliminar piloto en noviembre de 2003, ofrece pautas para:

  • describir los contenidos, la administración y el proceso de análisis de los exámenes,
  • relacionar o «anclar» los resultados de la prueba con los «niveles comunes de referencia» que se presentan en el capítulo 3 del MCER,
  • poder demostrar cómo se ha llevado a cabo el anclaje.

El Manual tiene un carácter eminentemente práctico e incluye recomendaciones previas que se deben  considerar antes de iniciar el proceso, largo y laborioso, de fijar el nivel de un examen y el de relacionarlo con los niveles del Marco Europeo de referencia.

La lectura del Manual nos lleva pues a los tres ejes de trabajo para conseguir una evaluación de calidad que he descrito, puesto que en realidad ayuda a la autorregulación y a la comprobación de la consistencia interna de un examen. El Manual propone un conjunto de procedimientos interrelacionados que pueden dividirse en cuatro grandes bloques independientes:

Familiarización, que incluye actividades diseñadas para asegurar que los participantes en el proceso de anclaje de la prueba o examen con el MCER tienen un conocimiento detallado de sus contenidos y de los niveles descritos.

Especificación, que requiere la autoevaluación de los contenidos del examen que se quiere relacionar con el MCER de acuerdo con las categorías que presenta el MCER y que también puede hacer la función de «concienciación» en cuanto a la cobertura de la prueba de los distintos aspectos comunicativos descritos en el MCER.

Estandarización, que incluye procedimientos que aseguran una interpretación mancomunada de los «Niveles comunes de referencia» a partir de ejemplos concretos de tareas de examen y actuaciones de alumnos. Estos procedimientos garantizan unas bases sólidas para los juicios que se tomen a la hora de puntuar pruebas o de elaborar tareas.

Validación empírica, que comporta la recogida de datos y el análisis de los resultados de la prueba en cuestión para poder demostrar empíricamente que tanto la prueba como el anclaje con el nivel del MCER son sólidos.

El Manual pretende que, a partir de su lectura, y a partir de la aplicación de los distintos procedimientos de forma gradual los exámenes de lengua sean de mayor calidad y tengan un vínculo real con los niveles del Marco.

¿Cuáles son las implicaciones de los tres ejes de trabajo en calidad descritos y de las propuestas que surgen del uso del MCER y del Manual?

Ante todo queda claro que la evolución hacia exámenes de calidad no tiene vuelta atrás y que es necesario operar con sistemas que especifiquen claramente sus objetivos, contenidos y usos, pensando siempre en las necesidades de los usuarios o destinatarios del certificado en cuestión. Se hace además patente la responsabilidad que representa certificar la competencia lingüística de los aprendientes y la necesidad de conseguir pruebas útiles: es decir, pruebas que integren validez y fiabilidad que garanticen una evaluación ética con un buen efecto de rebote en el aula y un impacto positivo en la sociedad, y entiendo el concepto de utilidad de una prueba como lo describen Bachman y Palmer (1996).

Pero surge a continuación la cuestión de la viabilidad, del coste que representa crear y mantener uno (o varios) certificados o sistemas de certificación que respeten los parámetros de calidad descritos y que garanticen la estabilidad de los estándares. Un sistema de calidad profesionalizado requiere agentes profesionales y no puede improvisarse. Y debemos enfrentarnos a la realidad. No hay en la actualidad suficiente formación en evaluación, ni inicial, ni continuada, ni suficiente concienciación de la sociedad sobre la importancia de contar con certificados de calidad, transparentes y comparables; éste es el estado de la cuestión tanto en Europa como en los países que tienen el español como lengua oficial. Hay demasiada formación sobre la marcha, basada en la buena voluntad de aquellos que se encuentran con la responsabilidad de elaborar exámenes, que tienen que luchar con sus gobiernos y con los responsables de sus instituciones para conseguir recursos mínimos.

Pero no quisiera terminar mi intervención en un tono negativo o catastrofista. Creo que tenemos ante nosotros un futuro relativamente positivo gracias a dos hechos. El primero tiene que ver con la actividad generada a partir de la publicación del MCER y del Manual. Asociaciones ya existentes como ALTE (http://www.alte.org/) llevan a cabo un trabajo importante para mejorar la calidad de los exámenes de las organizaciones asociadas (el Instituto Cervantes y la Universidad de Salamanca son miembros desde hace años), y se ha creado también una asociación libre de profesionales involucrados o interesados en evaluación que facilita el intercambio entre iguales y ayuda a la difusión de los principios que deben regir la elaboración de exámenes, EALTA (http://www.ealta.eu.org/).

El segundo tiene que ver con la satisfacción que he manifestado al inicio de mi intervención. No tenemos que reparar un trasatlántico en alta mar, estamos embarcando y podemos hacerlo muy bien —si queremos—. La situación de la certificación del español como lengua extranjera, por el hecho de ser relativamente nueva si la comparamos con el trabajo en lenguas como el ingles puede permitir iniciar proyectos que tengan ya desde su comienzo muy claros los parámetros de calidad en los tres ejes que he mencionado en la presentación. Todos aquellos involucrados en el diseño, elaboración y administración de exámenes no podemos ignorar que ya hay rutas trazadas en ámbitos internacionales; estas rutas, difíciles de seguir, verán retrocesos y pedirán mucha modestia, dedicación y trabajo duro, pero estoy segura que nos llevaran a nuestro destino: mundos en los que los certificados de lenguas en general y del español como lengua extranjera en particular puedan exigir y obtener si se han elaborado de forma rigurosa, el respeto y el reconocimiento que merecen.

Bibliografía:

  • Alderson, J. C., Clapham, C. Wall (1995) Exámenes de Idiomas, Cambridge, Cambridge University Press (traducción al castellano, año 1998).
  • Alderson, J.Ch.; Figueras, N.; Kuijper, H.; Nold, G.; Takala, S.; Tardieu, C.; (2004) Final Report of the Dutch CEF Construct Group.
  • Bachman, L. (1990), Fundamental Considerations in Language Testing, Oxford, Oxford University Press.
  • Bachman, L. F. y Palmer, A. S. (1996), Language Testing in Practice: Designing and Developing Useful English Language Tests, Oxford, Oxford University Press.
  • Calsamiglia, H y Tusón, A. (1999), Las cosas del decir. Manual de análisis del discurso, Barcelona, Ariel.
  • DAVIDSON, F., y D. Lynch (2001) Testcraft: a teacher’s guide to writing and using test specifications. Yale University Press
  • McCarthy, M. y Carter, R. (1994), Language as Discourse. Perspectives for Language Teaching, Harlow, Essex, Longman.
  • Marco Común Europeo de Referencia para las lenguas: aprendizaje, enseñanza, evaluación. Instituto Cervantes; Ministerio de Educación, Cultura y Deporte. Editorial Anaya. (2002)
  • Messick, S. (1989), «Validity», en R. L. Linn (Ed.), Educational Measurement, Nueva York, American Council on Education, McMillan, pp. 13-103.
  • Council of Europe (2003) Preliminary Pilot Manual for relating examinations to the Common European Framework of Reference.
  • Standards for Educational and Psychological Testing (1999). AERA
  • Tannenbaum, R.L. y Wylie, E.C. (2004) Mapping test scores onto the Common European Framework. Setting standards of language proficiency on the test of English as a Foreign Language (TOEFL), the test of Spoken English (TSE), the test of Written English (TWE) and the test of English for International Communication (TOEIC). English Testing Service. http://www.ets.org/ell/cef.html#background.