Wissenschaftlicher Sammelband, herausgegeben von Thomas Tinnefeld unter Mitarbeit von Ines-A. Busch-Lauer, Hans Giessen, Michael Langner, Adelheid Schumann. Saarbrücken: htw saar 2012. ISBN 978-3-942949-00-2.

Examens standardisés et représentations de l’examinateur

Véronique Gola (Berlin) / Christophe Hohwald (Lüneburg)



Abstract (English)
While teaching and testing are again becoming central at universities due to the Bologna process, standardized exams and tests are now increasingly present on the market for foreign language teaching and learning. This development has led teachers to question their evaluation practices as well as to re-examine the models from which they are derived. The predominance of these standardized exams could therefore have an undesirable side-effect regarding the Common European Framework of Reference for Languages (CEFR) by undermining its position as an instrument of reflection or even replacing it as such. Based on the method of group discussions, this article aims at verifying this assumption through the results of a study carried out on a delayed evaluation of accreditation training sessions for markers and graders of the French DELF and DALF examinations.
Key words: testing, standardisation


Abstract (Deutsch)
Während der Unterricht und die Bewertung von Hochschulprüfungen im Zuge des Bologna-Prozesses wieder einen zentralen Platz einnehmen, treten auf dem Sprachenmarkt Tests und standardisierte Prüfungen vermehrt auf. Dies führt dazu, dass die Lehrenden ihre bisherige Bewertungspraxis und die Modelle, die dieser Praxis zugrunde liegen, in Frage stellen und neu betrachten. Eine unerwünschte Nebenwirkung dieser Entwicklung könnte darin bestehen, dass der Gemeinsame Europäische Referenzrahmen für Sprachen (GER) von solchen standardisierten Prüfungsformaten als Reflexionsinstrument in den Hintergrund gedrängt, oder sogar verdrängt wird. Diese Hypothese wurde im Rahmen der zeitversetzten Evaluation einer Weiterbildung zum Erwerb von DELF / DALF-Prüferlizenzen anhand der Methode der Gruppendiskussion untersucht. Die Ergebnisse dieser Untersuchung werden hier zusammengefasst.
Stichwörter: Tests, Standardisierung




1   Introduction

Évaluer constitue une des tâches centrales des enseignants en milieu universitaire, tâche que le processus de Bologne, en réaffirmant l’importance de l’enseignement, a concouru à revaloriser. Le Cadre européen commun de référence pour les langues (CECR) consacre lui aussi un chapitre entier à l’évaluation.

Pourtant, les modèles qui influencent les pratiques d’évaluation des enseignants sont encore rarement explicités et discutés. Au niveau de l’évaluation sommative notamment, les tests et examens de langue standardisés ainsi que les exemples de bonnes pratiques qui s’appuient sur les descripteurs du CECR contribuent certes aujourd’hui à harmoniser les certifications européennes en langue étrangère. Mais en même temps, cette évolution semble induire plusieurs effets indésirables. Les apprenants sont ainsi soumis à outrance à des tests mesurant leurs connaissances et / ou leurs compétences sur une échelle X, que celles-ci aient déjà été évaluées à plusieurs reprises ou pas (Voss 2011). En Allemagne, ce phénomène, induit par les études de type PISA, a même donné naissance à un néologisme à connotation médicale : la Testeritis. Du côté des enseignants, un autre effet indésirable de la prédominance de formats d’examens standardisés pourrait consister à reléguer au second plan le CECR en tant qu’instrument de réflexion, voire à le supplanter.

C’est cette dernière hypothèse que nous avons voulu vérifier auprès d’enseignants ayant participé à un stage d’habilitation des correcteurs et des examinateurs du Diplôme d’études en langue française (DELF) et du Diplôme approfondi de langue française (DALF) du Ministère français de l‘Éducation nationale. Plus avant, nous nous sommes également intéressés à la façon dont le stage d’habilitation modifiait – ou pas – les représentations que l’enseignant a de lui-même en tant qu’examinateur-expert de sa discipline et dans quelle mesure il pouvait avoir un impact sur les modèles de l’évaluation auxquels les collègues se réfèrent – que ce soit explicitement ou implicitement.



2   Le contexte : le DELF / DALF et les formations habilitantes

2.1  Le DELF / DALF et le CECR

Aujourd’hui bien connus, le DELF et le DALF, certifications officielles du Ministère français de l'Éducation nationale pour le français langue étrangère (FLE), sont gérés aux niveaux national et international par le Centre international d'études pédagogiques (CIEP) de Sèvres, établissement public dépendant du ministère.

Créées en 1985, ces certifications ont été réorganisées en fonction du CECR lors d'une réforme en 2005 et sont aujourd'hui divisées en diplômes indépendants correspondant chacun à un niveau du cadre : la dénomination DELF porte sur les niveaux allant de A1 à B2, l’intitulé DALF est réservé aux niveaux C1 et C2. Pour chaque diplôme, les quatre compétences (compréhension orale, compréhension écrite, expression écrite et expression orale) sont évaluées[1].

Cette volonté marquée d'harmonisation du DELF et du DALF sur les niveaux du CECR transparaît tout particulièrement dans les grilles d'évaluation des épreuves de production orale ou écrite ; celles-ci se réfèrent en effet explicitement au texte européen puisqu’elles en reprennent en partie mot pour mot les descripteurs. Par ailleurs, les épreuves sont constituées dans le souci du respect de la perspective actionnelle, différents exercices proposant aux candidats de résoudre une tâche concrète (comme le choix d’un hébergement en fonction de préférences).


2.2 Les formations habilitantes et le CECR

Si la conception des épreuves du DELF et du DALF relève uniquement du CIEP, les correcteurs et examinateurs sont recrutés au niveau local par les responsables des centres de passation des différents pays (actuellement 164). Cette pratique vise à assurer la faisabilité même des sessions d’examens, l’ensemble des candidats d’un seul pays devant présenter les mêmes épreuves dans des conditions identiques selon un calendrier commun fixé au niveau national par les services de coopération et d'action culturelle des ambassades de France. Depuis la réforme de 2005, tout enseignant doit être titulaire d'une habilitation émise par le CIEP pour pouvoir intervenir comme correcteur-examinateur. Valables trois ans, ces habilitations sont délivrées après participation à un stage de formation.

Organisés dans les différents pays concernés, ces stages sont dispensés par des formateurs eux-mêmes habilités par la Commission nationale DELF DALF. Dans l’esprit de la démarche-qualité définie par le CIEP, les stages d’habilitation des formateurs comme ceux des futurs examinateurs-correcteurs sont fortement standardisés. Les formateurs habilités disposent dès lors de ressources mises à leur disposition par le CIEP et respectent un programme agréé en amont par la Commission nationale d’une durée minimale de 20 heures pour le DELF[2] et d’au moins 10 heures supplémentaires pour les correcteurs et examinateurs souhaitant être également habilités pour le DALF. 

L'objectif des stages d’habilitation des correcteurs et examinateurs est double : au niveau individuel, ceux-ci ciblent, bien sûr, la capacité à évaluer les productions des candidats en fonction des critères retenus par le CIEP, critères qui sont, rappelons-le, adossés au CECR. Au-delà, c’est la capacité à confronter les notes attribuées et donc à harmoniser les pratiques d'évaluation au sein du groupe qui est visée.

Chaque stage de formation est ainsi composé, niveau par niveau, d’un module d'analyse des différentes épreuves et des grilles d’évaluation correspondantes pour aboutir à l'évaluation individuelle, puis en commun, des productions orale et écrite des candidats. La discussion et l'harmonisation des notes se fait en référence aux calibrages préétablis par le CIEP.

Mais le CECR tient lui aussi une place fondamentale dans ces formations : chacune d’entre elles s’ouvre en effet sur un module qui lui est entièrement consacré et qui, à travers de nombreuses activités, favorise son appropriation par les enseignants-stagiaires (éléments-clés du CECR, choix de mots-clés, analyse des descripteurs, explicitation des niveaux). Ainsi, l’ensemble de la formation repose-t-elle sur une compréhension commune du CECR, un des objectifs assignés au formateur étant que les futurs correcteurs-examinateurs soient capables d' « utiliser le CECRL en tant que ressource pour l’évaluation » (CIEP n.d.).


3   Recueil des données

Le recueil des données cherchait à évaluer à froid le stage d’habilitation et à identifier ses impacts sur les pratiques d'évaluation des participants. Il s'agissait tout particulièrement de déterminer dans quelle mesure les représentations et les modèles d'évaluation des stagiaires avaient évolué ainsi que les rôles respectifs que le DELF / DALF et le CECR pouvaient avoir dans ces évolutions. 

Les données ont été recueillies à travers deux entretiens de groupe organisés respectivement six et neuf mois après deux formations habilitantes ayant eu lieu courant 2010 en Allemagne. Caractérisé par le fait qu’il ne recherche ni le consensus ni la défense d’un point de vue particulier, l’entretien de groupe est préconisé par Boutin (2007: 30) dans le champ de la recherche pour « valider le bien-fondé d’un programme de formation […] et [à] en mesurer l’impact ». S’appuyant sur les principes énoncés par Bohnsack (2003) et Boutin (2007), les deux discussions ont été effectuées après l’élaboration d’un guide d’entretien semi-directif avec des groupes les plus hétérogènes possibles ; les variables retenues dans cet objectif ont été l'âge, le type de formations initiales et continues ainsi que le degré de satisfaction ou d'insatisfaction énoncé envers le format des examens du DELF / DALF. Les deux groupes de discussion ont ainsi été composés d’enseignantes âgées de 27 à 58 ans et titulaires de diplômes en langue vivante avec ou sans spécification FLE. Exerçant soit pour un public adulte (dans le cadre de vacations au sein des Instituts français, des universités ou des universités populaires), soit pour un public lycéen (dans le cadre de l’assistanat à l’étranger), les participantes présentaient également des profils différents du point de vue de la formation continue : les groupes comportaient aussi bien des collègues se disant formées « sur le tas » qu’une personne intervenant comme formatrice de formateurs FLE.

La discussion a été  lancée à travers la question initiale « Avez-vous repensé à la formation DELF / DALF ces derniers mois ? ». Enregistrées, ces discussions ont ensuite été transcrites en vue de leur analyse.


4   Analyse des données

L’analyse des transcriptions des entretiens a permis de dégager trois catégories. Celles-ci concernent respectivement les impacts directs que l'on pouvait attendre d'une telle formation, les perceptions qu'ont les participantes du DELF / DALF et du CECR et enfin les pratiques d'évaluation et les représentations qui y correspondent.


4.1    Impacts attendus de la formation

4.1.1 Constitution de documents de référence

Un premier impact est celui de la constitution de ressources pour l’autoformation. Les participantes déclarent s’être reportées à plusieurs reprises aux documents ressources distribués. Ici, elles citent en particulier le travail à partir des mots-clés du CECR, les critères des grilles d’évaluation, les copies précalibrées par le CIEP et les enregistrements de production orale. 

Cette consultation a lieu peu avant les sessions d’examens, mais pas seulement. Pour une participante, l’ensemble des documents a ainsi constitué un outil pédagogique auquel elle s’est référée avant d’aborder un nouveau cours.


4.1.2  Clarification des niveaux

La formation est, par ailleurs, perçue comme un moment fort qui permet de clarifier les niveaux du CECR. L’utilisation qui est faite de la terminologie du cadre européen commun de référence est remise en question : un décalage entre les niveaux du CECR, tels qu’ils sont explicités lors de la formation DELF / DALF (c’est-à-dire en référence constante au texte européen) et tels qu’ils sont pratiqués dans les différentes institutions où on « court un peu après le cadre de référence »[3] est souligné à plusieurs reprises dans les groupes de discussion. Il s’agit de « se remettre en tête à quoi correspondent exactement ces niveaux », « ne pas confondre B1 et B2 », « réfléchir à tous ces niveaux ». 

A partir de là, la clarification des niveaux entre au service des apprenants et de leur orientation. Les enseignantes se jugent plus à même, lors d’entretiens conseils, d’expliquer aux apprenants où ils se situent sur l’échelle du CECRL et d’expliciter l’écart existant entre deux niveaux :

« [J’ai pu] expliquer à mes étudiants que, même si après deux semestres de C1, ils passaient en C2, ils ne pouvaient pas prétendre passer le DALF C2 à la fin de l'année, enfin, qu'il n’y avait pas d'équivalence aussi simple ».

Cette orientation peut avoir lieu avant une inscription à un des examens du DELF / DALF, mais aussi au moment d’un entretien d’évaluation initiale, pour orienter les apprenants vers un cours, ou même « dans la pratique [quotidienne] », ce qui se rapprocherait plus d’une évaluation formative.

La clarification des niveaux donne également lieu à de nombreux échanges entre enseignants, que ce soit pendant ou après la formation :

« Si on en parle à des collègues, ils vont dire : Mais alors, c’est quoi la différence entre B1 et B2 ? […] Donc on revoit, et je trouvais que c’était, oui, très utile, de réfléchir à ça ».

Il est ainsi conseillé à certains collègues de suivre la formation à leur tour afin de mieux appréhender l’échelle du CECRL et d’harmoniser la compréhension des niveaux dans une même institution.


4.1.3  Découverte d’une nouvelle approche de l’évaluation

Bien que la problématique de l'évaluation n'ait été traitée de manière explicite que dans l'un des stages d’habilitation, ce point a été abordé dans les deux groupes de discussion. L’évaluation y est décrite comme un « fardeau » : si le candidat est seul face à sa copie, l’évaluateur lui aussi est « seul quand [il] corrige », même « après des années d’expérience » et le moment de l’évaluation est décrit comme fortement « subjectif » et « arbitraire ».

En revanche, l’évaluation à l’aide des grilles du DELF / DALF « soulage d’une certaine responsabilité » en remplaçant les critères « qu’on a concoctés depuis pas mal d’années » et dont on n’était pas pleinement satisfait.

Le travail avec les grilles permet aussi de « comprendre pourquoi telle ou telle note a été donnée et pas telle autre » et donc de chercher à réduire les écarts de notation, parfois « extrêmes », entre les examinateurs, ce qui est le but avoué du stage d’habilitation.

Les enseignantes déclarent également avoir porté une attention plus grande aux critères parasites de l’évaluation lors des sessions d’examen, particulièrement à l’effet de contraste et à l’effet Pygmalion. Pour l’une d’entre elle, il s’agit aussi de « prendre conscience de l’effet qu’on peut avoir sur un candidat ». Dans l’ensemble apparaît la demande, formulée de manière récurrente lors des stages d’habilitation, en un guide du "bon" examinateur qui concourrait à assurer l’objectivité de la note finale. 

Au-delà de ces éléments, c’est l’approche même de l’évaluation qui semble être remise en question. Alors qu’on avait « tendance à faire une liste des fautes », on s’attache maintenant à relever et à valoriser les éléments positifs dans les productions orales et écrites des candidats, on « souligne en vert ce qui est bien ». Cette « philosophie complètement nouvelle » est vécue comme une « révélation » et semble initier un changement dans les pratiques d’évaluation des collègues interviewées qui n’est pas circonscrite aux sessions du DELF / DALF mais qui peut être « adaptée à sa façon de corriger en général ». « J’ai adopté une autre approche en général pour, oui, pour la notation », confirme ainsi une autre enseignante.


4.2  Les perceptions du DELF / DALF et du CECR : le DELF / DALF comme mise en pratique du cadre européen commun de référence

Dans les entretiens de groupe, les descripteurs du CECR sont dépeints comme « trop vagues » et « complexes » à la fois. S’appuyer sur le cadre européen pour créer des outils d’évaluation peut ainsi conduire à « fabriquer soi-même une espèce de monstre ». 

La lecture des descripteurs du CECR est jugée fastidieuse, la distinction entre deux niveaux exigeant de porter une attention particulière à des « petits critères de différence », notamment aux « adverbes qui précisent la nuance ». Le travail sur les mots-clés du CECR, cité spontanément et à plusieurs reprises, contribue pour sa part à les rendre plus concis, « affinés » et « clairs ». 

Dans le même sens, la référence aux grilles d’évaluation du DELF / DALF est un moyen de se « cadrer » et d’harmoniser les pratiques d’évaluation. Le DELF est perçu comme « un repère », un outil fiable et crédible doté de « critères objectifs » particulièrement pertinents dans le secondaire et qui « peuvent être appliqués ». Plus avant, c’est également un outil qui « permet de vérifier si certaines bases sont acquises pour aller plus loin ». Une enseignante y voit « un tronc commun de départ ».

Néanmoins, des réserves apparaissent. Les attentes en termes de compétences méthodologiques dans les épreuves du DALF C1 et du DALF C2 suscitent de multiples interrogations. Les critères, adossés au CECR, portant sur la capacité à traiter les textes (la formulation et la mise en perspective d’une problématique, le choix et la hiérarchisation des informations) sont également âprement débattus lors des stages de formation.

Tout en apportant « des bases », les critères du DELF / DALF peuvent aussi être perçus comme des catégories réductrices, ne rendant pas suffisamment compte de la variété des compétences. Dès lors, si l’on s’y réfère pour orienter un apprenant, il faut « éventuellement s’adapter, à partir du niveau d’un élève et de sa façon d’évoluer ». 

En soi, le DELF/DALF apparaît comme une mise en pratique du CECR, un exemple à travers lequel on peut « confronter [la] philosophie [du CECR] à sa pratique concrète, par la correction de copies ». La jonction entre ces deux éléments (sensibilisation à la philosophie du CECR d’un côté, pratique de l’évaluation critériée du DELF / DALF de l’autre) est qualifiée d’« indispensable ».


4.3 Routines et pratiques d’évaluation : émergence de nouvelles représentations

Tagliante souligne que l’évaluateur ayant rarement bénéficié d’une formation à l’évaluation au cours de ses études, il « reproduit souvent les procédures par lesquelles il a lui-même été évalué » Tagliante (2005: 8). De fait, les collègues interviewées évoquent une pratique de l’évaluation « traditionnelle », centrée sur les aspects grammaticaux et lexicaux de la langue et s’attachant à souligner les fautes. Construit au fur et à mesure de l’expérience professionnelle, ce modèle est confirmé lors des échanges entre collègues et reproduit « depuis des années ». 

Un autre modèle évoqué est celui d’une « tendance parfois élitiste » de l’université française dans laquelle on considère que « 12 sur 20, c’est une bonne note ». Cependant, à l’inverse du premier, celui-ci peut être remis en question, notamment quand il conduit à des négociations entre évaluateur (français) et évalués (allemands) au sujet de la conversion des notes et de leur ressenti.

Dans les deux cas, ces représentations de l’évaluation s’appuient sur un vécu personnel fort, une représentation de l’évaluation liée à la notion de « sanction » et incarnée par l’image de l’examinateur « infect » que tout un chacun semble avoir rencontré un jour dans son parcours scolaire ou universitaire.

Dans le même sens, si le calibrage des productions écrites et orales donne souvent lieu à des échanges « houleux » lors des stages d’habilitation, c’est parce que les représentations que l’on a d’une "bonne" ou "mauvaise" copie sont « différentes selon son passé, en tant qu’élève, qu’étudiant », qu’on « emmagasine tous ces bagages » et que « la génération à laquelle on appartient influence énormément la vision qu’on se fait […] d’un bon candidat ». Pour une des enseignantes, cet aspect générationnel, central, soulève la question de l’adéquation entre les méthodes d’enseignement actuelles et les pratiques d’évaluation qu’elle a pu observer.

Entre six et neuf mois après le stage d’habilitation, ces pratiques sont décrites comme relevant d’une « trajectoire naturelle », de « routines » mises en place tout au long d’un parcours professionnel et personnel. Les critères parasites de la fidélité sont pointés, notamment les effets de halo, de favoritisme et de contamination. Critère implicite toujours vivace, la prise en compte du travail fourni (ou pas) par l’apprenant peut ainsi conduire, lors de tests ou contrôles en milieu scolaire, à reléguer au second plan la grille d’évaluation, « le travail des dernières années » étant évalué en lieu et place du texte produit. 

Ces « habitudes qui sont en place » sont perçues comme peu compatibles avec le modèle (anonyme) d’évaluation critériée que le DELF / DALF propose et auraient besoin d'être recadrées pour qu'une évaluation "juste" soit possible. Emergent dès lors deux images complémentaires, celle du "mauvais" et du "bon" évaluateur. 

« Trop gentil ou trop sévère », le "mauvais" évaluateur « manque de recul », fait preuve de « familiarité » avec ses élèves, pose des questions fermées, se focalise sur les fautes, voire évalue autre chose que la production qu’il est censé noter. Il s’appuie certes sur son expérience mais « l’expérience ne fait pas tout » et « n’est pas forcément la bonne expérience ». 

A l’inverse, le "bon" évaluateur cherche à être « le plus objectif possible » et tient compte, « sans à priori », des qualités et des défauts d’une production. Conscient de son rôle au moment de l’examen, il sait garder à l'esprit les différents facteurs qui parasitent la fidélité de l'évaluation, n’intimide pas le candidat, s'adapte à celui-ci, l'engage à prendre des risques et est conscient de la dimension « éthique » de sa fonction. Enfin, tout en continuant à procéder à des évaluations-contrôles, il inclut l'évaluation formative à ses pratiques pédagogiques, que ce soit en aidant l’apprenant à s’auto-évaluer ou en tenant compte des aspects relevant de sa motivation au sens large.


5   Discussion des résultats

5.1 Réduction du CECR aux éléments du DELF/DALF

Lors de l’analyse des données, il apparaît que les éléments les plus souvent cités en référence sont les critères d’évaluation, le terme de descripteur n’étant jamais utilisé spontanément alors qu’il est fréquemment employé au cours du stage d’habilitation. L’analyse des descripteurs y précède en effet celle des grilles d’évaluation et c’est sur la première que repose la compréhension / l’interprétation des secondes. Lors du calibrage des copies du DELF / DALF, il est de même souvent nécessaire de rappeler les descripteurs du CECR propres à un même niveau afin de mieux cerner le degré global de compétence attendu. Pourtant, dans le discours des enseignantes, force est de constater que les critères (du CIEP) se superposent aux descripteurs (du CECR). L’évaluation formative « dans la pédagogie quotidienne » n’est pas non plus explicitée en référence à l’échelle du CECR mais aux niveaux du DELF / DALF et aux manuels utilisés. 

Cette réduction du CECR aux éléments présents dans le format des examens du DELF et du DALF est aussi illustrée en creux par le fait qu'aucun autre élément clé du CECRL n'a été évoqué : l'apprenant en tant qu’acteur social plurilingue, la notion de tâche, l'autonomie, autant d’éléments qui n’ont pas été abordés dans les entretiens de groupe.


5.2 Le DELF / DALF comme outil de réflexion privilégié

Quand elles citent le CECR en tant que tel, les enseignantes interviewées lui réfutent sa vocation d’instrument de réflexion non prescriptif. Le DELF / DALF, par contre, après le stage d’habilitation, est la base de réflexion utilisée lors d’échanges entre collègues portant sur l’inadéquation des tests de placement, sur l’orientation des apprenants ou même sur l’évaluation d’autres compétences (dans le cadre, par exemple, d'un travail sur la littérature française ou sur la civilisation). La « nouvelle approche » dans la façon d’évaluer, en rupture avec les routines précédentes, est  ainsi qualifiée de « méthode DELF ». 

C’est en ce sens qu’on peut dire que le DELF / DALF, perçu – à tort ou à raison - comme un outil plus simple d’utilisation, prend la place du CECR : il devient l’outil auquel on se réfère, on le compare à d’autres examens standardisés (comme le TELC), perdant de vue que l’approche qu’il préconise se réfère elle-même aux travaux du Conseil de l’Europe et n’en est qu’une application, parmi les multiples applications possibles.


5.3 Représentations de l'évaluateur

Il reste à savoir dans quelle mesure l’appropriation de ce "modèle DELF" modifie la perception que l’enseignant a de lui-même en tant que correcteur-examinateur.

Si les collègues interviewées ont dressé, au fur et à mesure, des entretiens de groupe, un portrait du bon évaluateur, elles ne se voient cependant pas comme expertes dans ce domaine. La quête de repères concrets s’exprime dans leur demande en critères clairs, en copies calibrées, en guides de l’évaluateur (demande à laquelle répondent le Manuel de l’examinateur-correcteur et le Manuel de l’évaluation des copies atypiques de production écrite du CIEP ou d’autres publications en ligne comme celle de l’ISB München). Les échanges entre collègues, centrés sur l’évaluation, sont également vivement sollicités. Il s’agit de clarifier pour soi-même les critères qu’on utilise afin de les expliciter à un élève et d’être à même de justifier la note attribuée – à ses propres yeux comme à ceux de l’apprenant. La formation habilitante, loin de renforcer l’image de l’évaluateur au « pouvoir quasi divin », débouche ainsi sur un idéal d’objectivité. 

Vial (2001: pp. 44) distingue trois paradigmes de l’évaluation :
  • l’évaluation-mesure, reliée à des modèles historiques comme la docimologie (on mesure, on hiérarchise, on trie, on porte un jugement de valeur),
  • l’évaluation-gestion, reliée à des modèles contemporains économiques (on maîtrise des situations, on atteint des objectifs, on résout des problèmes…) valorisant la pensée par objectifs ou la pensée systémique (de laquelle relèvent l’évaluation de tâches ou l’évaluation formatrice, quelquefois « dialogue informatif » déguisé),  et
  • l’évaluation-problématique, paradigme actuellement en développement et qui questionne le sens de l’action (ce qui est bien le cas quand on s’interroge sur le phénomène de la Testeritis).
Chez l’évaluateur non formé, ces modèles se chevauchent les uns les autres.

L’idéal d’objectivité qui se dégage des entretiens de groupe que nous avons menés est pour Bonniol & Vial (1997: 83) une caractéristique de l'évaluateur « entravé par le désir irrépressible d'être juste » relevant du modèle de l’évaluation-mesure. Nous sommes « conscients de la gravité de [notre] acte », nous voulons nous départir de notre part de subjectivité en nous reposant sur l’évaluation critériée. Pour cela, nous faisons appel à des « procédures toujours trop compliquées » et (re)devenons « métrologue » afin d’attribuer la « vraie note ».

Pour Tagliante (2005: 11-12), cette « vraie note » est un mythe et si l'utilisation de tests calibrés peut en effet réduire l’écart de notation entre plusieurs évaluateurs, une évaluation objective reste impossible, la notation ne pouvant être « qu’une estimation donnée à une performance ».
 
Les auteurs du CECR soulignent, eux aussi, la complexité de la question de la subjectivité / objectivité dans le chapitre IX dédié à l’évaluation (2001 : 142-143). Les questionnaires à choix multiples eux-mêmes ne sauraient être totalement objectifs, et on peut, au mieux, parler d’une « correction objectivée ». Dans le cas de productions orales ou écrites, toute évaluation a sa part de subjectivité, l’expérience y étant combinée à la prise en compte de « facteurs pertinents » et à celle d’instructions ou de critères. Cette part de subjectivité ne constitue pas forcément un obstacle à une évaluation "juste" :

« L’avantage d’une approche subjective repose sur le fait que la langue et la communication sont extrêmement complexes, se prêtent mal à l’atomisation et sont toujours plus que la simple somme de leurs constituants » (Conseil de l’Europe 2001: 142).

Le CECR préconise dès lors une démarche relevant à la fois d’un travail d’objectivation (à l’aide de critères, de procédures normées…) et d’un travail de négociation entre enseignants-évaluateurs (discussion en commun de productions orales, doubles corrections, stages de formation…).


6   Conclusion

Le stage d’habilitation des correcteurs-examinateurs du DELF / DALF applique les recommandations préconisées par le CECR. Pourtant, on constate que dans sa mise en place, et malgré les objectifs visant l’appropriation du cadre européen commun de référence en tant que ressource pour l’évaluation, une tendance à positionner le format des examens du DELF et du DALF en tant que référence unique et objective est forte, voire flagrante chez les participantes. Certes, cette tendance est aussi due à des impératifs professionnels et à des éléments purement organisationnels (comme la durée impartie à la formation ou le nombre de participants). Néanmoins, la part donnée à l’explicitation des modèles de l’évaluation sur lesquels le DELF / DALF repose nous paraît insuffisante pour amener les collègues enseignants, au-delà de l’acquisition de techniques, à développer une attitude réflexive sur leurs pratiques professionnelles.

Au niveau des représentations de l’évaluateur, le stage d’habilitation permet en revanche de remettre en question des routines reposant uniquement sur l’expérience, et d’initier un changement qui nous semble aller dans le sens du CECR. Si tant est que la quête de l’objectivité de l’évaluateur ne débouche pas, elle aussi, dans un mouvement paradoxal, à lui attribuer un pouvoir « divin ».



Bibliographie

Bohnsack, Ralf (2003). Gruppendiskussion. In: Flick, Uwe / Kardorff von, Ernst / Steinke, Ines (Hrsg.). Qualitative Forschung: Ein Handbuch. Reinbek bei Hamburg: Rowohlt Taschenbuch Verlag, 2. Ausgabe, 369-384.

Bonniol, Jean-Jacques / Vial, Michel (1997). Les modèles de l’évaluation: textes fondateurs avec commentaires. Paris, Bruxelles: DeBoeck Université (Pédagogie).

Boutin, Gérald (2007). L’entretien de groupe en recherche et formation. Montréal: Editions nouvelles.

Centre international d’études pédagogiques (n.d.). Formation et habilitation des correcteurs et examinateurs aux épreuves du DELF et du DALF (réservé aux formations agréées par la Commission nationale) 1. Activités de formation [1 cédérom]. Sèvres: CIEP (Commission nationale DELF DALF).

Conseil de l’Europe (2001). Cadre européen commun de référence pour les langues: apprendre, enseigner, évaluer. Paris: Didier.

Rosen, Evelyne (2007). Le point sur le Cadre européen commun de référence pour les langues. Paris: Clé International (Didactique des langues étrangères).

Staatsinstitut für Schulqualität und Bildungsforschung München (2010). DELF B1 an der bayerischen Realschule: Hinweise zu Aufbau und Korrektur der Aufgaben. Retrieved December 29, 2011 from the World Wide Web: http://www.isb.bayern.de/isb/index.asp?MNav=5&QNav=5&TNav=1&INav=0&Pub=1395.  

Tagliante, Christine (2005). L’évaluation et le Cadre européen commun. Paris: Clé international (Techniques et pratiques de classe).

Vial, Michel (2001). Se former pour évaluer: se donner une problématique et élaborer des concepts. Bruxelles: DeBoeck Université (Pédagogies en développement).

Voss, Bernd (2011). Podiumsdiskussion: Das Pferd vom Schwanz her aufzäumen – Testeritis als 11. Plage des Fremdsprachenunterrichts? Beitrag zu dem Bremer Symposion 2011 Autonomie und Assessment, Universität Bremen, 04. März 2011.  





[1]  Nous renvoyons au site du CIEP pour une description détaillée des épreuves du DELF et du DALF (http://www.ciep.fr/delfdalf/; 22.09.2012).
[2]  La durée de cette formation habilitante est ramenée à 16 heures dans certains pays, dont l'Allemagne : on considère en effet que les enseignants de langue de ces pays ont déjà certains acquis concernant le CECR.
[3]  Les éléments en italique et entre guillemets français citent mot pour mot les participantes aux entretiens de groupe