Examens standardisés et
représentations de l’examinateur
Véronique Gola (Berlin ) / Christophe Hohwald (Lüneburg)
Abstract (English)
While
teaching and testing are again becoming central at universities due to the Bologna process,
standardized exams and tests are now increasingly present on the market for
foreign language teaching and learning. This development has led teachers to
question their evaluation practices as well as to re-examine the models from
which they are derived. The predominance of these standardized exams could
therefore have an undesirable side-effect regarding the Common European
Framework of Reference for Languages (CEFR) by undermining its position as an
instrument of reflection or even replacing it as such. Based on the method of
group discussions, this article aims at verifying
this assumption through the results of a study carried out on a delayed
evaluation of accreditation training sessions for markers and graders of the
French DELF and DALF examinations.
Key words:
testing, standardisation
Abstract (Deutsch)
Während der Unterricht und die Bewertung von
Hochschulprüfungen im Zuge des Bologna-Prozesses wieder einen zentralen Platz
einnehmen, treten auf dem Sprachenmarkt Tests und standardisierte Prüfungen
vermehrt auf. Dies führt dazu, dass die Lehrenden ihre bisherige
Bewertungspraxis und die Modelle, die dieser Praxis zugrunde liegen, in Frage
stellen und neu betrachten. Eine unerwünschte Nebenwirkung dieser Entwicklung
könnte darin bestehen, dass der Gemeinsame Europäische Referenzrahmen für
Sprachen (GER) von solchen standardisierten Prüfungsformaten als
Reflexionsinstrument in den Hintergrund gedrängt, oder sogar verdrängt wird.
Diese Hypothese wurde im Rahmen der zeitversetzten Evaluation einer
Weiterbildung zum Erwerb von DELF / DALF-Prüferlizenzen anhand der Methode der
Gruppendiskussion untersucht. Die Ergebnisse dieser Untersuchung werden hier
zusammengefasst.
Stichwörter: Tests, Standardisierung
1 Introduction
Évaluer
constitue une des tâches centrales des enseignants en milieu universitaire,
tâche que le processus de Bologne, en réaffirmant l’importance de
l’enseignement, a concouru à revaloriser. Le Cadre européen commun de référence
pour les langues (CECR) consacre lui aussi un chapitre entier à l’évaluation.
Pourtant, les modèles qui influencent les pratiques
d’évaluation des enseignants sont encore rarement explicités et discutés. Au
niveau de l’évaluation sommative notamment, les tests et examens de langue
standardisés ainsi que les exemples de bonnes pratiques qui s’appuient sur les
descripteurs du CECR contribuent certes aujourd’hui à harmoniser les
certifications européennes en langue étrangère. Mais en même temps, cette
évolution semble induire plusieurs effets indésirables. Les apprenants sont
ainsi soumis à outrance à des tests mesurant leurs connaissances et / ou leurs
compétences sur une échelle X, que celles-ci aient déjà été évaluées à
plusieurs reprises ou pas (Voss 2011). En Allemagne, ce phénomène, induit par
les études de type PISA, a même donné naissance à un néologisme à
connotation médicale : la Testeritis.
Du côté des enseignants, un autre effet indésirable de la prédominance de
formats d’examens standardisés pourrait consister à reléguer au second plan le
CECR en tant qu’instrument de réflexion, voire à le supplanter.
C’est
cette dernière hypothèse que nous avons voulu vérifier auprès d’enseignants
ayant participé à un stage d’habilitation des correcteurs et des examinateurs
du Diplôme d’études en langue française (DELF) et du Diplôme
approfondi de langue française (DALF) du Ministère français de l‘Éducation
nationale. Plus avant, nous nous sommes également intéressés à la façon dont le
stage d’habilitation modifiait – ou pas – les représentations que l’enseignant
a de lui-même en tant qu’examinateur-expert de sa discipline et dans quelle
mesure il pouvait avoir un impact sur les modèles de l’évaluation auxquels les
collègues se réfèrent – que ce soit explicitement ou implicitement.
2 Le contexte : le DELF / DALF
et les formations habilitantes
2.1 Le DELF / DALF et le CECR
Aujourd’hui
bien connus, le DELF et le DALF, certifications officielles du Ministère
français de l'Éducation nationale pour le français langue étrangère (FLE),
sont gérés aux niveaux national et international par le Centre international
d'études pédagogiques (CIEP) de Sèvres, établissement public dépendant du
ministère.
Créées
en 1985, ces certifications ont été réorganisées en fonction du CECR lors d'une
réforme en 2005 et sont aujourd'hui divisées en diplômes indépendants
correspondant chacun à un niveau du cadre : la dénomination DELF
porte sur les niveaux allant de A1 à B2, l’intitulé DALF est réservé aux
niveaux C1 et C2. Pour chaque diplôme, les quatre compétences (compréhension
orale, compréhension écrite, expression écrite et expression orale)
sont évaluées[1].
Cette
volonté marquée d'harmonisation du DELF et du DALF sur les niveaux du CECR
transparaît tout particulièrement dans les grilles d'évaluation des épreuves de
production orale ou écrite ; celles-ci se réfèrent en effet explicitement au
texte européen puisqu’elles en reprennent en partie mot pour mot les
descripteurs. Par ailleurs, les épreuves sont constituées dans le souci du
respect de la perspective actionnelle, différents exercices proposant aux
candidats de résoudre une tâche concrète (comme le choix d’un hébergement en
fonction de préférences).
2.2 Les formations habilitantes et le CECR
Si
la conception des épreuves du DELF et du DALF relève uniquement du CIEP, les
correcteurs et examinateurs sont recrutés au niveau local par les responsables
des centres de passation des différents pays (actuellement 164). Cette pratique
vise à assurer la faisabilité même des sessions d’examens, l’ensemble des
candidats d’un seul pays devant présenter les mêmes épreuves dans des
conditions identiques selon un calendrier commun fixé au niveau national par
les services de coopération et d'action culturelle des ambassades de France.
Depuis la réforme de 2005, tout enseignant doit être titulaire d'une
habilitation émise par le CIEP pour pouvoir intervenir comme
correcteur-examinateur. Valables trois ans, ces habilitations sont délivrées
après participation à un stage de formation.
Organisés
dans les différents pays concernés, ces stages sont dispensés par des
formateurs eux-mêmes habilités par la Commission nationale DELF DALF. Dans
l’esprit de la démarche-qualité définie par le CIEP, les stages d’habilitation
des formateurs comme ceux des futurs examinateurs-correcteurs sont fortement
standardisés. Les formateurs habilités disposent dès lors de ressources mises à
leur disposition par le CIEP et respectent un programme agréé en amont par la
Commission nationale d’une durée minimale de 20 heures pour le DELF[2]
et d’au moins 10 heures supplémentaires pour les correcteurs et examinateurs
souhaitant être également habilités pour le DALF.
L'objectif
des stages d’habilitation des correcteurs et examinateurs est double : au
niveau individuel, ceux-ci ciblent, bien sûr, la capacité à évaluer les productions
des candidats en fonction des critères retenus par le CIEP, critères qui sont,
rappelons-le, adossés au CECR. Au-delà, c’est la capacité à confronter les
notes attribuées et donc à harmoniser les pratiques d'évaluation au sein du
groupe qui est visée.
Chaque
stage de formation est ainsi composé, niveau par niveau, d’un module d'analyse
des différentes épreuves et des grilles d’évaluation correspondantes pour
aboutir à l'évaluation individuelle, puis en commun, des productions orale et
écrite des candidats. La discussion et l'harmonisation des notes se fait en
référence aux calibrages préétablis par le CIEP.
Mais
le CECR tient lui aussi une place fondamentale dans ces formations :
chacune d’entre elles s’ouvre en effet sur un module qui lui est entièrement
consacré et qui, à travers de nombreuses activités, favorise son appropriation
par les enseignants-stagiaires (éléments-clés du CECR, choix de mots-clés,
analyse des descripteurs, explicitation des niveaux). Ainsi, l’ensemble de la
formation repose-t-elle sur une compréhension commune du CECR, un des objectifs
assignés au formateur étant que les futurs correcteurs-examinateurs soient
capables d' « utiliser le CECRL en tant que ressource pour
l’évaluation » (CIEP n.d.).
3 Recueil des données
Le
recueil des données cherchait à évaluer à
froid le stage d’habilitation et à identifier ses impacts sur les
pratiques d'évaluation des participants. Il s'agissait tout particulièrement de
déterminer dans quelle mesure les représentations et les modèles d'évaluation
des stagiaires avaient évolué ainsi que les rôles respectifs que le DELF / DALF
et le CECR pouvaient avoir dans ces évolutions.
Les
données ont été recueillies à travers deux entretiens de groupe organisés
respectivement six et neuf mois après deux formations habilitantes ayant eu
lieu courant 2010 en Allemagne. Caractérisé par le fait qu’il ne recherche ni
le consensus ni la défense d’un point de vue particulier, l’entretien de groupe
est préconisé par Boutin (2007: 30) dans le champ de la recherche pour
« valider le bien-fondé d’un programme de formation […] et [à] en mesurer
l’impact ». S’appuyant sur les principes énoncés par Bohnsack (2003) et
Boutin (2007), les deux discussions ont été effectuées après l’élaboration d’un
guide d’entretien semi-directif avec des groupes les plus hétérogènes
possibles ; les variables retenues dans cet objectif ont été l'âge, le
type de formations initiales et continues ainsi que le degré de satisfaction ou
d'insatisfaction énoncé envers le format des examens du DELF / DALF. Les deux
groupes de discussion ont ainsi été composés d’enseignantes âgées de 27 à 58
ans et titulaires de diplômes en langue vivante avec ou sans spécification FLE.
Exerçant soit pour un public adulte (dans le cadre de vacations au sein des Instituts
français, des universités ou des universités populaires), soit pour un public
lycéen (dans le cadre de l’assistanat à l’étranger), les participantes
présentaient également des profils différents du point de vue de la formation
continue : les groupes comportaient aussi bien des collègues se disant formées
« sur le tas » qu’une personne intervenant comme formatrice de
formateurs FLE.
La
discussion a été lancée à travers la question initiale
« Avez-vous repensé à la formation DELF / DALF ces derniers
mois ? ». Enregistrées, ces discussions ont ensuite été transcrites
en vue de leur analyse.
4 Analyse des données
L’analyse des transcriptions des entretiens a permis de
dégager trois catégories. Celles-ci concernent respectivement les impacts
directs que l'on pouvait attendre d'une telle formation, les perceptions qu'ont
les participantes du DELF / DALF et du CECR et enfin les pratiques d'évaluation
et les représentations qui y correspondent.
4.1 Impacts attendus de la formation
4.1.1 Constitution de documents de référence
Un
premier impact est celui de la constitution de ressources pour l’autoformation.
Les participantes déclarent s’être reportées à plusieurs reprises aux documents
ressources distribués. Ici, elles citent en particulier le travail à partir des
mots-clés du CECR, les critères des grilles d’évaluation, les copies
précalibrées par le CIEP et les enregistrements de production orale.
Cette
consultation a lieu peu avant les sessions d’examens, mais pas seulement. Pour
une participante, l’ensemble des documents a ainsi constitué un outil
pédagogique auquel elle s’est référée avant d’aborder un nouveau cours.
4.1.2 Clarification des niveaux
La
formation est, par ailleurs, perçue comme un moment fort qui permet de
clarifier les niveaux du CECR. L’utilisation qui est faite de la terminologie
du cadre européen commun de référence est remise en question : un
décalage entre les niveaux du CECR, tels qu’ils sont explicités lors de la
formation DELF / DALF (c’est-à-dire en référence constante au texte européen)
et tels qu’ils sont pratiqués dans les différentes institutions où on « court
un peu après le cadre de référence »[3]
est souligné à plusieurs reprises dans les groupes de discussion. Il s’agit de
« se remettre en tête à quoi correspondent exactement ces niveaux »,
« ne pas confondre B1 et B2 », « réfléchir à tous ces
niveaux ».
A
partir de là, la clarification des niveaux entre au service des apprenants et
de leur orientation. Les enseignantes se jugent plus à même, lors d’entretiens
conseils, d’expliquer aux apprenants où ils se situent sur l’échelle du CECRL
et d’expliciter l’écart existant entre deux niveaux :
« [J’ai pu] expliquer à mes étudiants que, même si
après deux semestres de C1, ils passaient en C2, ils ne pouvaient pas prétendre
passer le DALF C2 à la fin de l'année, enfin, qu'il n’y avait pas d'équivalence
aussi simple ».
Cette
orientation peut avoir lieu avant une inscription à un des examens du DELF /
DALF, mais aussi au moment d’un entretien d’évaluation initiale, pour orienter
les apprenants vers un cours, ou même « dans la pratique [quotidienne] »,
ce qui se rapprocherait plus d’une évaluation formative.
La
clarification des niveaux donne également lieu à de nombreux échanges entre
enseignants, que ce soit pendant ou après la formation :
« Si on en parle à des collègues, ils vont
dire : Mais alors, c’est quoi la différence entre B1 et B2 ? […] Donc on
revoit, et je trouvais que c’était, oui, très utile, de réfléchir à ça ».
Il
est ainsi conseillé à certains collègues de suivre la formation à leur tour
afin de mieux appréhender l’échelle du CECRL et d’harmoniser la compréhension
des niveaux dans une même institution.
4.1.3 Découverte d’une nouvelle
approche de l’évaluation
Bien
que la problématique de l'évaluation n'ait été traitée de manière explicite que
dans l'un des stages d’habilitation, ce point a été abordé dans les deux
groupes de discussion. L’évaluation y est décrite comme un « fardeau » :
si le candidat est seul face à sa copie, l’évaluateur lui aussi est « seul
quand [il] corrige », même « après des années d’expérience »
et le moment de l’évaluation est décrit comme fortement « subjectif »
et « arbitraire ».
En
revanche, l’évaluation à l’aide des grilles du DELF / DALF « soulage
d’une certaine responsabilité » en remplaçant les critères « qu’on
a concoctés depuis pas mal d’années » et dont on n’était pas
pleinement satisfait.
Le
travail avec les grilles permet aussi de « comprendre pourquoi telle ou
telle note a été donnée et pas telle autre » et donc de chercher à
réduire les écarts de notation, parfois « extrêmes », entre
les examinateurs, ce qui est le but avoué du stage d’habilitation.
Les
enseignantes déclarent également avoir porté une attention plus grande aux
critères parasites de l’évaluation lors des sessions d’examen, particulièrement
à l’effet de contraste et à l’effet Pygmalion. Pour l’une d’entre elle, il
s’agit aussi de « prendre conscience de l’effet qu’on peut avoir sur un
candidat ». Dans l’ensemble apparaît la demande, formulée de manière récurrente
lors des stages d’habilitation, en un guide du "bon" examinateur qui
concourrait à assurer l’objectivité de la note finale.
Au-delà
de ces éléments, c’est l’approche même de l’évaluation qui semble être remise
en question. Alors qu’on avait « tendance à faire une liste des fautes »,
on s’attache maintenant à relever et à valoriser les éléments positifs dans les
productions orales et écrites des candidats, on « souligne en vert ce
qui est bien ». Cette « philosophie complètement nouvelle »
est vécue comme une « révélation » et semble initier un changement
dans les pratiques d’évaluation des collègues interviewées qui n’est pas
circonscrite aux sessions du DELF / DALF mais qui peut être « adaptée à
sa façon de corriger en général ». « J’ai adopté une autre
approche en général pour, oui, pour la notation », confirme ainsi une
autre enseignante.
4.2 Les perceptions du DELF / DALF et du
CECR : le DELF / DALF comme mise en pratique du cadre européen commun
de référence
Dans
les entretiens de groupe, les descripteurs du CECR sont dépeints comme « trop
vagues » et « complexes » à la fois. S’appuyer sur le
cadre européen pour créer des outils d’évaluation peut ainsi conduire à
« fabriquer soi-même une espèce de monstre ».
La
lecture des descripteurs du CECR est jugée fastidieuse, la distinction entre
deux niveaux exigeant de porter une attention particulière à des « petits
critères de différence », notamment aux « adverbes qui
précisent la nuance ». Le travail sur les mots-clés du CECR, cité
spontanément et à plusieurs reprises, contribue pour sa part à les rendre plus
concis, « affinés » et « clairs ».
Dans
le même sens, la référence aux grilles d’évaluation du DELF / DALF
est un moyen de se « cadrer » et
d’harmoniser les pratiques d’évaluation. Le DELF est perçu comme « un
repère », un outil fiable et crédible doté de « critères
objectifs » particulièrement pertinents dans le secondaire et qui
« peuvent être appliqués ». Plus avant, c’est également un
outil qui « permet de vérifier si certaines bases sont acquises pour
aller plus loin ». Une enseignante y voit « un tronc commun de
départ ».
Néanmoins,
des réserves apparaissent. Les attentes en termes de compétences
méthodologiques dans les épreuves du DALF C1 et du DALF C2 suscitent de
multiples interrogations. Les critères, adossés au CECR, portant sur la
capacité à traiter les textes (la formulation et la mise en perspective d’une
problématique, le choix et la hiérarchisation des informations) sont également
âprement débattus lors des stages de formation.
Tout
en apportant « des bases », les critères du DELF / DALF peuvent aussi
être perçus comme des catégories réductrices, ne rendant pas suffisamment
compte de la variété des compétences. Dès lors, si l’on s’y réfère pour
orienter un apprenant, il faut « éventuellement s’adapter, à partir du
niveau d’un élève et de sa façon d’évoluer ».
En
soi, le DELF/DALF apparaît comme une mise en pratique du CECR, un exemple à
travers lequel on peut « confronter [la] philosophie [du CECR] à sa
pratique concrète, par la correction de copies ». La jonction entre
ces deux éléments (sensibilisation à la philosophie du CECR d’un côté, pratique
de l’évaluation critériée du DELF / DALF de l’autre) est qualifiée d’« indispensable ».
4.3 Routines et pratiques d’évaluation :
émergence de nouvelles représentations
Tagliante
souligne que l’évaluateur ayant rarement bénéficié d’une formation à
l’évaluation au cours de ses études, il « reproduit souvent les procédures
par lesquelles il a lui-même été évalué » Tagliante (2005: 8). De fait,
les collègues interviewées évoquent une pratique de l’évaluation « traditionnelle »,
centrée sur les aspects grammaticaux et lexicaux de la langue et s’attachant à
souligner les fautes. Construit au fur et à mesure de l’expérience professionnelle,
ce modèle est confirmé lors des échanges entre collègues et reproduit « depuis
des années ».
Un
autre modèle évoqué est celui d’une « tendance parfois élitiste » de
l’université française dans laquelle on considère que « 12 sur 20,
c’est une bonne note ». Cependant, à l’inverse du premier, celui-ci
peut être remis en question, notamment quand il conduit à des négociations
entre évaluateur (français) et évalués (allemands) au sujet de la conversion
des notes et de leur ressenti.
Dans
les deux cas, ces représentations de l’évaluation s’appuient sur un vécu
personnel fort, une représentation de l’évaluation liée à la notion de « sanction »
et incarnée par l’image de l’examinateur « infect » que tout
un chacun semble avoir rencontré un jour dans son parcours scolaire ou
universitaire.
Dans
le même sens, si le calibrage des productions écrites et orales donne souvent
lieu à des échanges « houleux » lors des stages
d’habilitation, c’est parce que les représentations que l’on a d’une
"bonne" ou "mauvaise" copie sont « différentes
selon son passé, en tant qu’élève, qu’étudiant », qu’on « emmagasine
tous ces bagages » et que « la génération à laquelle on appartient
influence énormément la vision qu’on se fait […] d’un bon candidat ».
Pour une des enseignantes, cet aspect générationnel, central, soulève la
question de l’adéquation entre les méthodes d’enseignement actuelles et les
pratiques d’évaluation qu’elle a pu observer.
Entre
six et neuf mois après le stage d’habilitation, ces pratiques sont décrites comme
relevant d’une « trajectoire naturelle », de « routines »
mises en place tout au long d’un parcours professionnel et personnel. Les
critères parasites de la fidélité sont pointés, notamment les effets de halo,
de favoritisme et de contamination. Critère implicite toujours vivace, la prise
en compte du travail fourni (ou pas) par l’apprenant peut ainsi conduire, lors
de tests ou contrôles en milieu scolaire, à reléguer au second plan la grille
d’évaluation, « le travail des dernières années » étant évalué
en lieu et place du texte produit.
Ces
« habitudes qui sont en place » sont perçues comme peu
compatibles avec le modèle (anonyme) d’évaluation critériée que le DELF / DALF
propose et auraient besoin d'être recadrées pour qu'une évaluation "juste" soit possible. Emergent dès lors deux images complémentaires, celle du
"mauvais" et du "bon" évaluateur.
« Trop
gentil ou trop sévère », le "mauvais" évaluateur « manque
de recul », fait preuve de « familiarité » avec ses
élèves, pose des questions fermées, se focalise sur les fautes, voire évalue
autre chose que la production qu’il est censé noter. Il s’appuie certes sur son
expérience mais « l’expérience ne fait pas tout » et « n’est
pas forcément la bonne expérience ».
A
l’inverse, le "bon" évaluateur cherche à être « le plus
objectif possible » et tient compte, « sans à priori »,
des qualités et des défauts d’une production. Conscient de son rôle au moment
de l’examen, il sait garder à l'esprit les différents facteurs qui parasitent
la fidélité de l'évaluation, n’intimide pas le candidat, s'adapte à celui-ci,
l'engage à prendre des risques et est conscient de la dimension « éthique »
de sa fonction. Enfin, tout en continuant à procéder à des
évaluations-contrôles, il inclut l'évaluation formative à ses pratiques
pédagogiques, que ce soit en aidant l’apprenant à s’auto-évaluer ou en tenant
compte des aspects relevant de sa motivation au sens large.
5 Discussion des résultats
5.1 Réduction du CECR aux éléments du DELF/DALF
Lors
de l’analyse des données, il apparaît que les éléments les plus souvent cités
en référence sont les critères d’évaluation, le terme de descripteur n’étant
jamais utilisé spontanément alors qu’il est fréquemment employé au cours du
stage d’habilitation. L’analyse des descripteurs y précède en effet celle des
grilles d’évaluation et c’est sur la première que repose la compréhension /
l’interprétation des secondes. Lors du calibrage des copies du DELF / DALF, il
est de même souvent nécessaire de rappeler les descripteurs du CECR propres à
un même niveau afin de mieux cerner le degré global de compétence attendu.
Pourtant, dans le discours des enseignantes, force est de constater que les
critères (du CIEP) se superposent aux descripteurs (du CECR). L’évaluation
formative « dans la pédagogie quotidienne » n’est pas non plus
explicitée en référence à l’échelle du CECR mais aux niveaux du DELF / DALF et
aux manuels utilisés.
Cette
réduction du CECR aux éléments présents dans le format des examens du DELF et
du DALF est aussi illustrée en creux par le fait qu'aucun autre élément clé du
CECRL n'a été évoqué : l'apprenant en tant qu’acteur social plurilingue,
la notion de tâche, l'autonomie, autant d’éléments qui n’ont pas été abordés
dans les entretiens de groupe.
5.2 Le DELF / DALF comme outil de réflexion privilégié
Quand
elles citent le CECR en tant que tel, les enseignantes interviewées lui
réfutent sa vocation d’instrument de réflexion non prescriptif. Le DELF / DALF,
par contre, après le stage d’habilitation, est la base de réflexion utilisée
lors d’échanges entre collègues portant sur l’inadéquation des tests de
placement, sur l’orientation des apprenants ou même sur l’évaluation d’autres
compétences (dans le cadre, par exemple, d'un travail sur la littérature
française ou sur la civilisation). La « nouvelle approche »
dans la façon d’évaluer, en rupture avec les routines précédentes, est ainsi qualifiée de « méthode DELF ».
C’est
en ce sens qu’on peut dire que le DELF / DALF, perçu – à tort ou à
raison - comme un outil plus simple d’utilisation, prend la place du
CECR : il devient l’outil auquel on se réfère, on le compare à d’autres
examens standardisés (comme le TELC), perdant de vue que l’approche qu’il
préconise se réfère elle-même aux travaux du Conseil de l’Europe et n’en est qu’une
application, parmi les multiples applications possibles.
5.3 Représentations de l'évaluateur
Il
reste à savoir dans quelle mesure l’appropriation de ce "modèle DELF"
modifie la perception que l’enseignant a de lui-même en tant que
correcteur-examinateur.
Si
les collègues interviewées ont dressé, au fur et à mesure, des entretiens de
groupe, un portrait du bon évaluateur, elles ne se voient cependant pas
comme expertes dans ce domaine. La quête de repères concrets s’exprime dans
leur demande en critères clairs, en copies calibrées, en guides de l’évaluateur
(demande à laquelle répondent le Manuel
de l’examinateur-correcteur et le Manuel
de l’évaluation des copies atypiques de production écrite du CIEP ou
d’autres publications en ligne comme celle de l’ISB München). Les
échanges entre collègues, centrés sur l’évaluation, sont également vivement
sollicités. Il s’agit de clarifier pour soi-même les critères qu’on utilise afin
de les expliciter à un élève et d’être à même de justifier la note attribuée –
à ses propres yeux comme à ceux de l’apprenant. La formation habilitante, loin
de renforcer l’image de l’évaluateur au « pouvoir quasi divin »,
débouche ainsi sur un idéal d’objectivité.
Vial
(2001: pp. 44) distingue trois paradigmes de l’évaluation :
- l’évaluation-mesure, reliée à des modèles historiques comme la docimologie (on mesure, on hiérarchise, on trie, on porte un jugement de valeur),
- l’évaluation-gestion, reliée à des modèles contemporains économiques (on maîtrise des situations, on atteint des objectifs, on résout des problèmes…) valorisant la pensée par objectifs ou la pensée systémique (de laquelle relèvent l’évaluation de tâches ou l’évaluation formatrice, quelquefois « dialogue informatif » déguisé), et
- l’évaluation-problématique, paradigme actuellement en développement et qui questionne le sens de l’action (ce qui est bien le cas quand on s’interroge sur le phénomène de la Testeritis).
Chez
l’évaluateur non formé, ces modèles se chevauchent les uns les autres.
L’idéal
d’objectivité qui se dégage des entretiens de groupe que nous avons menés est
pour Bonniol & Vial (1997: 83) une caractéristique de l'évaluateur
« entravé par le désir irrépressible d'être juste » relevant du
modèle de l’évaluation-mesure. Nous sommes « conscients de la gravité de
[notre] acte », nous voulons nous départir de notre part de subjectivité
en nous reposant sur l’évaluation critériée. Pour
cela, nous faisons appel à des « procédures toujours trop
compliquées » et (re)devenons « métrologue » afin d’attribuer la
« vraie note ».
Pour
Tagliante (2005: 11-12), cette « vraie note » est un mythe et si
l'utilisation de tests calibrés peut en effet réduire l’écart de notation entre
plusieurs évaluateurs, une évaluation objective reste impossible, la notation
ne pouvant être « qu’une estimation donnée à une performance ».
Les
auteurs du CECR soulignent, eux aussi, la complexité de la question de la
subjectivité / objectivité dans le chapitre IX dédié à l’évaluation
(2001 : 142-143). Les questionnaires à choix multiples eux-mêmes ne
sauraient être totalement objectifs, et on peut, au mieux, parler d’une «
correction objectivée ». Dans le cas de productions orales ou écrites, toute
évaluation a sa part de subjectivité, l’expérience y étant combinée à la prise
en compte de « facteurs pertinents » et à celle d’instructions ou de
critères. Cette part de subjectivité ne constitue pas forcément un obstacle à
une évaluation "juste" :
« L’avantage
d’une approche subjective repose sur le fait que la langue et la communication
sont extrêmement complexes, se prêtent mal à l’atomisation et sont toujours
plus que la simple somme de leurs constituants » (Conseil de l’Europe 2001:
142).
Le
CECR préconise dès lors une démarche relevant à la fois d’un travail
d’objectivation (à l’aide de critères, de procédures normées…) et d’un travail
de négociation entre enseignants-évaluateurs (discussion en commun de
productions orales, doubles corrections, stages de formation…).
6 Conclusion
Le stage d’habilitation des correcteurs-examinateurs du DELF /
DALF applique les recommandations préconisées par le CECR. Pourtant, on
constate que dans sa mise en place, et malgré les objectifs visant
l’appropriation du cadre européen commun de référence en tant que ressource pour l’évaluation, une tendance à positionner
le format des examens du DELF et du DALF en tant que référence unique et
objective est forte, voire flagrante chez les participantes. Certes, cette tendance est aussi due à des
impératifs professionnels et à des éléments purement organisationnels (comme
la durée impartie à la formation ou le nombre de participants). Néanmoins, la
part donnée à l’explicitation des modèles de l’évaluation sur lesquels le DELF / DALF repose nous paraît insuffisante pour amener
les collègues enseignants, au-delà de l’acquisition de techniques, à développer une attitude réflexive
sur leurs pratiques professionnelles.
Au
niveau des représentations de l’évaluateur, le stage d’habilitation permet en
revanche de remettre en question des routines reposant uniquement sur l’expérience,
et d’initier un changement qui nous semble aller dans le sens du CECR. Si tant
est que la quête de l’objectivité de l’évaluateur ne débouche pas, elle aussi,
dans un mouvement paradoxal, à lui attribuer un pouvoir « divin ».
Bibliographie
Bohnsack, Ralf (2003). Gruppendiskussion. In: Flick,
Uwe / Kardorff von, Ernst / Steinke, Ines (Hrsg.). Qualitative Forschung: Ein Handbuch. Reinbek bei Hamburg: Rowohlt
Taschenbuch Verlag, 2. Ausgabe, 369-384.
Bonniol, Jean-Jacques / Vial,
Michel (1997). Les modèles de
l’évaluation: textes fondateurs avec commentaires. Paris, Bruxelles:
DeBoeck Université (Pédagogie).
Boutin, Gérald (2007). L’entretien de groupe en recherche et
formation. Montréal: Editions nouvelles.
Centre international d’études
pédagogiques (n.d.). Formation et habilitation des correcteurs et
examinateurs aux épreuves du DELF et du DALF (réservé aux formations agréées
par la Commission nationale) 1. Activités
de formation [1 cédérom]. Sèvres: CIEP (Commission nationale DELF
DALF).
Conseil de l’Europe (2001). Cadre européen commun de référence pour les
langues: apprendre, enseigner, évaluer. Paris: Didier.
Rosen, Evelyne (2007). Le point sur le Cadre européen commun de
référence pour les langues. Paris:
Clé International (Didactique des langues étrangères).
Staatsinstitut für Schulqualität und Bildungsforschung
München (2010). DELF B1 an der
bayerischen Realschule: Hinweise zu Aufbau und Korrektur der Aufgaben. Retrieved December 29, 2011 from
the World Wide Web: http://www.isb.bayern.de/isb/index.asp?MNav=5&QNav=5&TNav=1&INav=0&Pub=1395.
Tagliante, Christine (2005). L’évaluation et le Cadre européen commun. Paris: Clé international (Techniques et pratiques de classe).
Vial, Michel (2001). Se former pour évaluer: se donner une
problématique et élaborer des concepts. Bruxelles: DeBoeck Université (Pédagogies en
développement).
Voss,
Bernd (2011). Podiumsdiskussion: Das Pferd vom Schwanz her aufzäumen –
Testeritis als 11. Plage des Fremdsprachenunterrichts? Beitrag zu dem Bremer
Symposion 2011 Autonomie und Assessment, Universität Bremen, 04. März
2011.
[1] Nous renvoyons au site du CIEP pour une description détaillée des épreuves
du DELF et du DALF (http://www.ciep.fr/delfdalf/; 22.09.2012).
[2] La durée de cette formation habilitante est ramenée à 16 heures dans
certains pays, dont l'Allemagne : on considère en effet que les
enseignants de langue de ces pays ont déjà certains acquis concernant le CECR.
[3] Les éléments en italique et entre guillemets français citent mot pour mot
les participantes aux entretiens de groupe