Luận văn thạc sĩ VNU ULIS étude des tests utilisés pour évaluer des aprentissages des élèves de FLE au lycée à option de vinh phuc luận văn ths ngôn ngữ học 60 14 10

CADRE THÉORIQUE

L’évaluation

L‟évaluation est une préoccupation majeure de la didactique des langues L‟évaluation n‟est pas une fin en soi uniquement ponctuée par des notes au bulletin scolaire Elle doit être intégrée à toute démarche d‟enseignement Elle doit fournir des informations rigoureuses et précises tant sur la progression des apprentissages des élèves que sur le degrộ de maợtrise des objectifs visộs par le programme d‟ộtude

Pour parler d‟évaluation, il faudrait tout d‟abord comprendre ce que signifie le terme “ évaluation” Dans les énoncés définitionnels courants, comme dans les définitions des dictionnaires spécialisés, le verbe “ évaluer” est défini par des verbes comme

“apprécier”, “ constater”, “estimer”, “juger”, “mesurer”, “examiner”, “comparer”,…À chaque période différente, il y a diverses définitions de l‟évaluation

D‟aprốs Stufflebeam, [1980 :13], l‟ộvaluation est perỗue comme un processus visant à ô dộterminer dans quelle mesure les objectifs d’ộducation sont en voie d’ờtre atteints par le programme d’ộtudes et de cours ằ Autrement dit, l‟ộvaluation est l‟opération par laquelle on détermine la congruence entre la performance acquise par les apprenants et les objectifs d‟un programme d‟études Cette définition a le mérite d‟attirer l‟attention sur la nécessité de posséder un référentiel (détermination des objectifs) et de s‟intéresser au processus (par exemple, procédés éducatifs) autant qu‟aux produits (performances des étudiants)

Une autre dộfinition a proposộ par Lusier ô L’ộvaluation est reconnue comme un processus continu du cycle d’enseignement Les outils préconisent l’observation des élèves lors des activités en salle de classe L’utilisation de la grille d’observation, comme instrument de mesure criteria, est un moyen priviliegé de receuillir des informations sur les habiletộs et les attitudes de chacun des ộlốves ằ (1991, p 78)

Pour Ketele (1987 : 72), ô ẫvaluer signifie examiner le degrộ d’adộquation entre un ensemble d’informations et un ensemble de critères adéquats à l’objectif fixé, en vue de prendre une dộcision ằ Selon lui, ộvaluer veut dire mesurer avec exactitude l‟atteint de l‟objectif qu‟on s‟est fixé à l‟avance

Selon Weiss (1972), l'évaluation peut être définie comme la cueillette systématique de l'information pour prendre des décisions La probabilité de prendre la bonne décision dans n'importe quelle situation est fonction non seulement de la personne qui décide mais aussi de la qualité de l'information à partir de laquelle la décision est prise Toutes choses étant égales, plus l'information est fiable et pertinente, meilleure est la probabilité de prendre la juste décision Ainsi, l'évaluation ne suppose pas nécessairement le testing De même, les tests en soi ne sont pas évaluatifs Les tests sont souvent utilisés à des fins pédagogiques, ou bien comme moyen pour motiver les apprenants à étudier, ou comme moyen pour revoir la matière enseignée Les tests peuvent aussi être utilisés simplement à des fins descriptives C'est seulement lorsque les tests sont utilisés comme base pour prendre une décision que l'on parle de l'évaluation Évaluer veut dire mesurer avec exactitude la réalisation de l‟objectif que l‟on s‟est fixé à l‟avance L‟évaluation porte jugement sur un objet (individu ou action) à partir d‟indicateurs, à l‟aide d‟outils produisant de l‟information, en fonction d‟objectifs de formation et de critères Elle implique différents acteurs, elle assure diverses fonctions Évaluer, c‟est exprimer le degré d‟adéquation entre un ensemble d‟informations et un ensemble de critères adéquats à l‟objectifs fixés, pour prendre une décision

L‟évaluation peut avoir comme caractère dominant le souci de motiver ou de stimuler les apprenants, ou encore de donner l‟impression que certains aspects de la formation sont grandement valorisés (Scallon, 2000)

Qu‟est-que l‟évaluation en langue ? L‟évaluation en langue, c'est l'évaluation de la connaissance pour poser des jugements

La langue, autrefois, coresspondait à un répertoire d‟items lexicaux et grammaticaux isolés La langue, aujourd‟hui, suppose une utilisation de la langue dans un cadre communicatif et cette utilisation est liée à un discours et se réalise dans le contexte d‟un discours socioculturel précis

L‟évaluation des apprentissages du FLE fait partie intégrante de l‟enseignement général et de l‟enseignement de cette langue en particulier Cette évaluation est un processus continu ó il importe, à divers moments de l‟enseignement, d‟évaluer à quel degré les apprentissages se réalisent et de déceler la réussite ou/ et l‟échec des élèves avant d‟en arriver à relever une conclusion de maitrise ou de non maitrise au terme des apprentissages L‟évaluation doit être le reflet de ses apprentissages scolaires D‟ailleurs, l‟évaluation de la langue comme outil de communication s‟est developpée à partir d‟un déplacement de la théorie de l‟enseignement des langues et de la méthodologie, d‟une centralisation sur la structure vers une accentuation de l‟importance du discours, de la langue telle qu‟elle est utilisée

L‟évaluer est aussi un moyen pour motiver les élèves à étudier et à revoir la matière enseignée Pour tout processus d‟enseignement, ce composant a toujours une relation réciproquement liée à d‟autres composants, tels que : normes, objectifs, manuels scolaires, méthodes d‟enseignement, organisation des activités d‟enseignement-apprentissage

On peut donc constater de ce qui précède que le terme d‟évaluation recouvre des conceptions et des réalités différentes selon les auteurs et selon les cas A notre avis, chaque auteur a sa raison et sa définition de l‟évaluation partant de son orientation de recherche

En ce qui concerne l‟évaluation, il ne faut pas oublier qu‟elle n'est pas une fin en soi Elle marque les étapes de la progression : on fait un bilan des acquis, de ce qu‟il faut reprendre (remédiation), de ce qu‟il reste à faire pour atteindre les objectifs fixés au départ

L‟évaluation renseigne l'enseignant et l‟apprenant sur la progression de ce dernier ; pour ce faire, elle porte sur les points annoncộs et entraợnộs en classe de FLE En effet, elle aide l'enseignant à adapter sa progression et à organiser la remédiation A cet effet, il doit toujours s'intéresser à la démarche utilisée par l'apprenant pour accomplir la tâche demandée La prise de conscience par l'élève de ses progrès et de ses difficultés passe aussi par la capacité à s'auto-évaluer On peut même inviter l‟apprenant à devenir acteur de l‟évaluation prévue en lui demandant quelles formes elle pourra prendre au regard des entraợnements prộcộdents rộalisộs en classe On peut utiliser pour l‟auto-ộvaluation le portfolio des langues qui permet de faire le point sur les différentes compétences en cours d‟acquisition A cet égard, Lussier (1991, p 24) a souligné : "On évalue toujours en fonction d'une intention, c'est-à-dire du type d'information dont on a besoin pour porter des jugements judicieux et prendre des décisions adéquates"

Un enseignant peut avoir trois raisons principales d‟évaluer les élèves : a) pour porter un pronostic

Exemple : L‟élève a-t-il les connaissances nécessaires pour aborder tel ou tel cours ? L‟élève a-t-il les aptitudes requises pour suivre telle ou telle formation ? b) pour contrôler une donnée

Exemple : L‟ộlốve a-t-il fait des progrốs depuis telle date ? L‟ộlốve connaợt-il telle une définition ? L‟élève comprend-il ce que je dis ? c) pour porter un diagnostic

Exemple : D‟ó vient la difficulté de tel élève dans telle matière ?

Les outils nécéssaires pour ces trois types d‟évaluation peuvent être dans certains cas les mêmes, mais les objectifs d‟évaluation, on le voit, sont bien différents

1.2 Quand évaluer ? À quel moment l‟ộvaluation se fait-elle ? ô On ộvalue à dirvers moments de la dộmarche d’enseignement/apprentissage pour répondre à des buts différents, chaque moment sa raison d’ờtre ằ (Lussier, 1992, pp 21-22)

Avant l‟apprentissage, on vérifie quels sont les acquis des élèves (des savoirs et des savoir-faire) relativement à ceux que l‟on se propose de présenter dans la nouvelle séquence d‟apprentissage Cette étape est nécessaire si on veut s‟assurer de la pertinence de la planification de l‟enseignement

Pendant le déroulement de l‟apprentissage, on vise à suivre la progression de l‟apprentissage, à déceler les points forts et les points faibles des apprenants, à identifier leurs difficultés et à apporter les correctifs qui s‟imposent

Les types d’évaluation

Tout enseignant doit remplir deux grands rôles sociaux : celui de pédagogue quand il facilite les apprentissages et celui de sélectionneur quand il attribue des notes et passer des examens (Nguyen, 2008) À chacun de ces rôles sociaux correspond un type d'évaluation

Puisqu'on évalue toujours pour prendre une décision, c'est la nature de la décision à prendre qui permet de distinguer deux types d'évaluation : l'évaluation sommative et l'évaluation formative

C'est l'"évaluation ayant pour but de sanctionner (positivement ou négativement) une activité d'apprentissage, afin de comptabiliser ce résultat en vue d'un classemment ou d'une sélection." (Raynal et Rieunier, 2005 : 133)

C'est l'évaluation par laquelle tous les enseignants attribuent des notes et font des sommes (d'ó le nom de sommative) et des moyennes, afin de certifier qu'un apprenant est bien compétent dans telle ou telle discipline ou telle ou telle matière Il s'agit enfin de l'évaluation qui permet, par contrôle continu, par examen, ou par système mixte, de certifier une compétence, d'attribuer des diplômes (Nguyen, 2007)

C'est l'évaluation par laquelle on fait un inventaire des compétences acquises, ou un bilan, après une séquence de formation d'une durée plus ou moins longue L'évaluation sommative met l'accent sur les performances (les productions réalisées) évaluées en fonction des critères de réussite Elle rélève davantage du contrôle que de la régulation, sans l'exclure pour autant (Hadji, 1990)

Elle permet de fournir un bilan du niveau ou des acquisitions des apprenants et de prendre des décisions à la fin d'un enseignement ou d‟un apprentissage Elle permet de situer les apprenants les uns par rapport aux autres, donc de différencier, éventuellement de les classer et de délivrer le quitus attaché à la réussite scolaire en fin d‟année L‟évaluation sommative:

- a pour objectif principal la sanction d‟un travail inscrit dans une progression voulue;

- revêt le caractère d‟un bilan (ex : bilan d‟acquisition au terme d‟un trimestre d‟une année);

- intervient après un ensemble de tâches d‟apprentissage constituant un tout;

- permet la communication à d‟autres (parents, institutions );

- peut permettre de prendre une décision (ex : passer dans une classe supérieure, interrogations, examens pouvant aboutir à un classement, un diplôme );

- les résultats sont caractérisés par une somme de notes et on établit des moyennes

Cette évaluation qui a davantage pour rôle de constater l‟insuccès plutôt que de promouvoir le succès scolaire pourrait se résumer en trois mots : notation, sélection, classement

Cependant, on a tendance aujourd‟hui, surtout en Europe, à utiliser le terme ô ộvaluation certificative ằ à la place de ô ộvaluation sommative ằ Selon Weiss (1977), l‟ộvaluation ô certificatrice ằ devrait se rapporter à la fin d‟un apprentissage Pour Scallon

(2000), il est clair que l‟attestation d‟une compétence, au terme d‟un processus de formation ou d‟apprentissage, ne peut en aucun cas, être réalisée au moyen d‟une somme arithmétique de composantes que l‟on aura traitées isolément Tourneur (1985) distingue deux types d‟évaluation certificative : l‟évaluation certificative externe et l‟évaluation certificative interne ; le premier pour les compétences professionnelles et la seconde pour les compétences nécessaires à la poursuite des études

C'est l‟évaluation ayant pour but d'informer l'apprenant, puis l'enseignant, du degré d'atteinte des objectifs C'est l'évaluation ne doit jamais donner lieu à l'attribution d'une note sur 20, ou à quelque sanction que ce soit." (Raynal et Rieunier, 2005 : 134)

C'est l'évaluation dont l'ambition est de contribuer à la formation Elle privilégie la régulation en cours de formation Elle tente de fournir à l'apprenant des informations pertinentes pour qu'il régule ses apprentissages En effet, elle permet à l'apprenant de prendre conscience de ses difficultés, de ses erreurs, de ses hésitations, de ses progrès et de ses réussites L'évaluation formative est un allié puissant vers l'autonomie, car elle stimule la prise de conscience et l'analyse de ses actions (Raynal et Rieunier, 2005)

D'autre part, elle renvoie à l'enseignant un feed back sur son action qui lui permet d'adapter son dispositif d'enseignement En effet, l'évaluation formative, grâce au retour d'information permanent pour la correction des conduites, permet de restaurer la confiance et l'intérêt dans la relation éducative Elle impose alors à l'enseignant de revenir à des conduites d'aide et de facilitation, et en éliminant le stress de la mauvaise note (Raynal et Rieunier, 2005) L'évaluation formative met l'accent davantage sur les processus évalués à travers les critères de réalisation (Hadji, 1990)

Ce type d‟évaluation intervient en cours d‟enseignement ou d‟apprentissage Elle permet de vérifier la progresssion d‟un élève vers un objectif pédagogique préalablement défini Elle permet par ailleurs d‟aider la personne en formation à savoir ce qu‟elle sait, à déterminer ce qu‟il faut apprendre Elle fait partie intégrante du processus éducatif et permet à l‟enseignant de réguler son acte d‟enseignement Les erreurs sont à considérer comme des moments de l‟apprentissage

L‟évaluation formative a pour fonction exclusive la régulation des apprentissages pendant le déroulement même d‟un programme d‟études, d‟un cours ou d‟une séquence d‟apprentissages L‟action de réguler, au sens strict de ce terme, selon (Scallon, 2000), associée à l‟évaluation formative, signifie que toute difficulté est immédiatement traitée

Plus précisément, on doit soit modifier le parcours ou le rythme de croisière de chaque apprenanant, soit le contexte pédagogique lui-même que l‟on ajuste, au bénéfice de tous les apprenants La fonction de régulation et le moment d‟évaluation formative sont deux indixes clộs pour reconnaợtre les actions d‟ộvaluation formative Cette fonction de régulation permet de bien la distinguer des autres types d‟évaluation

Elle part du principe qu‟il est plus facile de corriger les erreurs de séquences brèves que les erreurs accumulées à la fin d‟une longue période de travail En cas d‟erreur, la séquence en question est reprise autrement, l‟essentiel étant de ne pas passer à l‟étape suivante avec des lacunes dans l‟apprentissage de l‟étape antérieure Le but de l‟évaluation formative est de permettre d‟estimer les progrès individuels par rapport à l‟objectif visé, faciliter la mise au point de remédiations permettant aux élèves de progresser, et cela en les faisant participer à leur propre évaluation Elle permet de situer l'élève au cours d'un apprentissage L'enseignant s'attache à reconnaỵtre ó et en quoi l'élève a des difficultés et à lui donner des points d'appui, des repères, des tremplins pour progresser

Elle est une démarche orientée vers une aide pédagogique immédiate auprès de l‟élève Elle a pour but d‟informer l‟élève et le professeur sur le degré d‟atteinte de chacun des objectifs d‟apprentissage ainsi que sur la démarche d‟apprentissage

L‟évaluation de ce type peut survenir soit avant que les apprenants entreprennent un programme d‟études, un cours ou une séquence d‟apprentissages, soit pendant le déroulement même de ce programme, de ce cours ou de cette séquence d‟apprentissages

Le quand d‟ộvaluation n‟est pas donc essentiel pour reconnaợtre l‟ộvaluation diagnostique

Choisir et construire un instrument de mesure

ô À la fin d‟un cours, d‟une estape d‟apprentissage, l‟ộlốve doit montrer à l‟enseignant qu‟il a acquis les compétences désirées ou qu‟il a atteint les objectifs poursuivis

L‟enseignant, pour sa part, doit observer cette démonstration, sans quoi il est impossible de décider de la note à attribuer Sur quoi cette note est-elle bassée ? quel contenu doit être considéréé ? Quelle performance permet à l‟élève de manifester sa compé tence, et selon quels critères sera-t-il jugé? ằ (Morisette,1996 p 6)

La détermination des objectifs d‟apprentissage ou de formation est donc déterminante pour l‟action de formation en général et pour les apprentissages en particulier C‟est en fonction des objectifs que seront déterminés les contenus de l‟enseignement, les démarches pédagogiques et les moyens utilisé s Une évaluation n‟est pertinente qu‟en se fondant sur ces objectifs

L‟évaluation est définie comme la mesure de l‟atteinte des objectifs L‟action pédagogique suppose une orientation, des méthodes d‟acquisition et une évaluation de ce qui a éte acquis Cette dernière étape est donc étroitement liée aux deux précédentes Si l‟évaluation pose des problèmes, c‟est elle porte sur de nombreuses variable : la valeur des apprenants dont il s‟agit de faire cet etat, celle de l‟enseignant et de ses méthodes ainsi que la pertinence des objectifs qu‟il fait atteindre figurent également dans le résultat de l‟ộvaluation ô L‟amộlioration profonde de l‟ộvaluation passe par celle des objectifs, car si l‟on ne sait pas ó l‟on va, il est difficile de savoir comment s‟y rendre et surtout de savoir s‟il reste beaucoup de chemin à parcourir ằ (Abernot, 1996, p 62) La pộdagogie par objectifs est nộe aux ẫtats-Unis, plus prộcisement, de la ô pộdagogie de maitrise ằ de Bloom qui s‟appuie sur une dynamique de réussite : avant de commencer un programme d‟enseignement, on précise aux apprenants les objectif principaux et les unités d‟apprentissage correspondantes sont décrites Des critères de maitrise sont définis et des épreuves diagnostiques construites L‟unité d‟apprentissage suivante ne peut être abordée tant que la maitrise de la précédente n‟est pas atteinte C‟est grâce à l‟évaluation formative l‟apprenant est informé régulièrement de son état d‟avancemant vers le but ou les objectifs fixés

La notion de point d‟arrivée est à définir plus précisement, car des connaissances, des compétences à faire acquérir et les mises en oeuvre ne sont pas du même ordre Les divers types de visées se regroupent en trois catégories : les fins de l‟éducation, les objectifs généraux et les objectifs opérationnels

Les fins déterminent les grandes orientations de l‟éducation.Elles ont une valeur philosophique et sociale et renvoie à des options politiques Il s‟agit des affirmations de principes à travers lesquels un groupe social définie et exprime ses valeurs Les fins de l‟éducation déterminent les réformes, et en particulier les programmes de formation

Les objectifs généraux sont d‟une portée plus restreinte et se définissent en termes de capacités Il s‟agit des énoncés décrivant en termes de capacités de l‟apprenant l‟un des ré sultats attendus d‟une séquence d‟apprentissage Il est important de les regrouper en catégories, car une compétence n‟est jamais purement cognitive, socio-affective ou psycho-motrice, mais une synthèse des trois Il s‟agit des trois objectifs les plus souvent retenus, à savoir : les objectifs cognitifs, les objectifs socio-affectifs et les objectifs psycho- moteurs

Les objectifs opérationnels constituent très précisément ce sur quoi nous faisons porter notre enseignement Ils sont exprimés en termes concrets et très précis Il s‟agit des énoncés issus de la démultiplication d‟un objectif général, décrivant les compétences qui composent cette capacité Savoir compter est une fin, savoir additionner est un objectif général, mais savoir faire la somme de deux entiers naturels, par écrit, seul, de manière à ce que le résultat soit exact huit fois sur dix, est un objectif opérationnel Selon Landsheere

(1979), la formulation complète d‟un objectif opérationnel comprend cinq indications suivantes :

Les objectifs généraux sont d‟une portée plus restreinte et se définissent en termes de capacités Il s‟agit des énoncés décrivant en termes de capacités de l‟apprenant l‟un des ré sultats attendus d‟une séquence d‟apprentissage Il est important de les regrouper en catégories, car une compétence n‟est jamais purement cognitive, socio-affective ou psycho-motrice, mais une synthèse des trois Il s‟agit des trois objectifs les plus souvent retenus, à savoir : les objectifs cognitifs, les objectifs socio-affectifs et les objectifs psycho- moteurs

- Qui produit le comportement souhaité ?

- Quel comportement observable démontrera que l‟objectif est atteint ?

- Quel sera le produit de ce comportement (performance) ?

- Dans quelles conditions le comportement aura-t-il lieu ?

- Quels critères serviront à déterminer si le produit est satisfaisant ? Selon Abernot (1976), les concepts de fins, objectifs généraux et objectifs opérationnels, ont des limites moins tranchées ; ils forment un continuum Les objectifs généraux les plus élevés sont très proches des fins les moins universelles ; les objectifs généraux les plus élé mentaires peuvent être directement mis sous formes opérationnelles

3.2 La taxonomie des objectifs pédagogiques de Bloom

Aujourd‟hui, en déterminant les niveaux d‟apprentissage, on fait référence souvent à la taxonomie crée par Bloom (1956) Il s‟agit d‟une taxonomie des objectifs pédagogiques qui organise le domaine cognitif en six grandes capacités : 1) Connaissance, 2) Compréhension, 3) Application, 4) Analyse, 5) Synthèse et 6) Évaluation

1) Connaissance : Il s‟agit du rappel de faits particuliers et généraux, des méthodes et des processus, des structures et des conventions Les apprentissages appartenant à cette catégorie font surtout appel à la mémoire

2) Compréhension : Il s‟agit d‟une habileté intellectuelle qui permet de traiter à sa facon ses connaissances acquises : les dire en d‟autres mots, les expliquer autrement, les illustrer d‟exemples, de figures de styles ou de symboles Le fond reste le même, mais la forme change L‟accent est mis sur la manière dont l‟individu est capable d‟organiser des matériaux pour obtenir un certain résultat, soit en découvrent un nouveau matériel, soit en utilisant un matériel déjà connu L‟apprenant peut situer ses connaissances dans des contextes inédits, en adoptant un autre point de vue ou un autre ordre de présentation, mais en respectant les données de départ ; il peut en augmenter la portée, les séquences,etc

3) Application : C‟est la capacité à utiliser des représentations abstraites et/ou général pour traiter des cas concrets et/ou particuliers L‟apprenant utilise des représentations abstraites dans des cas particuliers et concrets, qui peuvent prendre la forme soit d‟idées générales, de procédures ou de méthodes courantes, soit de principes, d‟idées et de théories dont l‟apprenant doit se souvenir et qu‟il doit pouvoir appliquer dans des situations plus ou moins nouvelles pour lui

4) Analyse : L‟analyse suppose la capacité de séparer un tout en ses parties constituantes de manière à percevoir la hiérarchie des idées ou les rapports entre les idées et à expliciter le tout lui-même On peut séparer un texte en différentes parties et en distinguer les différentes idées,etc ; on peut analyser un discours pour en dégager des éléments, des relations et des principes d‟organisation

5) Synthèse : La synthèse suppose la capacité de réunir ensemble plusieurs éléments sans relation entre eux auparavant, de manière à en faire un tout cohérent

L‟individu se sert d‟éléments pour forment un tout Cette opération consiste à disposer et à combiner des fragments de facon à former un plan ou une structure qui ne ressortait pas clairement auparavant On trouve dans cette catégorie la production d‟une oeuvre personelle, la mise au point un projet, l‟élaboration d‟un plan d‟action, la dérivation d‟un ensemble de relations abstraits,etc

Tests

Carroll (1968, p 46) a donné la définition suivante d'un test : "Un test en psychologie ou en ộducation est un procộdộ mis au point de faỗon à provoquer un certain comportement à partir duquel on peut faire des inférences au sujet de certaines caractéristiques d'une personne." 2

2 "A psychologycal or educational test is a procedure designed to elicit certain behavior from which one can make inferences about certain characterisitics or an individual."

Un test est aussi une situation standardisée permettant d'évaluer le comportement d'un individu en comparaison avec celui d'autres individus placés dans la même situation

(Mote et De Landsheere dans Beaudet et Monnerie-Goarin, 1993)

De ces dộfinitions, on peut dộduire que le test est un instrument de mesure conỗu pour susciter un échantillon du comportement d'un individu En tant que type de mesure, un test quantifie nécessairement des caractéristiques des individus en fonction de procédures explicites, ce qui distingue un test d'autres types de mesure en ce que le test est conỗu pour obtenir un ộchantillon particulier de comportement

Un test de langue est une procédure ou un outil utilisé pour mesurer et évaluer la connaissance de la langue d‟une personne, basée sur les définitions courantes de la langue

Un test est un échantillon de cette connaissance et il doit en constituer une bonne représentation Aujourd‟hui, un test tente donc de saisir l‟utilisation de la langue, l‟habileté à communiquer, un discours (et non pas des éléments isolés), la performance (et non pas seulement une connaissance théorique) d‟une langue réelle et authentique

Les tests de langues peuvent être considérés comme les meilleurs moyens d'assurer que l'échantillon de langue soit suffisant pour les fins de la mesure prévues, même si on est parfois intéressé par des habiletés générales ou globales Un test de langue est donc une procédure ou un outil utilisé pour mesurer et évaluer la connaissance de la langue d'une personne, basée sur les définitions courantes de la langue Un test est un échantillon de cette connaissance et il doit en constituer une bonne représentation Aujourd'hui, un test de langue tente donc de saisir l'utilisation de la langue, l'habileté à communiquer, un discours

(et non pas des éléments isolés), la performance (et non pas seulement une connaissance théorique) d'une langue réelle et authentique (Nguyen, 2007)

Pour savoir si c'est un bon test, il est nécessaire de distinguer le trait et la méthode

Le trait est la connaissance de la langue qui doit être saisie La méthode est la procédure utilisée pour saisir cette connaissance

Un bon test devrait être constitué d’un minimum de méthode et d’un maximum de trait Un mauvais test est celui qui donne plus de place à la méthode qu‟au trait parce qu‟en fait on est en train de mesurer davantage l‟habileté à faire des tests que la connaissance de la langue

Il existe de différents tests Chaque type de test a son propre objectif On mentionne souvent les six types de tests qui suivent :

L‟évaluation de la connaissance de la langue qu‟a une personne en relation avec l‟utilisation future qu‟elle en fera Elle ne dépend donc pas nécessairement de ce qui a ét é appris précédemment dans un cours donné Par exemple, si l‟on tente de savoir si une personne connait suffisamment une langue pour devenir journaliste Ceci correspond à l‟utilisation que fera cette personne de la langue dans l‟avenir et ne tient pas compte du programme de langue qu‟a suivi la personne examinée Le test de compétence a donc une valeur pronostique

2) Le test de rendement ou de contrôle

Ce type de test a pour objectif d‟évaluer la langue de la personne évalués en relation avec un programme d‟enseignement ou un matériel qui a fait l‟objet d‟un cours

Ce type de test consiste à mesurer des acquisitions Il a pour but d‟identifier les forces et les faiblesses, aussi ben que de tenter d‟expliquer pourquoi certains problèmes se posent, et quel traitement devrait être prescrit Le diagnostic peut être posé au regard de la compétence, du classement, du rendement ou de tout autre test

Le test de classement a pour but d‟évaluer la connaissance de la personne évaluée en relation avec le programme de différents niveaux de futurs cours de langue auxquels la personne évaluée compte s‟inscrire

Ce type de test a pour but d‟évaluer la connaissance de la langue en relation avec la langue nécessaire dans un prochain cours Il ne s‟agit pas nécessairement d‟un cours de langue Ceci devient le critère d‟acceptation

Le test de maitrise a pour but d‟évaluer la connaissance de la langue en relation avec des connaissances langagièré bien déinies, habituellement descrites sous formes d‟objectifs et dans l‟optique que les eleves maitrisent les objectifs

4.3 Les principales qualités d’un test

Il est généralement admis aujourd‟hui que les principaux critères d‟un instrument de mesure sont l‟objectivité, la fidélité et la validité

La subjectivité est concernée/ liée au jugement personnel Au niveau de la construction des items, il y a toujours subjectivité quelle que soit la procédure car c‟est le constructeur qui doit décider lui-même le choix des questions, la manière de les poser et de les présenter

Au niveau de la ré ponse par le candidat, la subjectivité existe aussi parce que ce dernier doit toujours manifester sa ré ponse personnelle Donc, à ces deux niveau d‟une épreuve d‟évaluation, la subjectivité est naturelle, inévitable parce qu‟elle est inhérente à la nature de ces deux tâches La notation est subjective quand l‟évaluateur doit décider lui - même de l‟adéquation de la réponse , objective quand la décision de la réponse adé quate a été prise d‟avance à l‟é tape de la construction des questions Dans ce cas , l‟examinateur note la réponse en fonction de la réponse modèle et d‟un bareme préétabli , l‟interprétation personnelle, c‟est-à-dire subjective, ne peut pas jouer La subjectivité, c‟est-à-dire le jugement personnel peut intervenir à toutes les étapes d‟une épreuve d‟évaluation

Au niveau de la construction des items, il y a toujours subjectivité quelle que soit la procédure, car c‟est le constructeur qui doit décider lui-même le choix des questions, la manière de les poser et de les présenter

Au niveau de la réponse par le candidat, la subjectivité existe aussi parce que le candidat doit toujours manifester sa réponse personnelle

Au niveau de la notation: la notation est subjective quand l‟examinateur doit décider lui-même de l‟adéquation de la réponse, objective quand la décision de la réponse adéquate a été prise d‟avance au niveau de la construction des questions Dans ce cas, l‟examinateur note la réponse en fonction de la réponse modèle

Pour obtenir l‟objectivité, il est nécessaire d‟utiliser les tests dits objectifs D‟après MOTHE, ces tests possèdent les caractéristiques suivantes:

Pour obtenir une notation objective, il faut supprimer tout jugement personnel à ce niveau Pour ce faire, deux conditions doivent être remplies:

- Il faut que la réponse puisse être considérée comme tout à fait correcte ou indiscutablement erronée et que la réponse correcte soit déterminée à l‟avance par le constructeur du test

- Il faut que la tâche à accomplir soit rigoureusement standardisée

- Une question est contraignante quand elle n‟exige que des réponses très brèves qui permettent l‟alternative simple (oui/ non; correct/ incorrect)

La Théorie classique de la mesure

Développée en grande partie grâce aux travaux en psychométrie dès la première moitié du 20e siècle, la théorie classique de la mesure s'est constituée comme un ensemble de principes et de méthodes ayant pour but d'assurer aux opérations de mesure les qualités métriques et technique indispensables Dans ce cadre, ont été élaborées les notions d‟objectivité, de validité et de fidélité (avec tous les aspects et les domaines que ces trois notions recouvrent) De nombreuses procédures et un vaste ensemble d'indices et de coefficients ont ainsi été mis au point, qui permettent d'évaluer différentes caractéristiques du dispositif utilisé

Sauf celles qui sont explicitement attribuées soit à la théorie de la généralisabilité, soit à la théorie des réponses aux items (deux approches chronologiquement plus récentes), les démarches et les méthodes présentées ici constituent en grande partie l'héritage de la théorie classique de la mesure Elles sont d'ailleurs encore très largement utilisées par les chercheurs et les évaluateurs en sciences humaines et sociales

7 La Théorie de la généralisabilité (GT)

La Théorie de la généralisabilité est un modèle statistique élaboré à partir du début des années 70, et considérablement enrichi par la suite, qui a pour but d'évaluer la fiabilité d'un dispositif d'évaluation ou de mesure Son objectif principal est de vérifier si (et jusqu'à quel point) les conclusions fournies par un dispositif particulier, dont les éléments (items, classes, moments, etc.) ont été sélectionnés aléatoirement dans des populations ou univers (ici population des items) de référence, peuvent être généralisées à l'ensemble de ces populations ou univers En d'autres termes, il s'agit de déterminer si les mesures obtenues à l'aide du dispositif sont plus ou moins affectées par le choix (aléatoire) de ses composantes (tel répertoire d'items plutôt que tel autre; tel échantillon d'élèves ou de classes plutôt que d'autres)

Dans le cas ó des influences "excessives" sont constatées, on considérera que la fiabilité des résultats est insatisfaisante, car on peut s'attendre à ce que le fait d'avoir recours à un dispositif différent (un autre répertoire d'items évaluant la même notion par exemple) conduise à des conclusions sensiblement différentes En revanche, si les résultats de la mesure ne semblent pas influencés de manière notable par les conditions spécifiques dans lesquelles ils ont été obtenus, on les jugera comme étant fiables et, de ce fait, on leur conférera un caractère général

Par rapport à la théorie classique de la mesure, la théorie de la généralisabilité apporte au moins deux contributions importantes et en un sens novatrices D'une part, elle élargit les champs d'application de la mesure, dépassant la conception psychométrique classique selon laquelle ce sont toujours des individus (des élèves, des enfants, des patients, ) qui font l'objet d'une telle opération Ce modèle permet en effet d'évaluer les caractộristiques de dispositifs conỗus pour "mesurer" (= diffộrencier) des entitộs autres que des personnes: par exemple des items, des classes, des moments d'apprentissage, des méthodes pédagogiques D'autre part, la théorie de la généralisabilité regroupe au sein d'un cadre conceptuel unifié et cohérent un ensemble d'approches que la théorie classique présentait de manière disparate et sans rapports évidents des unes avec les autres (stabilité, équivalence, consistance interne, validité, objectivité)

Du point de vue technique et mathématique, la théorie de la généralisabilité repose sur la méthode statistique d‟analyse de variance, qui permet d'opérer une décomposition de la variance (ou variabilité) observée en un certain nombre de sources susceptibles de l'"expliquer" Par ailleurs, ces sources de variation se voient conférer des statuts différents, selon qu'elles concernent la variance dite de différenciation ou la variance d‟instrumentation, oui classiquement variance d‟erreur La généralisabilité des conclusions auxquelles le dispositif permet d'aboutir dépend en effet de l'importance relative qu'assument ces deux types de variances Sur le plan technique, l'analyse conduit au calcul de coefficients (dit précisément coefficients de généralisabilité : r 2), que l'on obtient en établissant le rapport arithmétique entre la variance de différenciation et la variance totale (= variance de différenciation + variance d'instrumentation)

8 La Théorie des réponses aux items (TRI ou IRT)

Il s‟agit d‟un modèle statistique développé dans la deuxième moitié du 20e siècle qui permet notamment de faire face à des problèmes auxquels la théorie classique de la mesure n'apporte pas encore des réponses satisfaisantes Ainsi par exemple, l'évaluation des propriétés techniques d'un item (par le calcul de certains indices : indice de difficulté ou indice de discrimination fournit des résultats qui sont toujours relatifs à l'échantillon particulier d'individus auquel l'item a été administré (plus généralement, relatifs aux conditions dans lesquelles l'opération a été réalisée: moment, contexte, etc.) De ce fait, un item jugé facile ou difficile au sein d'un échantillon d'individus, peut ne plus l'être (ou ne plus l'être autant) s'il était appliqué à un échantillon différent

Par rapport à ce genre de situation, la théorie des réponses aux items (TRI ou IRT dans la littérature anglophone) s'efforce de produire une évaluation des propriétés de l'item qui soit indépendante d'un groupe particulier d'individus En d'autres termes, il s'agit de parvenir à l'élaboration d'instruments de mesure dont les caractéristiques ne soient pas excessivement influencées par tel ou tel autre groupe de référence: ce qui, d'une certaine maniốre, conduit à dộfinir des ộchelles qualifiộes parfois d'ô absolues ằ

Les premières tentatives visant à élaborer des échelles de ce genre remontent au début des années '50 (échelles de Guttman) A l'origine, elles reposaient sur un modèle (conceptuellement difficile à justifier) de nature entièrement déterministe, qui, par la suite, a été remplacé par des modèles beaucoup plus réalistes, de type probabiliste Ces modèles sont fondés sur le postulat que la réponse d'un individu à l'item (et notamment sa probabilité de fournir une réponse correcte) est déterminée - ou peut être expliquée - par deux sortes de facteurs:

- d'une part, certains attributs du sujet (sa compétence par exemple), qui, n'étant pas directement accessibles à l'observation et à la mesure, sont généralement qualifiés de traits latents;

- d'autre part, les propriétés de l'item lui-même, notamment, sa difficulté, son pouvoir de discrimination, sans oublier le rôle que la "chance" (réponses "au hasard") peut jouer dans certains cas

La réponse fournie à l'item est donc considérée comme une fonction des caractéristiques de l'individu et des caractéristiques de l'item On postule par ailleurs (du moins dans la plupart des applications) que tous les items appartenant à l'instrument utilisé (test, épreuve) permettent d'appréhender une même caractéristique sous-jacente, et que les réponses à ces items sont affectées d'une erreur de mesure aléatoire

Sur le plan technique et mathématique, la théorie des réponses aux items utilise des modèles à un, deux ou trois paramètres(s), qui établissent la relation fondamentale entre le trait latent de l'individu (son niveau de compétence par exemple) et la probabilité pour cet individu de réussir un item donné Cette relation est formalisée par une fonction (appelée fonction caractéristique de l'item), et peut être représentée géométriquement par une courbe (la courbe caractéristique de l'item)

Dans le cadre général qui vient d'être esquissé, l'objectif de la méthode est double, ces deux visées étant poursuivies simultanément Il s'agit, d'une part, d'estimer les propriétés métriques des items (calcul des paramètres dits de difficulté, de dicrimination et, éventuellement pseudo-chance) et, d'autre part, d'estimer le niveau de l'individu par rapport au trait latent considéré Par ailleurs, ces estimations sont supposées indépendantes des échantillons particuliers (d'individus d'une part et d'items de l'autre) à partir desquels l'étude est réalisée

L‟invariance des paramètres, une des principales caractéristiques des modèles émanant de la théorie des réponses aux items (TRI) (Weiss, 1985; Van de Vijver et Leung,

1997), représente une des justifications importantes de leur utilisation À l‟instar de la théorie classique, la TRI vise l‟estimation la plus juste et précise de l‟attribut mesuré à partir des réponses des sujets aux items, ainsi que l‟évaluation des qualités psychométriques des items (Bertrand et Blais, 2004) Selon cette théorie, la force d‟un trait latent, nommée aussi habileté chez un individu, prédit la réponse que celui-ci va fournir à un item (Lord, 1980; Hambelton et Swaminathan, 1985) En d‟autres termes, la TRI est basée sur un modèle mathématique qui estime la probabilité de produire une réponse spécifique à un item en fonction d‟un niveau d‟habileté donné d‟un individu (Bertrand et Blais, 2004) Ce niveau d‟habileté et la probabilité qui lui est associée sont obtenus à partir de la fonction de la réponse de l‟item

Selon Bertrand et Blais (2004), il est nécessaire d‟interpréter les caractéristiques d‟items à partir des représentations graphiques des courbes caractéristiques d‟items pour en tirer une interprétation adéquate Il s‟avère plutôt ardu d‟essayer d‟interpréter les résultats à partir des seules valeurs des trois paramètres

Conclusion du chapitre

Ce premier chapitre vise à clarifier les concepts majeurs de la recherche comme évaluation, test, mesure, fidélité, validité, indice de difficulté, indice de discrimination, etc et à mettre en lumière de différents aspects, plutôt théoriques concernant l‟évaluation tels que évaluation sommative, évaluation formative, évaluation critériée, évaluation normative, particulièrement les trois théories de la mesure : la théorie classique de la mesure, la théorie de la généralisabilité et la théorie des réponses aux items, etc L‟étude des tests utili -sés pour évaluer des apprentissages des élèves soit souvent considéré comme étant très nécessaire, notamment dans le contexte d‟évaluation scolaire dans les lycées à option De plus, d‟importantes lacunes d‟ordre méthodologique viennent limiter l‟utilité des résultats tirés des analyses des items qui ont été effectuées à ce sujet Le prochain chapitre vise à décrire la méthodologie mise en place pour permettre de répondre, de la manière la plus adéquate possible, aux questions de recherche.

MÉTHODOLOGIE DE LA RECHERCHE

L’échantillon

Nous avons choisi 11 tests de faỗon alộatoire pour ộvaluer les apprentissages des ộlốves et pour prộparer ces derniers aux Olympiades annuelles de franỗais au Lycộe à option de Vinh Phuc Il s‟agit des deux types de tests : les tests aux items à correction objective et les tests comportant à la fois tous les deux types d‟items (items à correction objectives et items à correction subjective), appelés les tests aux items mixtes

1.1 Les tests aux items objectifs

Ce premier groupe de comporte 6 tests aux items objectifs, c‟est-à-dire que chaque test se compose d‟un ensemble des items qui sont tous les items à correction objective, soit les items objectifs Le nombre total des items des tests aux items objectifs est de 390 Le

Tableau 1 à la page suivante présente la structure, les caractéristiques et le nombre d‟items de chaque test

Le Test 1 comporte trois sous-tests Il s‟agit d‟un sous test de compréhension écrite, d‟un sous test de grammaire et d‟un sous test de vocabulaire Le nombre des items des tests ainsi que des sous-test n‟est pas le même L‟ensemble du test se compose de 80 items répartis dans les trois sous-tests Plus concrètement, le sous-test de CE comporte 5 items, le sous-test de grammaire, 66 items et le sous-test de vocabulaire, 9 items

De même, le Test 2 se compose de trois sous-tests avec 80 items : un sous-test de

CE comprenant 8 items, un sous-test de grammaire avec 62 items et un sous-test de vocabulaire avec 10 items

Tout comme les deux premiers tests, le Test 3 comporte aussi trois sous-tests composés de 80 items Le sous-test de CE comprend 20 items, le sous-test de grammaire,

45 items et le sous-test de vocabulaire, 15 items

Les trois derniers tests aux items objectifs, comme les trois premiers, portent aussi sur la compétence de compréhension écrite et les connaissances linguistiques (grammaire et vocabulaire) et comportent chacun 50 items

Dans le Test 4, 16 items portant sur la CE, 30 items sur les connaissances grammaticales et 9 items sur les connaissances lexicales

Contrairement au Test 4, les items des sous-tests du Test 5 sont répartis plus ou moins différemment Le sous-test de CE et celui de vocabulaire se composent également

10 items Les 30 items qui restent portent sur la grammaire

Tableau 1 La structure des tests aux items objectifs

Test Sous-test Nombre d’items

QRC QCM QRéa QApp QVF

Concernant le dernier test, le Test 6, les 50 items sont répartis comme suit : 15 items destinés à l‟évaluation de la compétence de CE, 28 items à celle des connaissances grammaticales et 7 items à celle des connaiccances lexicales

1.2 Les tests aux items mixtes

Comme l‟indique son nom, chaque test comporte deux types d‟items différents : item à correction objective ou item objectif et item à correction subjective ou item subjectif Les tests aux items mixtes sont au nombre de 5 et se composent de 710 items au total Ces 710 items sont rộpartis de faỗon difộrente en terme de quantitộ dans les tests et leurs sous-tests À la différence des tests aux items objectifs, certains tests aux items mixtes portent la compétence de production écrite outre la compétence de compréhension écrite et des connaissances linguistiques La structure, le nombre des items, les caractéristiques des tests ainsi que les items sont présentés dans le Tableau 2 ci-dessous

Tableau 2 La structure des tests aux items mixtes

Test Sous-test Nombre d’items

Types d’items Item objectif Item subjectif

QRC QCM QRéa QApp QVF QROC QROL

Le Test 7 ne se compose que de deux sous-tests : un sous test de compréhension écrite et un sous test de grammaire L‟ensemble du test comprend 80 items et répartis dans ces deux sous-tests Le sous-test de CE comporte 20 items, le sous-test de grammaire, 66 items Les 20 items du sous-test de CE sont les questions à réponse ouverte courte (QROC) Les 60 items du sous-test de grammaire sont les questions à réponse courte, parfois appelées questions à réponse fermée courte, (QRC)

Le Test 8, à la différence du Test 7 et des tests aux items objectifs, comporte 4 sous-tests destinés à l‟évaluation de deux compétence communicatives (CE et EE) et des connaissances linguistiques (grammaire et vocabulaire) Le sous-test de compétence de CE comporte 10 items objectifs de type QCM, celui de la compétence de EE, 20 items dont 10 items objectifs de type QRéa et 10 items subjectif de type QROC, le sous-test de grammaire, 120 items dont 105 QRC et 15 QROC et celui de vocabulaire, 20 items dont 5 QRC, 10 Qapp et 5 QROC

Le Test 9, tout comme le Test 7, comporte seulement 2 sous-tests : un test de compréhension écrite et un test de grammaire L‟ensemble du test se compose de 80 items et répartis dans ces deux sous-tests Le sous-test de CE comporte 10 items qui sont tous objectifs de type QCM, le sous-test de grammaire, 70 items dont 35 QRC, 25 ACM et 10 QROC

Le Test 10, qui ne ressemble pas bien aux autres précédents, comporte 2 sous-tests , mais porte seulement sur l‟évaluation des connaissances linguistiques (grammaire et vocabulaire) De plus, il comprend jusqu‟à 180 items Le sous-test de grammaire est composé de 117 items dont 72 QRC et 45 QROC et le test de vocabulaire, 63 items dont

Le Test 11, tout comme Test 8, comporte 4 sous-tests qui sont destinés à l‟évaluation de deux compétences communicatives (CE et EE) et des connaissances linguistiques (grammaire et vocabulaire) Il comporte le plus d‟items parmi tous les tests à analyser Le sous-test de CE comporte 20 items dont 10 QRC et 10 QCM Le sous-test de compétence de EE est composé de 35 items qui sont tous les QCM Le sous-test de grammaire est composé de 120 items dont 102 QRC et 10 QCM et 18 QROC Enfin, le sous-test de vocabulaire comprend 15 items dont 5 QRC et 10 QCM.

La vérification de la validité de l’ensemble du test ou du questionnaire

D'une faỗon gộnộrale, trois statistiques mộritent l'attention : la moyenne, l'ộcart type et le coefficient de fidélité

La moyenne est un indice statistique s'appliquant à des variables quantitatives qui décrivent la tendance centrale d'une distribution de résultats et sa position sur une échelle de mesure (indice dit de tendance centrale ou de position) Dans les situations usuelles d'évaluation ou de recherche on calcule souvent deux sortes de moyenne: soit la moyenne des résultats obtenus par un ensemble d'individus dans une même situation (à une même épreuve de connaissance par exemple), soit la moyenne des résultats obtenus par un même individu dans des situations différentes (à différents items d'une même épreuve ou à différentes épreuves évaluant un même domaine de compétence)

L'importance particulière de cet indice réside non seulement dans le fait qu'il résume une caractéristique importante d'une distribution de résultats (sa tendance centrale ou sa position précisément), mais également parce qu'il permet de procéder à des comparaisons de groupes De ce point de vue, on dira que la moyenne est la mesure caractéristique d'un groupe (d'un ensemble de résultats individuels) de la même manière que le score est la mesure caractéristique d'un individu: elle exprime en effet le niveau atteint par ce groupe (une classe, l'ensemble des filles de 4 e année, une cohorte d'élèves) tout comme le score exprime le niveau atteint par un individu particulier

La moyenne d'une distribution se calcule en appliquant la formule suivante (ó xi est le score de l'individu générique i et n le nombre total d'individus):

En ce qui concerne l‟interprétation de la moyenne, elle se fait en tenant compte du contexte de l'évaluation (sommative, formative, critérielle ou normative) si la moyenne se situe au-delà ou en deỗà de ses prộvisions Un ộcart trop grand amốne l'enseignant à examiner plus attentivement les diverses parties de son examen afin de trouver la source de cet écart et d'apporter des correctifs Selon Morissette (1996), pour une évaluation sommative avec interprétation critérielle et normative et note de passage de 60%, la moyenne devrait se situer entre 65% et 75%, note de passage de 50%, la moyenne devrait se situer entre 60% et 70% En d‟atres termes, pour assurer de la validé de l‟ensemble des items du test, la moyenne acceptable doit se situer entre 0,60% et 0,70% si la note de passage est fixée à 50% et entre 65% et 75% si le seuil de passage est fixé à 60% Dans le cadre de cette étude, nous avons choisi et considéré la moyenne entre 60% et 70% comme étant acceptable

Pour l‟écart-type, plus la différence entre les résultats les plus élevés et les résultats les plus moins élevés est faible, (c‟est-à-dire que l'écart type est petit), plus il est difficile de distinguer les élèves forts et les élèves faibles En situation d'évaluation normative, les décisions risquent d'être peu sûres Par contre, en situation d'évaluation formative, une faible variabilitộ des rộsutats montre que les objectifs sont atteints de faỗon comparable par tous les élèves Dans le cadre de notre étude, nous nous intéressons surtout à la capacité de distinguer les élèves les plus forts et les plus faibles de notre instrument de mesure Ainsi, l‟écart-type plus grand est souhaitable Nous considérons tous les écarts-types qui sont plus grands que 3,00 comme étant souhaitables

La dernière statistique est le coefficient de fidélité Théoriquement, lorsque les items qui mesurent une même caratéristique ou des caractéristiques semblables donnent des résultats qui se ressemblent, on dit qu'ils ont un coefficient de fidélité élevé Ce coefficient est un nombre situé entre 0 et 1, pour un ensemble d'items, à quel point les résultats vont dans le même sens Si le coefficient est inférieur à 0,5, on doit vérifier le contenu de son épreuve et de son tableau de spécification Dans notre étude, nous partageons le niveau de corrélation de fidélité proposé par Nunnally (1978), Streiner et

Norman (1991) et Laurencelle (1998) En effet, selon Nunnally (1978) et Streiner et Norman (1991), le niveau de corrélation souhaitable pour les coefficent de fidélité se situe entre 0,70 et 0,90 Pour Laurencelle (1998), un instrument de mesure qui produit peu d‟erreurs est considéré comme exellent si son coefficient de fidélité se situe entre 0,85 et 0,95 et l‟instrument est regardé comme bon si le coefficient se situe entre 0,70 et 0, 85 Le niveau de coefficient souhaitable que nous adaptons se situe donc entre 0,70 et 0,95

Cependant, en raison des conditions de réalisation du mémoire et faute de temps, nous nous limitons à ne mesurer que la fidélité interjuges

2.2 L’appréciation de la qualité des items et de l'ensemble du test

Sur le plan de l'analyse des items, deux informations statistiques attirent l'attention du chercheur : l'indice de difficulté qui indique le degré de difficulté d‟un item et l'indice de discrimination qui indique le degré ou le pouvoir de discrimination d‟un item du test ou d‟une épreuve Ces deux indices qui apportent une contribution importante à la qualité globale d‟un test sont présentées dans les lignes qui suivent

L'indice de difficulté représente la proportion des apprenants d'un groupe d‟élèves qui réusissent la tâche demandée par un item Si un item est présenté à 40 élèves et que 10 d'entre eux y réussissent, l'indice de difficulté de cet item est de 0,25 (10 divisé par 40)

Cette définition se traduit par la formule suivante :

P = indice de difficulté (taux de réussite) d'un item;

R = nombre d'élèves qui ont réussi à l'item;

N = nombre total des élèves ayant répondu à l'item

Par exemple, parmi 100 apprenants ou candidats, 25 ont réussi à l'item, indice de difficulté de cet item est :

L'indice de difficulté de cet item est raisonnable Si 10 apprenants sur 100 apprenants ont réussi à l'item, l'indice de cet item est très moins élevé (0,1) Cet item est très difficile Plus l'indice de difficulté est petit, plus l'item est difficile et inversement La valeur de l'indice de difficulté ne doit pas s'approcher des extrêmes (0 et 1) En évaluation normative par exemple, lorsque l'examen est donné dans le but de sélectionner quelques apprenants parmi un grand nombre de candidats qui sont bons et très bons, il est nécessaire d'abaisser l'indice de difficulté afin d'augmenter la difficulté des items En effet, dans ce cas, l'enseignant recherche des items dont l'indice de difficulté est inférieur à 0,7 ou à 0,8, et supérieur à 0,3 ou à 0,2 Pour un examen, l'indice de difficulté idéal doit être traduit par le fait que les meilleurs réussissent à l'item et les plus faibles y échouent Selon Morisette

(1996), si le seuil de passage est fixé à 60%, un bon choix consiste à utiliser des items dont l'indice de difficulté est compris entre 0,4 et 0,9

La fonction première de l'item est de permettre d'identifier les apprenants qui ont atteint les objectifs spécifiques et ceux qui ne les ont pas atteints Il doit donc les discriminer Un item de qualité aura donc un indice de discrimination correspondant à la situation d'évaluation sommative ou normative Pour renforcer notre analyse, nous avons calculé, dans le cadre de la théorie du score vrai, l'indice de discrimination, qui rappelons-le est la différence entre le score des 27% des élèves les plus forts et le score des 27% les plus faibles Pour vérifier la valeur de cet indice de discrimination, on doit suivre trois étapes qui suivent :

La première étape consiste à s'assurer que l'examen dans son ensemble correspond aux objectifs et est rédigé conformément au tableau de spécification Au cours de la deuxième étape, on calcule l'indice de discrimination de chaque item Cette valeur indique jusqu'à quel point les items donnent des résultats qui concordent avec ceux de l'examen dans son ensemble Pour établir cet indice, l'enseignant compare les réponses données à un item par les élèves les plus forts pour l'ensemble de l'examen (par exemple le 27% supérieur : Ns) à celles données par les plus faibles pour l'ensemble de l'examen (par exemple, le 27% inférieur : N = Ns) Il compte le nombre d'élèves du groupe supérieur (Rs) qui ont réussi à l'item et le nombre d'élèves du groupe inférieur (Ri) L'indice de discrimination (D) d'un item découle de la comparaison entre le taux de succès des forts et celui des faibles pour cet item

La formule suivante donne l'indice de discrimination d'un item

Ri Rs - Ri Ni Ns

Rs = nombre de sujets dans le 20% ou 27 % supérieur qui ont réussi l'item;

Ri = nombre de sujets dans le 20% ou 27% inférieur qui ont réussi l'item;

Ni = Ns = nombre de sujets dans le 20% ou 27% supérieur ou inférieur

Par exemple, parmi 200 élèves ou candidats, 27% des élèves ayant obtenu les meilleurs scores (Ns) = 27% de 200 = 54, 27% des élèves ayant obtenu les plus faibles scores (Ni) = 27% de 200 = 54

Parmi les 54 élèves ayant obtenu les meilleurs scores, 30 élèves (Rs = 30) ont réussi l'item X et Parmi les 35 élèves ayant obtenu les plus faibles scores, 9 élèves (Ri = 12) ont réussi cet item X, l'indice de difficulté est calculé comme suit:

Enfin, la troisième étape consiste à juger de la qualité d'un item selon la valeur que prend l'indice de discrimination

Lorsque l'item donne une discrimination qui va dans le même sens que celle de l'examen dans son ensemble, son indice de dicrimination prend une valeur qui se situe entre +1 et 0 (1  D  0) Plus l'indice se rapproche de 1, plus la discrimination est grande

Si son indice de discrimination est nul (D = 0), c'est-à-dire que l'item ne produit aucune discrimination, autant d'élèves forts que d'élèves faibles l'ont réussi Idéalement, chaque item devrait produire discrimination parfaite (D = 1), mais en pratique, cet item n'est pas réalisable Morisette (1996) indique que si l'indice de discrimination se situe entre +1 et +0,3 (+1  D  +0,3), l'item produit une forte discrimination positive Et si l'indice de discrimination se situe entre +0,29 et +0,1 (+0,29  D  +0,1), l'item produit une faible discrimination positive On devrait donc reformuler, ou tout au moins revoir cet item avant de l'administrer à nouveau Et encore, si l'indice de discrimination se situe entre +0,09 et -1

(+0,09  D  -1), l'item produit une discrimination nulle ou négative On doit donc l'améliorer.

L’analyse des items des tests

Comme nous l‟avons abordé plus haut, l‟étude évaluative n‟utilise pas une démarche d‟investigation qui lui soit propre Dans certains cas, l‟étude évaluative emprunte la méthodologie de l‟étude comparative ou corrélationnelle (Gagné et al, 1989) Dans d‟autres cas, l‟étude évaluative utilise les devis ou plans de la recherche expérimentale

Notre étude emprunte la méthodologie de l‟étude comparative et celle corrélationnelle Nous adoptons donc des analyses descriptives et des tests de corrélation pour vérifier la qualité des items et des tests utilisés.

Conclusion du chapitre

Pour répondre aux questions de recherche, nous avons choisi la démarche d‟investigation évaluative L‟étude de ce type permet d‟évaluer la qualité des tests utilisés dans le cadre de l‟enseignement et de la prộparation des ộlốves aux Olympiades nationales de franỗais

Comme ces recherches n‟utilisent pas une démarche d‟investigation qui leur soit propre, nous avons adopté la démarche méthodologique à la fois descriptive comparative et corrélationnelle

Le but de cette étude étant de vérifier la qualité des instruments de mesure ou des tests utilisés, nous avons procédé à une série d‟analyses souvent utilisées dans des études évaluatives Il s‟agit des analyses de la répartition des items, de la vérification de la validité de l‟ensemble des tests ou des questionnaires en utilisant des statistiques comme la moyenne, l‟écart-type et le coefficient de fédélité et de la vérification des indices de difficulté et de discrimination des items

Dans le chapitre suivant, nous allons présenter les résultats obtenus, leurs analyses et leurs interprétation.

RÉSULTATS ET DISCUSSION

Résultats

La répartition des items affecte la qualité d‟un test En observant le Tableau 3 ci-dessous, nous pouvons voir très clairement la répartition des items dans l‟ensemble des tests et dans chaque test

Types d’items Item objectif Item subjectif

QRC QCM QRéa QApp QVF QROC QROL

Les 1100 items répartis en 11 carnets de tests sont destinés à évaluer seulement deux compétences communicatives (la compétence de compréhension écrite et la compétence d‟expression écrite) et les deux compétences linguistiques (compétence grammaticale et compétence lexicale) Les deux autres compétences communicatives telles

C que la compétence de compréhension orale et la compétence d‟expression orale n‟ont pas été prises en compte

Les items utilisés pour évaluer les connaissances grammaticales occupent le premier rang et représentent jusqu‟à 69% de l‟ensemble des items Les items destinés à l‟évaluation des connaissances lexicales (14%) occupe le deuxième rang Viennent ensuite les items destinés à mesurer la CE occupant le troisième Les items portant sur l‟EE représentent seulement 5% et sont situés au dernier rang Enfin, si on compte le nombre des items portant sur la grammaire et les items portant sur le vocabulaire, l‟ensemble de ces items destinés à l‟évaluation des connaissances linguistiques occupent jusqu‟à 83% de tous les items confondus Cela veut dire que les items utilisés pour évaluer les compétences communicatives ne représentent que 17% de l‟ensemble des items

Concernant les types d‟items, la plus grande proportion des items sont les items objectifs Ces items occupent jusqu‟à 89% de l‟ensemble des items Les items objectifs sont répartis en 4 types : les QRC, les QCM, les QRéa et les QApp Parmi les items objectifs, le nombre des QCM est le plus grand (47% de l‟ensemble des items), ensuite les QRC (39% de l‟ensemble des items), les QApp (3%) et enfin les QRéa (1%) Les items subjectifs occupent seulement 11% et sont tous les QROC En outre, on compte jusqu‟à plus de 50% des items (35/55) utilisés pour évaluer la EE sont les QCM Il s‟agit des items qui ne permettent pas de mieux évaluer cette compétence d‟expression écrite

1.2.La validité de l’ensemble du test ou du questionnaire

Pour évaluer les tests, nous avons choisi et analysé 11 tests utilisés au Lycée à option de Vinh Phuc Les six premiers tests dont les items sont tous les items à correction objective sont appelés tests aux items objectifs ou tests objectifs et 5 tests dont les items sont à la fois à correction objective et à correction subjective, tests aux items mixtes

L‟analyse des résultats présentée sous forme de courbe à la Figure 1, à la page suivante, indique très clairement les moyennnes des items de l‟ensemble des tests sont différentes les unes des autres La moyenne des items du Test 4 est la plus grande et celle du Test 10 est la plus petite Comme ce que nous avons abordé dans le chapitre 2, pour assurer de la validé de l‟ensemble des items du test, la moyenne acceptable se situe entre 60% et 70% Ainsi, seule la moyenne des trois tests (Test 8, Test 10 et Test 11) est acceptable

Figure 1 La moyenne des items de l’ensemble des tests

En ce qui concerne la validité d‟un test, l‟écart type constitue un indice important qui permet de distinguer les élèves forts et les élèves faibles La plupart des tests (73%) ont un écart type acceptable, ce qui permet de distinguer les élèves forts et les élèves faibles

Figure 2 L’écart type des items de l’ensemble des tests

Test 1 Test 2 Test 3 Test 4 Test 5 Test 6 Test 7 Test 8 Test 9 Test 10 Test 11

Puisque des items objectifs représentent jusqu‟à 89% de d‟ensemble des items, la fidélité interjuges et la fidélité intrajuge sont assurée En effet, les résutats d‟analyse des items présentés sous forme de courbes à la Figure 3 ci-dessous indique une forte corrélation entre les résultats fournis par les juges, appelé fidélité interjuge En effet, les coefficients de fidélité des tests sont très bien corrélés et se situent entre 0,7 et 1, ce qui assure très bien la fidélité des tests Ce coefficient indique pour un ensemble d‟items, à quel point les résultats vont dans le même sens, semblent mesurer la même chose

Figure 3 Le coefficient de fidélité de l’ensemble des tests

Test 1 Test 2 Test 3 Test 4 Test 5 Test 6 Test 7 Test 8 Test 9 Test 10 Test 11

1.3.Le degré de difficulté des items des Tests 1.3.1 Le degré de difficulté des items du Test 1

L‟analyse des items présenté sous forme de diagramme à secteurs circulaires à la Figure 4, à la page suivante, fait ressortir le degré de difficulté de l‟ensemble des items composant le

Test 1 Les items qu‟on peut utiliser occupent 60% de l‟ensemble des items du test Il s‟agit des items dont l‟indice de difficulté est raisonnable (0,3 - ≤ 0,8) et acceptable (> 0,8 - ≤ 0,9) c‟est-à-dire les items utilisables, et les items dont l‟indice de difficulté est assez élevé, c‟est-à-dire les items faciles qu‟on peut utiliser dans la situation d‟évaluation critériée (rarement dans la situation d‟évaluation normative) Ces items à degré de difficulté raisonnable (à degré raisonnable) sont les moins nombreux et représentent seulement 28% de l‟ensemble des items du test Les items acceptables sont les plus nombreux (32%)

Cependant, les items dont l‟indice de difficulté est le plus élevé, c‟est-à-dire les items trop faciles que les élèves les plus forts ainsi que les plus faibles peuvent tous réussir, occupent une grande proportion (31%) par rapport aux autres items Il s‟agit des items non informatifs

Figure 4 Degré de difficulté des items du Test 1

1.3.2 Le degré de difficulté des items du Test 2

L‟ensemble des items composant le Test 2 sont analysés en terme de degré de difficulté et présentés par la Figure 5 à la page suivante Les items utilisables représentent 52% du nombre total des items du test Parmi ces items, on compte 23% des items à degré raisonnable et 29% des items acceptables Les items qui sont difficiles à utiliser, c‟est-à- dire les items très faciles et très difficiles, occupent à peu près un tier des items (33% dont

32% très faciles et 1% très difficiles) Enfin, les items dont l‟indice de difficulté est nul (les items non informatifs) occupent 15% des items du test

1.3.3 Le degré de difficulté des items du Test 3 À la différence des items du Test 2, l‟analyse des items présentée à la Figure 6, page suivante, indique très clairement que le nombre des items utilisables ne dépasse pas la moitié de l‟ensembles des items du test En effet, ces items représentent seulement 42%

(dont 23% des items acceptables et 19% des items à degré de difficulté raisonnable) de tous les items du test Par contre, les items non utilisables ou très difficiles à utiliser représentent 58% des items du test Parmi ces items, les très faciles occupent la proportion la plus importante (48%), ensuite les items dont l‟indice de difficulté est nul, 9% et enfin les items très faciles, 1%

Nul Très difficile Très facile Acceptable Raisonnable

La Figure 6, à la page suivante, montre très bien que les items non utilisables occupent une proportion très importante (78% dont 52% non informatifs, 22% très faciles et 4% très difficile) alors que les items utilisables représentent seulement 22% de l‟ensemble des items du test Particulièrement, les items à degré raisonnable n‟occupent qu‟une petite proportion (14%) par rapport aux autres

L‟analyse des items présentée par la Figure 8 ci-dessous indique bien le degré de difficulté des items du Test 5 Les items non utilisables occupent jusqu‟à 78% de l‟ensemble des items du test Parmi ces items, on voit 34% d‟items nuls, 40% d‟items très faciles et 4% d‟items très difficiles Les items utilisables ne représentent que 22% du nombre total des items du test, dont 14% d‟items à degré raisonnable et 8% d‟items acceptables

L’interprétation et la discusssion des résultats

2.L’interprétation et la discussion des résultats 2.1 La répartition des items dans les tests

Dans l‟ensemble, les items ont ộtộ ô mal ằ rộpartis dans l‟ộvaluation des connaissances linguistiques et les compétences communicatives En effet, les items utilisés pour évaluer les connaissances grammaticales occupent le premier rang et représentent jusqu‟à 69% de l‟ensemble des items Les items destinés à l‟évaluation des connaissances lexicales (14%) occupe le deuxième rang Viennent ensuite les items destinés à mesurer la CE occupant le troisième Les items portant sur l‟EE représentent seulement 5% et sont situés au dernier rang Enfin, si on compte le nombre des items portant sur la grammaire et les items portant sur le vocabulaire, l‟ensemble de ces items destinés à l‟évaluation des connaissances linguistiques occupent jusqu‟à 83% de tous les items confondus Cela veut dire que les items utilisés pour évaluer les compétences communicatives ne représentent que 11% de l‟ensemble des items

2.2 La validité de l’ensemble des Tests

Concernant les moyennes des items de l‟ensemble des tests, elles sont fort différentes les unes des autres La moyenne des items du Test 4 est la plus grande (93%) et celle du Test

10 est la plus petite (63%) Presque toutes les moyenns s‟éloignent de la moyenne acceptable, la moyenne qui se situe entre 60% et 70% C‟est la moyenne contribuant à assurer de la validé d‟un test Ainsi, seule la moyenne des trois tests (Test 8, Test 10 et Test

11) est acceptable, particulièrement dans la situation d‟évaluation à interprétation normative En pratique évaluative dans les lycées à option, cette moyenne est préférable

Cependant, en situation d‟évaluation critériée, la moyenne des Tests, surtout les Tests 1, 2,

3, 5, 7 et 9, qui restent est souhaitable, car cette moyenne montre que les objectifs d‟apprentissage sont atteints

Pour l‟écart type, la grande majorité des tests (73%) ont un écart type acceptable permettant de distinguer les élèves forts et les élèves faibles, ce qui contribue aussi à rendre un test valide, surtout en situation d‟évaluation normative constitue un indice important qui permet de distinguer les élèves forts et les élèves faibles Pourtant, la moyenne des

Tests 1, 4 et 6 est acceptable en situation d‟évaluation critériée

Quant au coefficient de corrélation de fidélité, la fidélité d‟équivalence ou fidélité interjuges est très bien corrélée et très assurée Ce coefficient de corrélation indique pour un ensemble d‟items, à quel point les résultats vont dans le même sens, semblent mesurer la même chose Cependant, nous n‟avons pas encore vérifié deux autres types de fidélité comme la fidélité par test-retest et fidélité par versions parallèles Il s‟agit des limites présentés par la présente étude

2.3 Le degré de difficulté des items

Les résultats des analyses de l‟ensemble des items en terme d‟indice de difficulté des Tests font ressortir que la proportion des items utilisables, c‟est-à-dire celle du nombre confondu des items acceptables et des items à raisonnable degré de difficulté, est plus faible que celle des items inutilisables ou difficiles à utiliser, soit l‟ensemble inclus d‟items très difficiles, d‟items très faciles et d‟items non informatifs

En effet, l‟ensemble des items utilisables de tous les tests confondus ne représentent que 45% de l‟ensemble des items Cela veut dire que 55% des items qui restent devront être améliorés ou éliminés Plus concrètement, 33% des items très difficiles et très faciles devront être vérifiés et reconstruits par l‟enseignant ou le concepteur de l‟examen Les 22% d‟items dont l‟indice de difficulté est nul devront être éliminés parce qu‟ils sont trop faciles ou trop difficiles que les élèves ou candidats les plus forts et les plus faibles peuvent tous réussir Ils s‟agit des items non informatifs

L‟analyse des items montre aussi que seulement 55% des tests ont plus de 50% d‟items utilisables, ce qui signifie que 45% des tests devront être vérifiés et reformulés

2.4 Le degré de discrimination des items

L‟analyse de discrimination de l‟ensemble des items des Tests ont révélé que la proportion des items à forte discrimination positive ou ayant le pouvoir de discrimination le plus fort est la plus importante de l‟ensemble de tous les items des tests Cette proportion est plus forte que celle des items à faible discrimination positive, mais légèrement plus faible que celle du nombre confondu de ces derniers et les items nuls ou non informatifs

En effet, l‟ensemble des items de tous les tests confondus représentent respectivement 48% pour les items les plus discriminants et 52% pour le nombre confondu des items à faible discrimination positive et les items nuls Tout cela veut dire que 48% des items sont utilisables et que 52% des items devront être améliorés ou éliminés Plus précisément, 30% des items devront être élaborés de nouveaux et 22% des items devront être éliminés parce qu‟ils ne produisent aucune discrimination

D‟ailleurs, l‟analyse de l‟indice de discrimination des items de l‟ensemble des Tests a aussi fait ressortir la qualité des items en terme de degré de discrimination de chaque test

Il faut remarquer que les Tests sont considérés comme étant susceptibles de produire une forte discrimination positive n‟occupent que 45% de l‟ensemble des tests En d‟autres termes, seuls 5 tests sur 11 peuvent être utilisés Les 6 tests qui restent auront à être améliorés

3.Recommandations À partir des résultats obtenus, nous essayons de formuler quelques recommandations concernant la répartition des tests et des items, la validité de l‟ensemble du test, le degré de difficulté et le degré de discrimination des items

En ce qui concerne la répartition des items et des tests, il est nécessaire de respecter celle requise pour un sujet d‟examen à la fois aux Olimpiades nationales et pour celle requise dans le programme d‟enseignement secondaire Plus concrètement, aux Olimpiades nationales, le test comporte cinq sous-tests portant sur quatre compétences communicatives : compétence de compréhension orale (CO), compétence d’expression orale (EO), compétence de compréhension écrite (CE) et compétence d’expression écrite (EE) et deux types de connaissances linguistiques (CL): connaissance de vocabulaire (CVoc) et connaissance de grammaire (CGr) La CO représente 20%, l‟EO, 10%, la CE,

25%, l‟EE 20% et la CE, 25% de l‟ensemble des items du test Le dernier sous-test, le sous-test de connaissance de la langue, comportant 50 items correspondant à 25% de l‟ensemble des items du test En évaluation des apprentissages des élèves du secondaire, le contenu d‟évaluation doit porter sur trois compétences communicative (CO, CE et EE) et sur la connaissance de la langue (CL) La CO représente 25%, la CE, 30%, l‟EE, 20% et la

CL, 25% des points de la note finale Ainsi, le test conỗu, quel que soit le nombre des items, doit porter sur quatre compétences communicatives et deux types de connaissances linguistiques

Le choix des items doit se faire en fonction des connaissances ou des compétences à évaluer Concernant les types d‟items, il est important d‟augmenter le nombre des items subjectifs avec une proportion raisonnable Dans une épreuve, le nombre des items objectifs ne doit pas dépasser 70% du nombre total des items composant l‟épreuve D‟autre part, pour évaluer certaines compétences, il est absolument conseillé d‟utiliser des items objectifs, l‟évaluation de l‟EE par exemple

Les moyennes, l‟écart type et le coefficient de fidélité contribuant pour leur part à la qualité globale du test, la conception des tests devra en tenir compte

Quant à l‟indice de difficulté, le principal but du calcul de l‟indice de difficulté est de sélectionner les items dont le degré ou niveau de difficulté est approprié à la situation

Conclusion

Ce troisième chapitre avait pour but d‟analyser et d‟interpréter ou discuter les résultats de la recherche Nous avons procédé à une séries d‟analyses descriptive et de corrélatives Les résultats d‟analyses des items des tests ont d‟abord considéré la répartition et le choix de l‟ensemble des items et des tests Nous avons ensuite vérifié la validité de l‟ensemble du test en établissant la moyenne, l‟écart type et le coefficient de fidélité des items des tests

Enfin, nous avons calculé, dans le cadre de la théorie des reponses aux items (TRI) et la théori du score, l‟indice de difficulté et l‟indice de discrimination de l‟ensemble des items des tests

Suite à ces analyses, nous avons interprété et discuter des résultats obtenus à partir des analyses faites plus haut

Nous avons finalement essayé de formuler quelques recommandations en vue d‟améliorer d‟abort des items et ensuite la qualité des tests et enfin l‟enseignement, l‟apprentissage et l‟évaluation au Lycée à option de Vinh Phuc

L‟objectif tracé pour ce travail était de vérifier la qualité des instruments de mesure ou des tests utilisés pour évaluer les apprentissages des élèves et pour préparer ces derniers aux Olympiades annuelles de franỗais au Lycộe à option de Vinh Phuc Tout au long de ce travail, nous avons essayé de répondre aux questions de recherche posées au départ En effet, pour répondre à ces questions de recherche, nous avons choisi la démarche d‟investigation évaluative Ainsi, nous avons procédé à une série d‟analyses souvent utilisées dans des recherches de ce type Il s‟agit des analyses de la répartition des items, de la vérification de la validité de l‟ensemble des tests ou des questionnaires en utilisant des statistiques comme la moyenne, l‟écart-type et le coefficient de fédélité et de la vérification des indices de difficulté et de discrimination des items

En effet, les 1100 items rộpartis en 11 carnets de tests ont ộtộ analysộs de faỗon descriptive et statistique

Dans l‟ensemble, les items ont ộtộ ô mal ằ rộpartis dans l‟ộvaluation des connaissances linguistiques et les compétences communicatives Les items utilisés pour évaluer les connaissances de langue représentent jusqu‟à 83% et pour évaluer les compétences communicatives ne représentent que 17% de l‟ensemble des items De plus, les items objectifs occupent jusqu‟à 89% de tous les types d‟items confondus

Les analyses font aussi ressortir que les tests choisis sont destinés à évaluer seulement deux compétences communicatives (la CE et l‟EE) et les deux types de connaissances de la langue (connaissances grammaticales et connaissances lexicales) Les deux autres compétences communicatives telles que la compétence de compréhension orale et la compétence d‟expression orale n‟ont pas été prises en compte

L‟analyse des items indique que 27% des tests seulement ont une moyenne acceptable, mais 73% ont un bon écart type Les fidélités interjuges et intrajuge des tests sont très bien corrélés et bien assurées

Concernant le degré de difficulté des items, les résultats des analyses de l‟ensemble des items en terme d‟indice de difficulté des Tests font ressortir que la proportion des items utilisables, c‟est-à-dire celle du nombre confondu des items acceptables et des items à raisonnable degré de difficulté, est plus faible que celle des items inutilisables ou difficiles à utiliser, soit l‟ensemble inclus d‟items très difficiles, d‟items très faciles et d‟items non informatifs et représente 45% de l‟ensemble des items du test L‟analyse de l‟indice de difficulté en fonction des tests, la grande majorité des tests (55%) évalués sont considérés comme étant de qualité en terme de degré de difficulté

La synthèse des analyses de l‟ensemble des items des tests ont révélé que la proportion des items à forte discrimination positive ou ayant le pouvoir de discrimination le plus fort est la plus importante de l‟ensemble de tous les items des tests Cette proportion est plus forte que celle des items à faible discrimination positive, mais légèrement plus faible que celle du nombre confondu de ces derniers et les items nuls ou non informatifs

L‟ensemble des items de tous les tests confondus représentent respectivement 48% pour les plus discriminants et 30% pour les items à faible discrimination positive et 22% pour les items nuls ou non informatifs L‟analyse des items de l‟ensemble des tests ont fait savoir que 45% des tests sont considérés comme étant de qualité en terme de pouvoir de discrimination Alors, les tests sont considérés comme étant susceptibles de produire une forte discrimination positive n‟occupent que 45% de l‟ensemble des tests

Notre étude est finie par proposer quelques recommandations en vue d‟améliorer la répartition, le choix des items, les indices de moyenne, d‟écart type, de coefficient de fidélité et deux indices importants que sont celui de degré de difficulté et de degré de discrimination des items et d‟améliorer la qualité globale d‟un test ou d‟un instrument de mesure

Globalement, les résultats de notre recherche ont répondu à nos attentes et à nos questions posées au départ et ils pourraient contribuer à faire évoluer la recherche et la pratique évaluative dans les lycées à option en général et dans le lycée à option de Vinh Phuc en particulier La contribution qui nous semble la plus importante, c‟est sans doute que notre travail a réussi à évaluer la qualité des tests utilisés au Lycée à option de Vinh Phuc

La présente étude, loin d‟être finie, ouvre de nouvelles voies de réflexion et d‟investigation D‟ailleurs, elle présente certes certaines limites inhérentes à une étude évaluative, par exemple, nous n‟avons pas encore considéré la qualité des items par rapport aux niveaux taxonomiques proposés par Bloom (1956) Il est souhaitable de recourir à un autre mode d‟investigation, même une autre démarche d‟investigation, une recherche expérimentale par exemple afin de mieux évaluer et améliorer la qualité des instruments de mesure ou des tests dans le domaine de l‟évaluation des apprentissages des lycées

Pour clore ce travail, nous pouvons dire que les études sur l‟évaluation en général et particulièrement sur la qualité des instruments de mesure qui ne cessent de susciter l'intérêt des chercheurs et des enseignants et ce, en raison de la grande valeur ajoutée qu'ils peuvent apporter s'ils sont bien maitrisés mais surtout bien appliqués en interne

Abernot, Y (1996) Les méthodes d'évaluation scolaire, 2 è éd Paris: DUNOD

Bertrand R., Blais J (2004), 0 RGICIIIIIPIIAL H A ESSRLIFEHl EIlicoRLiIBILV réponses aux items, Press de l'Université du Québec

Bloom, B.S et al (1956) Taxonomie des objectifs pédagogiques, tome I, Domaine cognitif, Traduit de l'anglais, 1969 Québec (Canada): Les Presses de l'Université du

Carroll, J.B (1968) The Psychology of language testing In A Davis (Ed.), Language

Testing Syposium A psycholinguistic perspective, pp 46-69 London: Oxford

Gagnộ, G et al (1989) Recherche en didactique et acquision du franỗais langue maternelle, Tome 1, Cadre conceptuel, thésaurus et lexique des mots clés Bruxelles :

Hadji Ch, (1992) L’évaluation des actions éducatives, PUF, Paris

Laurencelle, L (1998) Théorie et techniques de la mesure instrumentale Québec, Presses de l‟Université du Québec

Laveault, D et Grégoire, J (2002) Introduction aux théories des tests en psychologie et en sciences de l’éducation Bruxelles : De Boeck Université

Lussier, D (1991) Évaluer selon une démarche communicative/expérientielle Québec (Canada): Centre Educatif et Culturel Inc

Lussier, D (1992) Évaluer les apprentissages dans une approche communicative Paris:

Morissette, D (1996) Évaluation sommative Québec (Canada): Éditions du Renouveau Pédagogique Inc

Mothe, J.C (1975) L'Evaluation par les Tests dans la Classe de Francais (Evaluation by Tests in the French Class) Francais dans le Monde – ERIC

Nguyen Quang Thuan (2002) Xây dựng một công cụ kiểm tra - đánh giá trong dạy và học ngoại ngữ Tạp chí khoa học, Đại học Quốc gia Hà Nội, T XVIII, N o 2, 23-31

Nguyen Quang Thuan (2005) Thiết kế và xây dựng công cụ đánh giá kỹ năng nghe hiểu

Tạp chí khoa học, Đại học Quốc gia Hà Nội, T XXI, N o 1, 47-53

Nguyen Quang Thuan (2007) Cours d’évaluation en didactique des Blangues Notes de cours, Ecole Supérieure des Langues étrangères – Université nationale de Hanoi

Nunnally, J.C (1978) Psychometric Testing New York: McGraw-Hill

Porcher, B (1992) Du référentiel à l‟évaluation, Fourcher, Paris

Rayal f ; Rieunier A, (1997) Pédagogie : dictionnaire des concepts clés, ESF éditeur,

Scallon, G (2000) L'évaluation formative Québec (Canada): Éditions du Renouveau pédagogique Inc

Scallon, G (2004) L'évaluation des apprentissages dans une approche par compétences

Québec (Canada): Éditions du Renouveau pédagogique Inc

Streiner, D.L et Norman, G.R (1991) Health Measurement Scales : A practical Guide to

Their Development and Use Oxford, Oxford University Press

N o Item Items réussis Items échoués Indice de difficulté Indice de discrimination Notes

Tableau 1 Indice de difficulté des items du Test 1

Tableau 2 Indice de discrimination des items du Test 1

N o Item Items réussis Items échoués Indice de difficulté Indice de discrimination

No Items Items réussis Items échoués Indice de difficulté Indice de discrimination

Tiêu đề	Nghiờn cứu cỏc bài thi được dựng để đỏnh giỏ học sinh học tiếng Phỏp ở Trường THPT Chuyờn Vĩnh Phỳc
Tác giả	Nguyễn Thị Hà
Người hướng dẫn	Pr.Dr. NGUYỄN QUANG THUẤN
Trường học	Universitế Nationale de Hanoi, Ệcole Supếrieure de Langues Ệtrangốres
Chuyên ngành	Ngôn ngữ học
Thể loại	MẫMOIRE DE MASTER
Năm xuất bản	2013
Thành phố	Hanoi

Định dạng
Số trang	123
Dung lượng	3,71 MB