Reference : Qualité spectrales des tests standardisés universitaires - Mise au point d'indices édumé...
Dissertations and theses : Doctoral thesis
Social & behavioral sciences, psychology : Education & instruction
http://hdl.handle.net/2268/2217
Qualité spectrales des tests standardisés universitaires - Mise au point d'indices édumétriques d'analyse de la qualité spectrale des évaluations des acquis des étudiants universitaires et application aux épreuves MOHICAN check up '99
French
[en] Spectral Quality of University Standardized Tests - Development of edumetrical indices for the analysis of the spectral quality of higher education standardized tests and application to the MOHICAN check up ’99 tests
Gilles, Jean-Luc mailto [Université de Liège - ULG >]
11-Jun-2002
Université de Liège, ​Liège, ​​Belgique
Doctorat en sciences de l'éducation
560
Leclercq, Dieudonné
Defays, Daniel
Dochy, Filip
Dupont, Pol
Laveault, Dany
[en] assessment ; testing ; item analysis ; édumetry ; docimology ; point bi serial correlation coefficient ; confidence degree ; self-estimation ; multiple choice question
[fr] évaluation ; testing ; analyse d'item ; édumétrie ; docimologie ; corrélation point bissériale ; degré de certitude ; auto-estimation ; question à choix multiple
[en] For several decades almost all European university institutions have been faced with a strong increase in their number of students whereas the allocated budgets have not increased in proportion (Gibbs & Jenkins, 1992). The universities of the French Community of Belgium do not escape this heavy tendency: compared with the 1972 situation, the number of students has increased to 150% and, in constant francs, subsidies have remained unchanged (Debry & al., 1998). This situation leads in the first cycles of studies, where the students are most numerous, to a massive use of standardized examinations with multiple choice questions (MCQ) which makes the assessment of great groups of students possible within reasonable time delays.

The confidence degrees technique associated to the MCQ makes it possible to bypass the "binary" character of students assessment performance (the selected proposal is either correct, or incorrect) provided that a series of methodological rules are followed called "admissible probability measurement procedures" by Shufford & al. (1966). Among those rules: ask the students to express their confidence in a numerical (probabilistic) scale. The one adopted offers 6 degrees of subtlety: 0%, 20%, 40%, 60%, 80% and 100% of confidence. By inviting the student to accompany his choice by the percentage of chances to be correct he attributes to his answer, we allow more subtleties in the analysis of his performances. At one extreme, the choice of a wrong answer accompanied by the maximal percentage of certainty (100%) presents the worst situation, in which the student provides an erroneous answer by estimating that he has a maximal chances to be correct. On the other hand, the student who answers correctly with a maximal certainty shows an assured performance. Between these two extremes, other zones can be identified in the "spectral analysis" of the performances. Jans & Leclercq (1999) propose a specific terminology. They distinguish "ignorance" (correct answer and weak certainty), from "partial knowledge" (correct answer and average certainty), and "perfect knowledge" (correct answer and high certainty). Such spectral gradations were also considered by these authors in the case of an incorrect answer ("mistaken knowledge" and " fallacious knowledge" or "dangerous knowledge").

Usually, the confidence percentages which accompany the MCQ answers are used to deliver more subtler feedback on each student's spectral performances. The innovative aspect of our approach lies in the fact that we have exploited the confidence percentages provided by the students to provide spectral information on the quality of the questions (as opposed to information on the quality of students performances). Our research thus led to the development of a series of original indices for the analysis of assessments' spectral quality. These spectral indices are intended to be used when the assessor must highlight problematic MCQ and, within those, the proposals which contain anomalies.

Our starting intuition for the construction of these new indices is as follows: logically the students who answer a question correctly should provide percentages of certainty higher than the students who answer incorrectly. Thus, for a multiple choice question which functions normally from the point of view of the certainty percentages use, we should observe among the students who choose the correct answer a tendency to answer with higher percentages of certainty and, in parallel, among the students who choose a wrong proposal a tendency to answer with lower percentages of certainty. We will then say that there is "spectral coherence". In the case where this situation does not arise, for example when students choose higher certainty percentages for one of the incorrect answers rather than for the correct answer, we are confronted with a problem of inconsistency in the use of the percentages of certainty, we will then speak of "spectral inconsistency".

To measure spectral coherence we created two new types of indices starting from the classical point bi serial correlation coefficient (classical rpbis) calculation principle. Let us recall that in the case of the rpbis, the choices or the rejections (1 or 0) of each proposal of a MCQ are correlated with the numbers of correct answers obtained to the whole test. The classical rpbis makes it possible to evaluate up to what extent each proposed alternatives solutions of each MCQ discriminates the students according to the criterion of the number of correct answers. Logically, one expects that the students who collect a high number of correct answers tend to choose the correct answer for a given question and that the students which collect a lower number have a tendency to choose an incorrect proposal.

The two new types of spectral coherence indices of measurement are: (1) the Spectral Contrasted rpbis (rpbis SC) and (2) the Spectral Contrasted rpbis calculated after Turbo analysis (rpbis SCT). During a former research we had already used information related to the confidence degrees to calculate a new type of rpbis, the Spectral rpbis or rpbis S (Gilles, 1998). The rpbis S was developed in order to analyze the tendency to use higher certainty in case of correct answers than in case of incorrect answers. Within the framework of this thesis we propose a first improvement of the rpbis S by implementing a "contrasted treatment" for the MCQ incorrect proposals.

We use the name "rpbis SC" to indicate the rpbis S is constructed with a "Contrasted treatment" which consists in the computation of the rpbis SC of an incorrect answer by using the data of the students who choose this wrong response in contrast with the data restricted to the students who choose the correct answer excluding the data from the students who choose an other incorrect answer. The advantage lies in the elimination of the data of the students who have chosen the other incorrect answers. This avoids introducing into the measurement of spectral coherence, the "background noise" generated by the data of the other incorrect answers.

The principle of "turbo analysis", consists in operating a selection in the data used for rpbis SC calculation on the basis of the level of realism reached by the students. We can thus increase the reliability of information related to the spectral indices by restricting the data to the students who make less errors in their self-assessments (in their use of certainty percentages). We measure the level of errors of self-assessments made by the students by using the index of realism which varies from 0 to 100 (Leclercq & al, 2000). The name rpbis SCT indicates rpbis SC calculated with a Turbo analysis. The word "turbo" refers to the rise to power of the instrument in terms of the quality of information provided as one restricts oneself progressively to data from sets of students who make less and less errors in their self-assessments. We mention in the index's name the threshold of realism used to select the data. For instance rpbis SCT80 was calculated starting from the data of the students whose realism is equal to or higher than 80 (those who make between 0% and 20% of errors in their self-assessments).

The new indices rpbis SC and rpbis SCT, which are in the heart of this research, are designed for the detection of problems located at the "alternatives level" inside the MCQ. We also adapted other spectral indices initially planned for the analysis of students performances so that these indices deliver information on the MCQ performances, at a "question level". On one hand, the index of Realization of the predictions by question (Rq) or the quantity of errors of self-assessment contained in the results for a question and, on the other hand, the index of Centration per question (Cq) or the level of over or under confidence in the results for a question. Lastly, we also measured the level of spectral coherence of a question (NCSq) by taking into account the rpbis SC of the various proposals of a MCQ. The "turbo analysis" principle was also applied to the calculation of these spectral indices.

We tried to test these new spectral indices designed for detection of suspect alternatives within suspect MCQ using the data of several thousands of answers and certainty percentages collected during the ten standardized tests of the MOHICAN project (Leclercq & al., 2001). They consisted in ten tests of knowledge of the principal subjects at the level of the end of secondary education which were submitted to groups of students entering first year studies in eight of the nine university institutions of the French Community of Belgium (the number of questioned students varied between 1.392 and 3.846 according to tests). These standardized tests consisted of MCQ for which students were invited to choose one answer and systematically accompany it with a percentage of certainty. The students had, not only to state which was their correct proposal, but also which was the percentage of chances to be correct that they granted to each one of their answers. No academic scores were delivered for these (Check up) MOHICAN tests (each student received a diagnostic feedback and the assessors a global feedback). Anonymity was guaranteed. The choice of the percentages of certainty was thus influenced neither by a scale of tariff of points nor by granting a final score which could have affected the later academic course of the student.

The total number of MCQ for the ten MOHICAN tests was 173. For two MCQ among them, the 3rd and the 20th question of the general knowledge test in History and Socio-Economy, the values obtained with the spectral rpbis indicate situations of marked spectral inconsistency, the students tending to give lower percentages of certainty for the answers considered as correct and higher percentages of certainty for the incorrect answers. Studying the proposals of the two problematic MCQ by using the classical rpbis indices, we notice that the two MCQ do not function correctly from the point of view of classical discrimination. When we ask for the opinion of the experts of the contents, they confirm that the two MCQ display problematic results: for one of the questions a wrong proposal could also be regarded as being a correct answer and for the other, there is an error in the encoding of the correct answer. For these two questions there is thus convergence of three different perspectives: (1) that of the classical rpbis, (2) that of the experts and, (3) that of the spectral coherence measured using the spectral rpbis. In the case of the MOHICAN tests, the spectral analysis thus allows to highlight two questions that a more qualitative analysis (posterior opinions of the experts) as well as a classical analysis of discrimination (classical rpbis) also indicate as questions with problems.

Does the spectral analysis make it possible to perform better than the classical analysis of discrimination (classical rpbis) for locating the problematic questions and the proposals which contain anomalies? This issue has been tested. We analyzed the 173 MCQ of the 10 MOHICAN tests by using the spectral rpbis (rpbis SC, rpbis SCT80 and rpbis SCT90) as well as the classical rpbis indices. We also reviewed the comments formulated by the experts of the contents in connection with each question. From these analyses it comes out that in addition to the two MCQ already discovered previously, 14 other questions are highlighted. The classical rpbis indicates anomalies in each one of these 14 MCQ. Six MCQ present abnormal values at rpbis SC. Only one MCQ obtains an abnormal rpbis SCT80. No MCQ obtains an abnormal rpbis SCT90. Among these 14 questions, only 3 are pointed as problematic by the experts.

With regard to the three questions singled out by the experts, they lead to a set of proposals that only the rpbis SC designates, whereas for the rpbis SCT80 and the rpbis SCT90, they are not highlighted. As far as the classical rpbis is concerned one only of the two problematic proposals for only one of the three questions appears. Therefore, from the point of view of "detection", rpbis SC were more effective to highlight the problems raised by the experts than were the other indices.

This analysis shows that the various types of rpbis induce also "false alarms", abnormal values collected by proposals whereas the experts of the contents do not detect particular problems. From this point of view, the rpbis SC, with 7 false alarms, is less effective than the rpbis SCT80 which causes only one of them and less than the rpbis SCT90 which starts none, but rpbis SCT80 and rpbis SCT90 fail by "undetecting" the three questions pointed by the experts. On the other hand the rpbis SC starts less false alarms than the classical rpbis which has 10 false alarms. These qualities of lower "undetection" and less "false alarms" are crucial when the question arises of highlighting a problematic MCQ.

When we correct the anomalies contained in certain answers within the MCQ, we can, from now on, not only evaluate the spectral impact of these corrections on the answers ("alternatives level"), but also on the whole question by comparing the values obtained with the indices of NCSq, Rq and Cq before and after changes are operated (at the "question level"). We did this for the two most problematic questions of the general knowledge test in History and Socio Economy and quantified the gains in spectral coherence. The improvement of the spectral coherence of the test was also measured by calculating the average values of the spectral indices at the "question level". These average indices thus made it possible to evaluate the spectral impact on a third "test level" of the assessment. In parallel, we also observed an improvement of the fidelity of the test using the classical Cronbach's alpha coefficient.

Using the spectral indices developed within the framework of our thesis and usable with three levels of spectral analysis: "ALTERNATIVES", "MCQ" and "TEST", we open a new way for the analysis of the quality of standardized tests and their regulation. We are now able to evaluate the spectral quality of higher education standardized tests using confidence degrees, to highlight possible anomalies in the questions; and, after corrections, to evaluate the spectral impact of the improvements. This is the main contribution of our thesis to the improvement of procedures that control the quality of standardized tests and, by extension, to the improvement of the reliability of the students scores, which, in fine, constitutes the stake of our edumetric concerns.
[fr] Depuis plusieurs décennies la plupart des institutions universitaires européennes sont confrontées à une forte augmentation de leurs effectifs d'étudiants alors que les budgets alloués n'augmentent pas en proportion (Gibbs & Jenkins, 1992). Les universités de la Communauté Française de Belgique n'échappent pas à cette tendance lourde : par rapport aux chiffres de 1972, le nombre d'inscrits est passé à 150% et, en francs constants, les subsides sont restés les mêmes (Debry & al., 1998). Cette situation entraîne dans les sections des premiers cycles d'études où les étudiants sont les plus nombreux, un recours massif aux examens standardisés avec questions à choix multiple (QCM) ce qui permet d'évaluer dans des délais raisonnables de grands groupes d'étudiants.

La technique des degrés de certitude associée aux QCM permet de dépasser le caractère " binaire " de l'évaluation des performances des étudiants (la proposition choisie est soit correcte, soit incorrecte) à condition de veiller à respecter une série de règles méthodologiques que Shufford & al. (1966) appellent " admissible probability measurement procedures ". En invitant l'étudiant à accompagner son choix d'une proposition du pourcentage de chances qu'il lui attribue d'être correcte, nous permettons plus de nuances dans l'analyse de ses performances. A un extrême, le choix d'un distracteur accompagné du pourcentage de certitude maximum (100%) présente la pire des situations, celle où l'étudiant fournit une réponse erronée en estimant qu'elle a un maximum de chances d'être correcte. A l'opposé, l'étudiant qui répond correctement avec une certitude maximale fait preuve d'une connaissance assurée. Entre ces deux extrêmes, s'ouvre tout l'espace d'une analyse " spectrale " (et non plus " binaire ") des performances, espace invisible lorsque les pourcentages de certitude ne sont pas utilisés. Ainsi, dans le cas d'une réponse correcte, Jans & Leclercq (1999) proposent une terminologie ad hoc pour distinguer une " ignorance " (réponse correcte et certitude faible), d'une " connaissance partielle " (réponse correcte et certitude moyenne), d'une " connaissance parfaite " (réponse correcte et certitude élevée). De telles nuances spectrales ont aussi été envisagées par ces auteurs dans le cas d'une réponse incorrecte (" méprise " et " connaissance dangereuse ").

Habituellement les pourcentages de certitude qui accompagnent les réponses aux QCM sont utilisés pour livrer des informations nuancées, spectrales (et non plus binaires), sur la qualité des performances des étudiants. L'aspect novateur de notre démarche réside dans le fait que nous avons exploité les certitudes fournies par les étudiants pour livrer cette fois des informations spectrales sur la qualité des questions (différentes des informations sur la qualité des performances des étudiants). Notre recherche a ainsi débouché sur l'élaboration d'une série d'indices originaux d'analyse de la qualité spectrale des épreuves. Ces indices spectraux sont destinés à être utilisés lors de la phase de correction d'une évaluation, lorsqu'il s'agit de mettre en évidence les QCM problématiques et, au sein de celles-ci, les propositions qui contiennent des anomalies.
Notre intuition de départ pour la construction de ces nouveaux indices est la suivante : logiquement les étudiants qui répondent correctement à une question devraient fournir des pourcentages de certitude plus élevés que les étudiants qui répondent incorrectement. Ainsi, pour une question à choix multiple qui fonctionne normalement du point de vue de l'utilisation des certitudes, nous devrions observer chez les sujets qui ont choisi la proposition correcte une tendance à fournir des pourcentages de certitudes en moyenne plus élevés que les pourcentages de certitude utilisés par les sujets qui se sont trompés. Parallèlement, pour chacune des propositions incorrectes, nous devrions aussi observer une tendance à choisir des pourcentages de certitude moins élevés que les pourcentages de certitude qui ont accompagné la réponse correcte. Nous dirons alors qu'il y a " cohérence spectrale ". Dès lors que cette situation ne se présente pas, par exemple lorsque les sujets ont tendance à fournir des certitudes plus élevées pour une des propositions incorrectes que pour la réponse correcte, nous nous trouvons face à un problème d'incohérence dans l'utilisation des pourcentages de certitude, nous parlerons alors " d'incohérence spectrale ".

Pour mesurer la cohérence spectrale nous avons créé deux nouveaux types d'indices au départ du principe de calcul du rpbis classique. Rappelons que dans le cas du rpbis classique, les choix ou les rejets (1 ou 0) de chaque proposition d'une QCM sont corrélés avec les nombres de réponses correctes obtenues à l'ensemble des questions du test. Le rpbis classique permet d'évaluer dans quelle mesure la question discrimine les étudiants en fonction du critère du nombre de réponses correctes. Logiquement, on s'attend à ce que les sujets qui récoltent un nombre élevé de réponses correctes aient tendance à choisir la proposition correcte et les sujets qui récoltent un nombre moins élevé aient eux tendance à choisir une proposition incorrecte.

Les deux nouveaux types d'indices de mesure de la cohérence spectrale sont : (1) le rpbis Spectral Contrasté (rpbis SC) et (2) le rpbis Spectral Contrasté calculé après Turbo analyse (rpbis SCT). Lors d'une recherche antérieure nous avions déjà utilisé les informations liées aux degrés de certitude pour calculer un nouveau type de coefficient de corrélation de point bisériale, le rpbis spectral ou rpbis S (Gilles, 1998). Le rpbis S a été développé en vue d'analyser la tendance à utiliser des certitudes plus élevées dans le cas d'une réponse correcte que dans le cas des réponses incorrectes. Dans le cadre de cette thèse nous proposons une première amélioration du rpbis S en mettant en œuvre un " traitement contrasté " pour les propositions incorrectes des QCM.

Nous utilisons l'appellation rpbis SC pour désigner les rpbis S qui bénéficient du " traitement Contrasté " qui consiste à faire intervenir dans le calcul du rpbis SC d'une proposition incorrecte les données des étudiants qui ont choisi cette proposition en contraste avec les seules données des étudiants qui ont choisi la proposition correcte. L'avantage réside dans l'élimination des données des étudiants ayant opté pour les autres propositions incorrectes, ce qui évite d'introduire dans la mesure de la cohérence spectrale du distracteur envisagé, le " bruit " qu'engendreraient les données des autres propositions incorrectes.
En ce qui concerne le principe de la " turbo analyse " il s'agit d'opérer une sélection dans les données utilisées pour le calcul des rpbis SC sur la base du critère du niveau de réalisme atteint par les sujets. Nous pouvons ainsi accroître la confiance dans les informations liées aux indices spectraux en ne prenant en compte que les données des étudiants qui commettent le moins d'erreurs dans leurs auto-estimations. Nous mesurons la quantité d'erreurs d'auto-estimations commises par les sujets à l'aide de l'indice de réalisme qui varie de 0 à 100 (Leclercq & al., 2000). L'appellation rpbis SCT désigne les rpbis SC calculés dans le cadre d'une Turbo analyse. Le mot " turbo " fait référence à la montée en puissance de l'instrument en terme de qualité d'information fournie au fur et à mesure que l'on prend en compte les données des étudiants qui commettent de moins en moins d'erreurs dans leurs auto-estimations. Nous ajoutons à l'indice le seuil de réalisme utilisé pour sélectionner les données. Par exemple le rpbis SCT80 a été calculé à partir des données des sujets dont le réalisme est supérieur ou égal à 80 (qui commettent entre 0% et 20% d'erreurs dans leurs auto-estimations).

En plus des rpbis SC et rpbis SCT, qui sont au cœur de cette recherche et qui permettent la détection d'anomalies à un niveau " propositions " au sein des QCM, nous avons aussi adapté d'autres indices spectraux initialement prévus pour l'analyse des performances des étudiants de manière à ce que ces indices nous livrent des informations sur les performances des QCM, donc à un niveau " questions ". Il s'agit essentiellement d'une part de l'indice de Réalisation des prédictions par question (Rq) ou la quantité d'erreurs d'auto-estimations contenue dans les résultats d'une question et, d'autre part, de l'indice de Centration par question (Cq) ou le niveau global de sur ou sous-estimations pour une question. Enfin, nous avons aussi mesuré le Niveau de Cohérence Spectrale d'une question (NCSq) en nous basant sur les rpbis SC des différentes propositions d'une QCM. Le principe de la " turbo analyse " a aussi été appliqué au calcul de ces indices spectraux.

Nous avons mis ces instruments de détection des propositions posant des problèmes au sein de QCM suspectes à l'épreuve des données en calculant les indices spectraux au départ de plusieurs milliers de réponses et certitudes récoltées lors des dix tests standardisés du projet MOHICAN (Leclercq & al., 2001). Il s'agissait de dix épreuves de connaissance des principales matières de fin de l'enseignement secondaire qui ont été soumises à des groupes d'étudiants entrant en première année dans huit des neuf institutions universitaires de la Communauté Française de Belgique (le nombre d'étudiants interrogés variait entre 1.392 et 3.846 selon les tests). Ces épreuves standardisées étaient constituées de QCM pour lesquelles les étudiants furent invités à accompagner systématiquement le choix de chacune de leurs réponses d'un pourcentage de certitude. Il s'agissait donc pour ces étudiants d'indiquer pour chaque QCM, non seulement quelle était la proposition correcte, mais aussi quel était le pourcentage de chances qu'ils accordaient à chacune de leurs réponses d'être correcte. Les tests (Check up) MOHICAN n'étaient pas cotés (chaque étudiant a reçu un feedback individualisé et les évaluateurs un feedback global), l'anonymat était garanti. Le choix des pourcentages de certitude n'a donc pas été influencé par un barème de tarif de points ni même par l'octroi d'une cote finale qui aurait pu avoir une quelconque incidence sur le parcours académique ultérieur de l'étudiant.

Les dix épreuves MOHICAN comptaient au total 173 QCM et pour deux d'entre elles, la 3ème et la 20ème question du test de Connaissance en Histoire et Socio Economie, les valeurs obtenues aux rpbis spectraux indiquent des situations d'incohérence spectrale marquée, les étudiants ayant tendance à fournir des certitudes moins élevées pour la réponse considérée comme correcte et plus élevées pour les propositions incorrectes. Lorsque nous étudions les propositions des deux QCM problématiques à l'aide des indices rpbis classiques, nous remarquons qu'elles ne fonctionnent pas correctement du point de vue de la discrimination classique. Lorsque nous demandons l'avis des experts du contenu, ces derniers confirment que ces QCM posent problèmes : pour une des questions un distracteur pourrait aussi être considéré comme étant correct et pour l'autre, il y a erreur dans l'encodage de la réponse correcte. Pour ces deux questions il y a donc convergence de trois éclairages différents : (1) celui des rpbis classiques, (2) celui des experts et, (3) celui de la cohérence spectrale mesurée à l'aide des rpbis spectraux. Dans le cas des épreuves MOHICAN, l'analyse spectrale permet donc de mettre en évidence deux questions qu'une analyse plus qualitative (les avis des experts) ainsi qu'une analyse de discrimination classique (les rpbis classiques) désignent aussi comme questions à problèmes.
L'analyse spectrale permet-elle de faire mieux que l'analyse de discrimination classique (les rpbis classiques) lorsqu'il s'agit de repérer les questions problématiques et en leur sein les propositions qui contiennent des anomalies ? La réponse doit être nuancée. Nous avons analysé les 173 QCM des 10 tests MOHICAN en utilisant les rpbis spectraux (rpbis SC, rpbis SCT80 et rpbis SCT90) ainsi que les indices rpbis classiques. Nous avons également passé en revue les commentaires effectués par les experts du contenu à propos de chaque question. De ces analyses il ressort qu'en plus des deux QCM déjà signalées précédemment, 14 autres questions sont épinglées. Les rpbis classiques semblent indiquer des anomalies dans chacune de ces 14 QCM. Six QCM présentent des valeurs anormales aux rpbis SC. Une seule QCM obtient un rpbis SCT80 anormal. Aucune obtient un rpbis SCT90 anormal. Enfin, parmi ces 14 questions, seulement 3 sont pointées par les experts.
En ce qui concerne les trois questions signalées par les experts, ces derniers ont désigné un ensemble de propositions que seuls les rpbis SC signalent. Quant aux rpbis SCT80 et rpbis SCT90, ils ne les mettent pas en évidence. Les rpbis classiques, eux, ne signalent qu'une des deux propositions problématiques pour une seule des trois questions. Donc, du point de vue de la " détection ", les rpbis SC on été plus efficaces pour mettre en évidence les problèmes relevés par les experts.

Cette analyse montre que les différents types de rpbis déclenchent aussi ce que nous avons appelé des " fausses alertes ", la mise en évidence d'une valeur anormale récoltée par une proposition alors que les experts du contenu n'y décèlent pas d'anomalie particulière. De ce point de vue, les rpbis SC, avec 7 fausses alertes, sont moins efficaces que les rpbis SCT80 qui en provoquent une seule et que les rpbis SCT90 qui en déclenchent aucune (mais les rpbis SCT80 et rpbis SCT90 ne détectent pas les trois questions pointées par les experts). Par contre les rpbis SC déclenchent moins de fausses alertes que les rpbis classiques qui en ont 10 à leur actif. Ces qualités de meilleure " détection " et de moins de " fausses alertes " sont cruciales lorsqu'il s'agit de mettre en évidence les QCM problématiques.

Lorsque nous corrigeons les anomalies contenues dans certaines propositions au sein des questions, nous pouvons désormais non seulement évaluer l'impact spectral de ces rectifications sur les propositions, mais aussi sur la question entière en comparant les valeurs obtenues aux indices NCSq, Rq et Cq avant et après les changements opérés. Nous l'avons fait pour les deux questions les plus problématiques du test de Connaissances en Histoire et Socio Economie et chiffré les gains en cohérence spectrale. L'amélioration de la cohérence spectrale de l'épreuve a aussi été mesurée en calculant la moyenne des valeurs obtenues aux indices spectraux des QCM. Ces indices moyennés ont ainsi permis d'évaluer l'impact spectral des rectifications effectuées sur les propositions des QCM à un troisième niveau, celui du test. En parallèle, nous avons aussi observé une amélioration de la fidélité du test à l'aide des indices classiques (alpha de Cronbach).

A l'aide des indices spectraux développés dans le cadre de notre thèse et utilisables à trois niveaux d'analyse spectrale : " PROPOSITIONS ", " QCM " et " TEST ", nous ouvrons une nouvelle voie pour l'analyse de la qualité des épreuves standardisées et leur régulation. Nous sommes en effet désormais en mesure : d'évaluer la qualité spectrale des épreuves standardisées universitaires ayant recours aux pourcentages de certitude ; de mettre en évidence d'éventuelles anomalies dans les questions ; et, après rectifications, d'évaluer l'impact spectral des améliorations. C'est là la contribution de notre thèse à l'amélioration des procédures visant à produire des tests de qualité et, par extension, à l'amélioration de la fiabilité des notes, ce qui, in fine, constitue l'enjeu de nos préoccupations édumétriques.
Unité de Soutien Logistique et de Recherche (USLR) du Système Méthodologique d'Aide à la Réalisation de Tests (SMART)
Researchers ; Professionals ; Students
http://hdl.handle.net/2268/2217
http://www.exams.be
http://www.assess-group.be
http://www.smart.ulg.ac.be

File(s) associated to this reference

Fulltext file(s):

FileCommentaryVersionSizeAccess
Open access
Qualité_spectrale_des_tests_standardisés_universitaires.Texte_560_pages.pdfTexte complet de la thèsePublisher postprint16.94 MBView/Open

Additional material(s):

File Commentary Size Access
Open access
Spectral_Quality_of_University_Standardized_Tests.Abstract_En.pdfSummary in english - 3 pages104.14 kBView/Open
Open access
Qualité_spectrale_des_tests_standardisés_universitaires.Abstract_Fr.pdfRésumé en français - 4 pages36.86 kBView/Open
Open access
Dias_de_présentation_de_la_thèse_de_Jean-Luc_Gilles.pdfDias de présentation de la thèse4.81 MBView/Open

Bookmark and Share SFX Query

All documents in ORBi are protected by a user license.