References of "Magis, David"
     in
Bookmark and Share    
Full Text
See detailIntroduction to the R software
Magis, David ULg

Scientific conference (2013, May 08)

The R software (R Core Development Team, 2012) is an open-source statistical software that allows data handling, statistical analyses and model fitting, , and graphical representations, among others. It ... [more ▼]

The R software (R Core Development Team, 2012) is an open-source statistical software that allows data handling, statistical analyses and model fitting, , and graphical representations, among others. It is very flexible and has lots of pre-installed statistical methods. It is working under all operating systems, including Windows, Linux/UNIX and MacOS. The R community is worldwide and proposes free exchanges of shared R packages through the CRAN (comprehensive R archive network). However, the user needs some practice to become familiar with the software, as it does not have easy to use interface, yet. The purpose of this workshop is to illustrate some aspects of this software with applied purposes. A data set from the field of clinical psychology will be considered throughout the workshop as an illustrative example. Data loading in R, data manipulation, summary and simple statistics, graphics, basic (t-tests, ANOVA, …) and advanced (factor analysis, generalized linear modeling, item response theory, …) statistical analyses will be described and illustrated. Live demonstrations will be run and participants will be encouraged to practice during the workshop. Participants are required to bring their own laptops, preferably with R already installed (technical assistance will be provided before the workshop to help participants in installing R if necessary). The workshop will be mostly Windows users oriented. The illustrative data set will also be available for participants. Useful references and links: 1) The R software website: http://www.r-project.org 2) The Use R! series of Springer books in general, and more precisely: Zuur, A. F., Ieno, E. N., & Meesters, E. H. W. G. (2009). A beginner’s guide to R. New York: Springer. [less ▲]

Detailed reference viewed: 27 (9 ULg)
Full Text
Peer Reviewed
See detailModèles polytomiques issus de la théorie de la réponse à l’item
Raîche, Gilles; Béland, Sébastien; Magis, David ULg

Conference (2013, May 06)

Les items qui composent les échelles de mesure en éducation et en sciences humaines sont fréquemment associées à plus de deux choix de réponses. Il s'agit alors d'items à réponses polytomiques. Plusieurs ... [more ▼]

Les items qui composent les échelles de mesure en éducation et en sciences humaines sont fréquemment associées à plus de deux choix de réponses. Il s'agit alors d'items à réponses polytomiques. Plusieurs modélisations issues de la théorie de la réponse à l'item ont été proposées pour calibrer de telles échelles de mesures. Lorsque les choix de réponses ne sont pas ordonnés, les modèles à réponses nominales peuvent être utilisés. Lorsque ces choix sont ordonnés, les modèles gradués, à crédit partiel ou à appréciation peuvent être appliqués. Cette communication a pour objectif de présenter ces différentes modélisations et d'identifier des solutions logicielles pour effectuer la calibration. La présentation sera effectuée à l'aide d'un exemple auquel les différentes modélisations seront appliquées. Il sera ainsi possible de comparer les paramètres d'items et de personnes obtenus à l'aide de chacune des modélisations retenues. [less ▲]

Detailed reference viewed: 29 (3 ULg)
Full Text
See detailApplication of lasso penalization to differential item functioning detection
Magis, David ULg

Scientific conference (2013, February 26)

Identification of differential item functioning (DIF) in dichotomously scored items is often performed item by item. This approach increases the risk of false discovery errors (Type I error rate) as all ... [more ▼]

Identification of differential item functioning (DIF) in dichotomously scored items is often performed item by item. This approach increases the risk of false discovery errors (Type I error rate) as all items other than the tested one are assumed to be free of DIF. Some ad-hoc procedures, such as item purification and alpha level adjustment for multiple comparisons, have been studied in this context. The purpose of this talk is to focus on a different approach based on penalized likelihood estimation of a look-alike IRT model. Specifically, a Rasch model is being introduced with item-group interaction terms (i.e. DIF effects). Rather than obtaining pointwise estimates of the interaction parameters, which may be impossible because of high collinearity effects, the DIF effects are estimated with a lasso penalty term. Several criteria for optimally selecting the lasso tuning parameter are discussed, including cross-validation, AIC, BIC, and variants of these criteria. Preliminary results of a simulation study are presented and discussed. [less ▲]

Detailed reference viewed: 54 (2 ULg)
Full Text
Peer Reviewed
See detailRandom generation of dichotomous CAT response patterns with the R package catR
Magis, David ULg

Conference (2013, February 14)

The purpose of this talk is to briefly introduce the R package catR that permits random generation of response patterns under a computerized adaptive testing (CAT) framework. First, an outline of the CAT ... [more ▼]

The purpose of this talk is to briefly introduce the R package catR that permits random generation of response patterns under a computerized adaptive testing (CAT) framework. First, an outline of the CAT is proposed, with emphasis on the main concepts (item bank, ability estimation, next item selection, stopping rule, item exposure and content balancing). Then, the performance of the catR package is described by making connections between the general CAT framework and the functionalities of the R functions within catR. An example will be displayed, either as a “live” demonstration of catR or as part of the talk. Potential extensions of catR will also be discussed. The catR package was jointly developed by Gilles Raîche (Université du Québec à Montréal, Canada). [less ▲]

Detailed reference viewed: 13 (0 ULg)
Full Text
See detailAn overview of statistical methods to assess differential item functioning and differential test functioning
Magis, David ULg; Monseur, Christian ULg

Scientific conference (2013, February 12)

This talk broadly focuses on the identification of differential item functioning (DIF) and differential test functioning (DTF). After a short introduction of the key concepts, most-known methods to detect ... [more ▼]

This talk broadly focuses on the identification of differential item functioning (DIF) and differential test functioning (DTF). After a short introduction of the key concepts, most-known methods to detect DIF and DTF with dichotomously or polytomously scored items, and between two or more than two groups, are presented. Both parametric (i.e. IRT) and nonparametric (i.e. score-based) methods are described in a non-technical way. Several potential applications to PISA surveys are discussed. [less ▲]

Detailed reference viewed: 43 (1 ULg)
Full Text
Peer Reviewed
See detailEstimation des paramètres d’item et de sujet à partir du modèle de Rasch : une étude comparative des logiciels BILOG-MG, ICL et R
Béland, Sébastien; Magis, David ULg; Raîche, Gilles

in Mesure et Evaluation en Education [=MEE] (2013), 36((1)), 83-110

La théorie de la réponse aux items (TRI) est une classe de modèles de mesure très utilisée en éducation. À ce jour, de nombreux logiciels, tel BILOG-MG, sont disponibles afin de procéder à l'estimation ... [more ▼]

La théorie de la réponse aux items (TRI) est une classe de modèles de mesure très utilisée en éducation. À ce jour, de nombreux logiciels, tel BILOG-MG, sont disponibles afin de procéder à l'estimation des paramètres d'item et de sujet. Parmi ces logiciels, il ne faut pas négliger ICL et R, qui sont gratuits et qui peuvent permettre de produire des analyses diversifiées. Cette étude a pour objectif de comparer la qualité d’estimation des paramètres selon une des modélisations issues de la TRI : le modèle de Rasch. Pour ce faire, nous comparons les estimateurs du paramètre de difficulté et de sujet selon trois logiciels : BILOG-MG, ICL et la librairie ltm disponible dans le logiciel R. Nous procédons à une analyse par simulation informatique et, dans un second temps, nous analysons un test de classement en anglais, langue seconde. Les résultats démontrent que les logiciels étudiés permettent d’obtenir des estimateurs des paramètres similaires, la différence principale entre ces logiciels étant leur temps d’exécution des procédures d’estimation. [less ▲]

Detailed reference viewed: 99 (2 ULg)
Full Text
Peer Reviewed
See detailUn processus itératif pour réduire l’impact de réponses aberrantes sur l’identification de patrons de réponses inappropriés
Magis, David ULg; Béland, Sébastien; Raîche, Gilles

in Mesure et Evaluation en Education [=MEE] (2013), 36(2), 87-110

La présence de réponses aberrantes est habituellement détectée par l’utilisation d’indices d’ajustement permettant de déterminer si le patron de réponses est inapproprié par rapport aux caractéristiques ... [more ▼]

La présence de réponses aberrantes est habituellement détectée par l’utilisation d’indices d’ajustement permettant de déterminer si le patron de réponses est inapproprié par rapport aux caractéristiques du test. Cette approche nécessite cependant une pré-estimation des paramètres d’items qui est souvent réalisée sur le même ensemble de données. La présence de réponses aberrantes pourrait donc influencer le processus de calibration et la détection de patrons inappropriés. Cet article présente un processus itératif pour réduire le risque d’une calibration biaisée causée par la présence de réponses aberrantes. La démarche consiste à retirer successivement les patrons identifiés comme inappropriés du processus de calibration des items. Ce processus est illustré en analysant les données d’un test de classement en anglais langue seconde (TCALS-II), au Québec. L’application du processus itératif aux données met en évidence une augmentation du nombre de patrons de réponses détectés comme inappropriés, présentant un impact relativement faible sur les paramètres d’items estimés et un nombre restreint d’itérations nécessaires pour obtenir une convergence du processus itératif. [less ▲]

Detailed reference viewed: 6 (0 ULg)
Full Text
Peer Reviewed
See detailA note on the item information function of the four-parameter logistic model
Magis, David ULg

in Applied Psychological Measurement (2013), 37

This paper focuses on four-parameter logistic (4PL) model (Barton & Lord, 1981) as an extension of the usual three-parameter logistic (3PL) model with an upper asymptote possibly different from one. For a ... [more ▼]

This paper focuses on four-parameter logistic (4PL) model (Barton & Lord, 1981) as an extension of the usual three-parameter logistic (3PL) model with an upper asymptote possibly different from one. For a given item with fixed item parameters, Lord (1980) derived the value of the latent ability level that maximizes the item information function under the 3PL model. The purpose of this paper is to extend this result to the 4PL model. A generic and algebraic method is developed for that purpose. The result is practically illustrated by an example and several potential applications of this result are outlined. [less ▲]

Detailed reference viewed: 49 (5 ULg)
Full Text
Peer Reviewed
See detailÉvaluation d’un test de lecture en anglais par deux méthodes de détection du fonctionnement différentiel d’items
Pichette, François; Raîche, Gilles; Béland, Sébastien et al

in Revue des Sciences de l'Education (2013), 37

Cette étude vise à examiner la présence de fonctionnement différentiel d’items selon le sexe des répondants dans un test de compréhension en lecture en anglais administré à 171 universitaires francophones ... [more ▼]

Cette étude vise à examiner la présence de fonctionnement différentiel d’items selon le sexe des répondants dans un test de compréhension en lecture en anglais administré à 171 universitaires francophones. Deux méthodes non paramétriques sont utilisées: le test Mantel-Haenszel et le modèle de régression logistique. Sur un total de 64 items, deux présentent un fonctionnement différentiel selon le test Mantel-Haenszel, alors que cinq items supplémentaires ressortent par la régression logistique. Ce faible nombre d’items suggère une bonne équité du test, mais les différences observées soulignent la nécessité d’analyses additionnelles pour clarifier le statut de ces items. [less ▲]

Detailed reference viewed: 44 (2 ULg)
Full Text
Peer Reviewed
See detailItem purification does not always improve DIF detection: a counter-example with Angoff’s Delta plot
Magis, David ULg; Facon, Bruno

in Educational & Psychological Measurement (2013), 73

Item purification is an iterative process that is often advocated as improving the identification of items affected by differential item functioning (DIF). With test-score based DIF detection methods ... [more ▼]

Item purification is an iterative process that is often advocated as improving the identification of items affected by differential item functioning (DIF). With test-score based DIF detection methods, item purification iteratively removes the items currently flagged as DIF from the test scores in order to get purified sets of items, unaffected by DIF. The purpose of this paper is to highlight that item purification is not always useful and that a single run of the DIF method may return equally suitable results. Angoff’s Delta plot is considered as a counter-example DIF method, with a recent improvement to the derivation of the classification threshold. Several possible item purification processes may be defined with this method, and all of them are compared through a simulation study and a real data set analysis. It appears that none of these purification processes clearly improves the Delta plot performance. A tentative explanation is drawn from the conceptual difference between the modified Delta plot and the other traditional DIF methods. [less ▲]

Detailed reference viewed: 11 (1 ULg)
Full Text
Peer Reviewed
See detailNon-graphical solutions to Cattell's scree test
Raîche, Gilles; Walls, Ted; Magis, David ULg et al

in Methodology: European Journal of Research Methods for the Behavioral and Social Sciences (2013), 9

Most of the strategies that have been proposed to determine the number of components that account for the most variation in a principal components analysis of a correlation matrix rely on the analysis of ... [more ▼]

Most of the strategies that have been proposed to determine the number of components that account for the most variation in a principal components analysis of a correlation matrix rely on the analysis of the eigenvalues and on numerical solutions. The Cattell’s scree test is a graphical strategy with a nonnumerical solution to determine the number of components to retain. Like Kaiser’s rule, this test is one of the most frequently used strategies for determining the number of components to retain. However, the graphical nature of the scree test does not definitively establish the number of components to retain. To circumvent this issue, some numerical solutions are proposed, one in the spirit of Cattell’s work and dealing with the scree part of the eigenvalues plot, and one focusing on the elbow part of this plot. A simulation study compares the efficiency of these solutions to those of other previously proposed methods. Extensions to factor analysis are possible and may be particularly useful with many low-dimensional components. [less ▲]

Detailed reference viewed: 76 (5 ULg)
Full Text
Peer Reviewed
See detailImpact de la méthode d'estimation du niveau d'habileté et du choix des premiers items sur l'efficacité de l'administration adaptative du TCALS II
Magis, David ULg; Raîche, Gilles

in Raîche, Gilles; Ndinga, Pascal; Meunier, Hélène (Eds.) Des mécanismes pour assurer la validité de l'interprétation de la mesure en éducation. Tome 3: : aspects pratiques (2013)

Le TCALS II (test de classement en anglais, langue seconde, au collégial, 2e version) est un questionnaire constitué d’un nombre fixe de 85 items administré aux étudiants de la province du Québec qui ... [more ▼]

Le TCALS II (test de classement en anglais, langue seconde, au collégial, 2e version) est un questionnaire constitué d’un nombre fixe de 85 items administré aux étudiants de la province du Québec qui entament des études au niveau collégial. Une version adaptative informatisée de ce test est envisagée pour la première fois dans cette étude. Deux problématiques sont regardées de plus près : le choix d’une méthode d’estimation du niveau d’habileté optimale et la sélection des premiers items du test. Ces deux problématiques sont étudiées simultanément par le biais de simulation Monte-Carlo à partir de plusieurs règles d’arrêt liées à la longueur du test. On en conclut que le choix des premiers items affecte peu l’estimation du niveau d’habileté, tandis que des différences notoires apparaissent toutefois entre les quatre méthodes d’estimation comparées. Certaines conclusions et recommandations sont dressées pour la poursuite ultérieure de ces travaux. [less ▲]

Detailed reference viewed: 9 (0 ULg)
Peer Reviewed
See detailDuration perception: A Developmental Semiology from 2:6 to 13 Years, General Population versus Atypical, Assessment by Parental Questionnaire
SCHOLL, Jean-Marc ULg; Philippe, Paule; Gérard, Paul ULg et al

Conference (2012, December 20)

Introduction Perception of duration has a major impact on the child’s ability to manage everyday life. Usually, the perception of time is considered in its sequential component. To our knowledge, possible ... [more ▼]

Introduction Perception of duration has a major impact on the child’s ability to manage everyday life. Usually, the perception of time is considered in its sequential component. To our knowledge, possible semiological markers for the capacity to apprehend temporal duration have not yet been explored. There are thus no existing tools either for its evaluation (in everyday life) or for the description of its development during childhood. We are thus largely in the dark about how the perception of duration develops during childhood. Hypothesis 1) It is possible to track perception of duration using semiological markers in everyday life; 2) Children with developmental disorders can be expected to develop difficulties in this domain. Method We designed a questionnaire for parents using a Likert scale. The questionnaire was administered to 2 samples from 2:6 to 13 years: 827 in a general population and 297 in a mixed-psychopathological population recruited from the Mental Health Services network. We carried out a multinomial logistic regression and used percentiles curves (P5,50,95). Results In the general population, perception of duration is gradually acquired and full competence is attained by 9 years. The apprehension of sequential time is achieved by 4 years. In the psychopathological sample, mean perception of temporal duration is delayed by 18 months and significant difficulties remain even at 13 years. The apprehension of sequential time is also delayed: even at 13 years it remains low (at percentile 95). We have found no sex-related differences. Discussion Perception of duration is an important developmental feature which has not been taken into account until now. Semiological markers can be used to differentiate typically developing children from clinical populations as to their respective capacities to perceive temporal duration. [less ▲]

Detailed reference viewed: 52 (19 ULg)
Full Text
Peer Reviewed
See detailSome formulas for the standard error of the weighted likelihood estimator of ability with small psychometric tests
Magis, David ULg

Conference (2012, October 26)

The weighted likelihood estimator of ability (WLE, [3]) was introduced as an asymptotically unbiased estimator of ability in item response theory (IRT) models. Moreover, its standard error was shown to be ... [more ▼]

The weighted likelihood estimator of ability (WLE, [3]) was introduced as an asymptotically unbiased estimator of ability in item response theory (IRT) models. Moreover, its standard error was shown to be asymptotically equal to that of the maximum likelihood (ML) estimator [2]. Although this asymptotic framework is most often encountered in psychometric and educational studies, there are several practical applications for which an "exact" formula for the standard error would be useful. For instance, such a formula would certainly be convenient at the early steps of a computerized adaptive test (CAT), whenever only a few items are administered. The purpose of this paper is to derive two possible formulas for the standard error of the WLE, by starting from the objective function to be optimized and deriving the standard error in a similar approach of the ML framework (see e.g., [1]). The two potential formulas are then compared through both, a small simulation study and a practical analysis with realistic, yet arti cial data. It is concluded that one of the formulas must be preferred to the other, both for mathematical consistency and on the basis of the simulated results. References [1] Baker, F. B., & Kim, S.-H. (2004). Item Response Theory: Parameter Estimation Techniques (2nd edition). New York: Marcel Dekker. [2] Lord, F. M. (1980) Applications of Item Response Theory to Practical Testing Problems. Hillsdale, NJ: Lawrence Erlbaum. [3] Warm, T.A. (1989). Weighted likelihood estimation of ability in item response models. Psychometrika, 54, 427-450. [less ▲]

Detailed reference viewed: 30 (0 ULg)
Peer Reviewed
See detailA framework and approaches to develop an in-house CAT with freeware and open sources
Kimura, Tetsuo; Han, Kyung; Kosinski, Michal et al

Conference (2012, August 13)

Detailed reference viewed: 11 (1 ULg)
Full Text
Peer Reviewed
See detailTwo issues in differential item functioning and two recently suggested solutions
Magis, David ULg; Facon, Bruno; De Boeck, Paul

Conference (2012, July 03)

Two issues of current interest in the framework of differential item functioning (DIF) are considered. First, in the presence of small samples of respondents, the asymptotic validity of most traditional ... [more ▼]

Two issues of current interest in the framework of differential item functioning (DIF) are considered. First, in the presence of small samples of respondents, the asymptotic validity of most traditional DIF detection methods is not guaranteed. Second, even with large samples of respondents, test score based methods such as Mantel-Haenszel) are affected by Type I error inflation when the true underlying model is not the Rasch model and in the presence of impact. To deal with small samples of respondents, Angoff’s Delta plot may be considered as a simple and straightforward DIF method. An improvement is proposed, based on acceptable assumptions, to select an optimal classification threshold rather than fixing it arbitrarily (as with the standard Delta plot). This modified Delta plot was compared to its standard version and to the Mantel-Haenszel method by means of simulations. Both, Mantel-Haenszel and the modified Delta plot outperform Angoff’s proposal, but the modified Delta plot is much more accurate for small samples than Mantel-Haenszel. For the second issue, a robust outlier approach to DIF was developed, by considering DIF items as outliers in the set of all tests items, and flagging the outliers with robust statistical inferential tools. This approach was compared with the Mantel-Haenszel method using simulations. Stable and correct Type I errors are observed for the robust outlier approach, independent of the underlying model, while Type I error inflation is observed for the Mantel-Haenszel method. The robust outlier method may therefore be considered as a valuable alternative. [less ▲]

Detailed reference viewed: 33 (4 ULg)
Full Text
Peer Reviewed
See detailLa librairie catR : une application pour soutenir le développement de tests adaptatifs informatisés comme modalités d’évaluation des apprentissages
Magis, David ULg; Raîche, Gilles

Conference (2012, June 05)

Le testing adaptatif informatisé (TAI) est une méthode d’administration de tests d’évaluation des apprentissages possédant des avantages significatifs sur l’administration fixe (papier-crayon) de mêmes ... [more ▼]

Le testing adaptatif informatisé (TAI) est une méthode d’administration de tests d’évaluation des apprentissages possédant des avantages significatifs sur l’administration fixe (papier-crayon) de mêmes tests : réduction de la longueur du test, évaluation individualisée, estimation immédiate des compétences évaluées, etc. Bien que développé depuis de nombreuses années, le TAI est, en pratique, utilisé de façon marginale. Ceci, entre autres, en raison des difficultés de calculs associés à l’utilisation de la théorie de la réponse à l’item (TRI) comme modélisation sous-jacente des TAI. Heureusement, le développement récent de logiciels gratuits et programmables, tel que R, permettent à présent de soutenir ces modélisations et ainsi de supporter le TAI avec une grande efficacité. Cet exposé vise un triple objectif. Premièrement, une présentation succincte et schématique du TAI est proposée en insistant sur ses aspects spécifiques. Deuxièmement, la librairie catR du logiciel R est décrite brièvement ainsi que ses fonctionnalités. Finalement, l’utilité de catR ainsi que son interaction avec des plateformes de développement du TAI, telle que Concerto, sont présentées. Les éléments techniques du TAI ne seront pas abordés, le but de l’exposé étant l’illustration pratique du TAI et son utilité en évaluation des apprentissages. [less ▲]

Detailed reference viewed: 12 (0 ULg)
Full Text
Peer Reviewed
See detailAnalyse du fonctionnement différentiel des items des versions papier et informatisée d'un test de classement en anglais, langue seconde, en présence de patrons de réponses inappropriés
Béland, Sébastien; Raîche, Gilles; Magis, David ULg et al

Conference (2012, June 05)

On utilise traditionnellement des tests de type papier-crayon lors des épreuves d’évaluation en éducation. Leur format de passation simple, et peu dispendieux, en a favorisé leur diffusion au sein des ... [more ▼]

On utilise traditionnellement des tests de type papier-crayon lors des épreuves d’évaluation en éducation. Leur format de passation simple, et peu dispendieux, en a favorisé leur diffusion au sein des établissements de tous les cycles d’étude. Les administrateurs de tests ont aussi commencé à dispenser ces épreuves à l’aide d’outils informatiques. Toutefois, l’équivalence des résultats obtenus entre les tests administrés sous forme papier-crayon ou informatisée n’est pas toujours assurée. De plus, la fonction de l’évaluation peut avoir un impact sur cette équivalence. Dans le contexte de tests à fonction certificative en mathématiques, par exemple, on a noté que dans les versions informatisées le niveau de difficulté des items pouvait être plus élevé.Un élément supplémentaire vient complexifier la situation, soit la présence d’individus qui tentent de manipuler leur résultat au test et ainsi produire des patrons de réponses inappropriés. Nous nous intéressons ici à vérifier cette équivalence au regard d’un test à fonction de classement en anglais, langue seconde, au niveau collégial au Québec. Dans le cadre de cette étude, nous avons élaboré une démarche en trois étapes. Premièrement, nous réaliserons séparément une première estimation des paramètres d’items, selon le modèle de Rasch pour la version papier-crayon (N=1709) administrée en 2009 et la version informatisée (N=13278) administrée en 2011. Deuxièmement, nous détecterons les patrons de réponse inappropriés à l’aide de l’indice lz* (Snijders, 2001). Troisièmement, les patrons de réponses inappropriés ayant été retirés, nous procéderons à l’analyse du fonctionnement différentiel des items. Dans ce cas-ci, nous utiliserons la version papier-crayon de l’épreuve d’évaluation comme source de données pour le groupe de référence et la version informatisée comme source de données pour le groupe focal. Cette dernière étape nous permettra de vérifier si les items sont équivalents quel que soit la version administrée. [less ▲]

Detailed reference viewed: 65 (1 ULg)
Full Text
Peer Reviewed
See detailOn the accurate selection of asymptotic detection thresholds for Infit and Outfit indexes of person fit
Magis, David ULg; Raîche, Gilles; Béland, Sébastien

Conference (2012, April 11)

It exists a bunch of person fit indexes but Lz (Drasgow, Levine, & Williams, 1985), Infit mean square W (Wright & Masters, 1982) and Outfit mean square U (Wright & Stone, 1979) are certainly the most ... [more ▼]

It exists a bunch of person fit indexes but Lz (Drasgow, Levine, & Williams, 1985), Infit mean square W (Wright & Masters, 1982) and Outfit mean square U (Wright & Stone, 1979) are certainly the most popular. However, they have the undesirable property that their limiting distribution depends on the true ability level, which is generally unknown. In addition, the asymptotic distribution of U and W indexes was not clearly stated. Snijders (2001) proposed a generalization of the index Lz to incorporate estimated ability levels in its computation, and derived subsequent asymptotic normality of this modified Lz* index. The purpose of this talk is threefold. First, the generalization of Lz to Lz* is briefly sketched. Second, it is shown how this generalization can be successfully applied to both U and W indexes, yielding generalized U* and W* indexes respectively. Third, the accuracy of generalized indexes in detecting person (mis)fit is assessed through a simulation study. Three situations were investigated: (a) absence of misfit; (b) presence of cheating (yielding spuriously high scores); (c) presence of inattention (yielding spuriously low scores). Several conditions were varied, such as test length and aberrance rates when misfit was introduced. Response patterns were generated under the Rasch model and maximum likelihood estimation was performed to obtain the ability estimates. Several significance levels were selected. It is observed, that the generalized indexes Lz*, U* and W* better recover the significance level than their standard alternatives Lz, U and W respectively, while they are more powerful in identifying the two types of person misfit. In particular, the modified index W* has the best improvement in performance with respect to its original version W. It is concluded that Snijders' generalization of Lz index to Lz* is also accurate for U and W indexes under Rasch modelling. Possible extensions to other person fit indexes, such as ECI indexes (Tatsuoka, 1984), other ability estimators, and other IRT models are eventually briefly discussed. [less ▲]

Detailed reference viewed: 31 (2 ULg)