Rasch-Modell
mathematisch psychologisches Modell der Testtheorie Aus Wikipedia, der freien Enzyklopädie
Das Rasch-Modell ist ein vom dänischen Statistiker Georg Rasch entwickeltes mathematisch-psychologisches Modell der Item-Response-Theorie.
Überblick
Psychologisch-diagnostische Verfahren (insbesondere Leistungstests, aber z. B. auch Fragebögen) zur Messung psychischer Merkmale (insbesondere Fähigkeiten, aber z. B. auch Persönlichkeitseigenschaften) können auf verschiedenen Ansätzen der „Theorie des Messens“ basieren. Diese Ansätze unterscheiden sich darin, wie genau aus den jeweiligen Antworten auf die sog. Items (Fragen, insbesondere Aufgaben) eines solchen Verfahrens Rückschlüsse auf den Ausprägungsgrad der fraglichen Eigenschaft einer Person geschlossen wird. Dabei ist zu unterscheiden zwischen dem Ansatz der sog. Klassischen Testtheorie und der Item-Response-Theorie (manchmal noch immer bezeichnet als „Probabilistische Testtheorie“, weil der angesprochene Zusammenhang von Antwort und Eigenschaft nicht deterministisch, sondern probabilistisch/wahrscheinlichkeitsbasiert angenommen wird).
Wissenschaftstheoretischer Hintergrund
So postuliert das Rasch-Modell folgende Wahrscheinlichkeit dafür, dass eine Person bei Aufgabe zur Lösung (Antwort „1“) gelangt:
- ;
diese Wahrscheinlichkeit hängt also vom Fähigkeitsparameter ab, das ist das (wahre) Fähigkeitsausmaß von Person , sowie vom Item- bzw. Schwierigkeitsparameter , das ist der (wahre) Schwierigkeitsgrad von Aufgabe - und zwar in Form einer logistischen Funktion. Die Wahrscheinlichkeit, dass die Person die Aufgabe nicht löst (Antwort „0“), beläuft sich folglich auf:
.
Parameterschätzung
Die Parameterschätzung erfolgt im Rasch-Modell über den Maximum-Likelihood-Ansatz. Es gibt verschiedene Methoden der Parameterschätzung:[1][2]
- Die wissenschaftstheoretisch vorzuziehende Methode ist die einer bedingten Maximum-Likelihood-Schätzung der Item- bzw. Schwierigkeitsparameter (conditional Maximum-Likelihood-Methode),[3] weil diese einen Modelltest ermöglicht und nicht bloß die Feststellung der Güte der Passung von Daten an das Modell mittels sog. goodness-of-fit Indizes. „Conditional“ bedeutet dabei eine Schätzung derart, dass die Bedingung gesetzt wird, die ebenfalls unbekannten Personen- bzw. Fähigkeitsparameter durch die diesen zugrunde liegenden erschöpfenden Statistik (hier: Anzahl der gelösten Aufgaben) ersetzen zu können.
- Eine andere Methode ist die einer marginal Maximum-Likelihood-Schätzung der Itemparameter, bei der Annahmen über die Verteilung der Personenparameter in der Population getroffen werden.
- Eine heutzutage kaum mehr angewendete Methode ist die der gemeinsamen Schätzung (joint Maximum-Likelihood-Schätzung) von Personen- und Itemparametern.
Bedeutung
Zusammenfassung
Kontext
Die besondere Bedeutung des Rasch-Modells ist darin begründet, dass es notwendigerweise gelten muss (sog. Notwendigkeitsbeweis.[4]), wenn als Testwert in einem psychologischen Test die Anzahl gelöster Aufgaben verwendet wird. Begleitet wird dieser Umstand davon, dass seine Geltung für sämtliche Aufgaben eines psychologischen Tests eben empirisch/inferenzstatistisch mittels Modelltests geprüft werden kann. Letzteres steht im Zusammenhang damit, dass das Rasch-Modell „spezifisch objektive Vergleiche“ ermöglicht, d. h. insbesondere, dass in den Vergleich (der Schwierigkeit) von Aufgaben eines psychologischen Tests anhand beliebiger Personen nur die diesbezüglich relevanten („informativen“) Daten eingehen, aber nicht auch solche, die für den angestrebten Vergleich keine Information liefern[5] - man spricht salopp auch von der sog. Stichprobenunabhängigkeit des Rasch-Modells[6] Als Konsequenz folgt daraus, dass dann, wenn sich die Schätzungen der Itemparameter für verschiedene Personengruppen als (statistisch) nicht gleich herausstellen, das Rasch-Modell nicht gilt.
Wissenschaftstheoretisch auch überzeugend ist, dass im Gegensatz zur sog. Klassischen Testtheorie, gemäß welcher die fraglichen Messfehler in einem psychologischen Test für alle je untersuchten Personen als gleich groß angenommen werden, im Rasch-Modell (bzw. in den Modellen der Item-Response-Theorie) für jeden geschätzten Fähigkeitsparameter ein (test-)spezifischer Mess-/Schätzfehler bestimmt wird: Es ist völlig unplausibel, dass der Messfehler selbst bei Personen in den extremen Leistungsbereichen gleich ist wie bei Personen im mittleren Leistungsbereich, für die üblicherweise viel mehr schwierigkeitsrelevante Aufgaben zur Verfügung stehen.
Die damit angedeutete Optimierungsmöglichkeit von vorzugebenden Aufgaben je Fähigkeitsparameter einer Person kann zum Adaptiven Testen genutzt werden (wie auch bei anderen Modellen der Item-Response-Theorie): Es werden je Person in Abhängigkeit von ihrer Leistung in vorausgehenden Aufgaben die weiteren Aufgaben ausgewählt.[7][8] Daraus herleitbar ist auch die Möglichkeit, verschiedene Testversionen mit entweder eher einfachen oder eher moderaten oder eher schwierigen Aufgaben zusammen zu stellen und trotzdem die Vergleichbarkeit aller Testleistungen zu gewährleisten; und auch die Möglichkeit, (bei Papier-Bleistift-Tests, die gleich einer Gruppe von Testpersonen vorgegeben werden) die Testvorgabe frühzeitig abzubrechen, sobald die am langsamsten arbeitende Testperson soviele Aufgaben bearbeitet hat, wie es zur ausreichend hohen Messgenauigkeit der Schätzung ihres Fähigkeitsparameters notwendig ist.[9]
Interessant ist, dass die Auswertungen der sog. PISA-Studie im Wesentlichen auf dem Rasch-Modell beruhen.
Modelltest
Zusammenfassung
Kontext

In der Praxis wird am häufigsten eine Teilung der verfügbaren Personen-Stichprobe in Viel- und in Weniglöser vorgenommen (d. h. anhand des Medians des Testwerts in der verfügbaren Stichprobe). Eine grafische Modellkontrolle, die bereits von Georg Rasch selbst vorgeschlagen wurde, ergibt sich, indem die erhaltenen Schätzwerte aller Itemparameter in (den) zwei Teilstichproben in einem rechtwinkligen Koordinatensystem gegeneinander aufgetragen werden (für die eine Stichprobe auf der Abszisse, für die andere auf der Ordinate), Im Fall, dass die Itemparameterschätzungen innerhalb beider Stichproben jeweils auf eine Summe von null normiert wurden, sollten alle resultierenden Punkte auf einer Geraden mit Anstieg 1 liegen, wobei diese Gerade durch den Nullpunkt geht: Dann stimmen die Itemparameterschätzungen in allen Aufgaben überein. Drastische Abweichung von dieser Geraden können im Rahmen einer Testkonstruktion zur Aufgabenselektion genutzt werden (s. Abb.). Inferenzstatistisch wird vor allem der Likelihood-Quotienten-Test von Andersen[10] eingesetzt; es existieren aber auch andere Modelltests,[11][12][13] Die meisten dieser einschlägigen Modelltests leistet das open-source R-package eRm[14] insbesondere wegen der Möglichkeit bedingter Maximum-Likelihood-Schätzungen für die Itemparameter den Likelihood-Quotienten-Test von Andersen.
Neuerdings interessiert für Modelltests auch der in der Statistik sonst übliche Ansatz der sog. Untersuchungsplanung, d. i. die Vorausberechnung der notwendigen Stichprobengröße von Personen, um bei gegebenem Risiko 1. Art (also der Wahrscheinlichkeit, die Nullhypothese, dass das Rasch-Modell gilt, fälschlich zu verwerfen) ein gewisses festgesetztes Mindetsausmaß an Modellabweichung nicht häufiger als mit einem gegebenen Risiko 2. Art (also der Wahrscheinlichkeit, die Nullhypothese, dass das Rasch-Modell gilt, fälschlich beizubehalten) zu „übersehen“.[15]
Anmerkung
Es existieren auch etliche Verallgemeinerungen des Rasch-Modells, darunter insbesondere solche für mehr als zwei Antwortkategorien; siehe Item-Response-Theorie.
Literatur
- S. Embretson, S. Reise: Einführung in die Theorie psychologischer Tests. Grundlagen und Anwendungen. Huber, Bern 1974, ISBN 3-456-80039-8.
- G. H. Fischer, I. W. Molenaar (Hrsg.): Rasch models. Springer, New York 1995, ISBN 0-387-94499-0.
- K. D. Kubinger (Hrsg.): Moderne Testtheorie - Ein Abriß samt neuesten Beiträgen. Psychologie Verlags Union, München 1989, ISBN 3-407-86160-5.
- I. Koller, R. Alexandrowicz, R. Hatzinger: Das Rasch-Modell in der Praxis: eine Einführung mit eRm. (= UTB; Bd. 3786). Facultas/WUV, Wien 2012, ISBN 978-3-8252-3786-8.
- W. Kempf (Hrsg.): Probabilistische Modelle in der Sozialpsychologie. Huber, Bern 1974.
- W. Kempf, B. H. Repp (Hrsg.): Mathematical models for social psychology. Wiley, New York 1977.
- H. Müller: Probabilistische Testmodelle für diskrete und kontinuierliche Ratingskalen. Huber, Bern 1999, ISBN 3-456-82645-1.
- G. Rasch: Probabilistic models for some intelligence and attainment tests. University of Chicago Press, Chicago 1960/1980.
- J. Rost: Lehrbuch Testtheorie – Testkonstruktion. 2., vollst. überarb. und erw. Auflage. Huber, Bern 2004, ISBN 3-456-83964-2.
- M. von Davier, C. H. Carstensen (Hrsg.): Multivariate and Mixture Distribution Rasch Models. Extensions and Applications. Springer, Berlin 2006, ISBN 0-387-32916-1.
Einzelnachweise
Wikiwand - on
Seamless Wikipedia browsing. On steroids.