Itemanalyse

Eine Itemanalyse bzw. Testfragenanalyse verwendet statistische Verfahren, um die Eignung einzelner Items (Testfragen) im Hinblick auf die Messung eines Ziels (typischerweise eine latente Variable $T$ ) zu untersuchen. Die Antwortwerte (Indikator (Sozialwissenschaften)) $X_{i}$ zur Testfrage $i$ sind beispielsweise durch eine Umfrage generiert worden.

Ziel ist es dabei, die Qualität einer Skala (Empirie) durch Überprüfung der Items (Testfragen) zu testen und gegebenenfalls zu verbessern. Skala bedeutet hier ein Instrument zur Messung bestimmter Variablen, z. B. der politischen Grundeinstellung oder des Umweltbewusstseins der Versuchsperson. Aufgabe der Itemanalyse ist es somit, die Brauchbarkeit einzelner Items für einen bestimmten Test zu überprüfen.

Die Itemanalyse ist ein zentrales Instrument für die Testkonstruktion und Testbewertung und kommt per Definition dem Wesen der Reliabilität (als Testgütekriterium) am nächsten. Entscheidend für den Test als Gesamtes sind dagegen dessen Gütekriterien und insbesondere die Frage der Validität, d. h., was der Test (d. h. alle Items zusammengenommen) eigentlich messen soll.

Itemschwierigkeit

Die Itemschwierigkeit wird durch einen Index gekennzeichnet, der dem Anteil derjenigen Personen entspricht, die das Item richtig lösen oder bejahen (Bortz & Döring, 2005). Früher wurde dieser Index darum auch Popularitätsindex genannt.

Zweck des Schwierigkeitsindexes ist die Unterscheidung von Probanden mit hoher Merkmalsausprägung und Probanden mit niedriger Merkmalsausprägung. Die Fähigkeit eines Items zu dieser Unterscheidung nennt man Trennschärfe. Bei klassischer Testkonstruktion haben Items mit mittlerer Itemschwierigkeit in der Regel die beste Trennschärfe.^[1] Unbrauchbar sind extrem ausgedrückt demzufolge alle Items, die von allen Probanden, bzw. Items, die von keinem Probanden gelöst werden konnten oder bejaht wurden. Mit dem Schwierigkeitsindex sollten demnach die Items selektiert werden, die nicht diesen beiden Klassen zugehören. Optimal wird eine Itemschwierigkeit von 50 % angesehen, wobei Items unter 20 % und über 80 % in der Regel ausgeschieden werden.^[1] Würde man allerdings nur Items mit einer Itemschwierigkeit von 50 % wählen, hätte man keine gute Differenzierung von Probanden mit niedriger Merkmalsausprägung und auch keine Differenzierung im Bereich hoher Merkmalsausprägungen (Deckeneffekt).^[1] Das bedeutet beispielsweise, dass überdurchschnittlich Intelligente alle Aufgaben eines Intelligenztests lösen könnten, wenn er keine so schwierigen Aufgaben enthalten würde, dass nur noch besonders hochbegabte sie lösen können. Es wäre dann nicht mehr möglich, Unterschiede in der Gruppe der Hochbegabten festzustellen. Bei Niveautests sollten die Schwierigkeitsindices über möglichst den ganzen Bereich des gemessenen Merkmals streuen, um einen möglichst großen Anwendungsbereich für den Test zu erhalten. Sind die Itemschwierigkeiten aber sehr unterschiedlich, leidet auch die interne Konsistenz der Skala, sprich durch die Beantwortung eines leichten Items lässt sich nicht vorhersagen, ob ein schwieriges beantwortet wird. Deshalb ist die Konstruktion von Niveautests mit klassischer Testtheorie schwierig.

Schwierigkeitsberechnung bei zweistufigen Antworten (z. B. stimmt/stimmt nicht):

$p={\frac {N_{R}}{N}}$

$N_{R}$ = Zahl der „Richtiglöser“, N = Zahl der Probanden, p = Schwierigkeitsindex (nur bei zweistufigen Antworten!)

Dies stellt eine Lösung für den einfachsten Fall dar. Sollten Probanden die Aufgabe nicht gelöst haben oder wird vermutet, dass die Antworten teilweise nur „richtig erraten“ wurden, so muss auf andere Lösungsalternativen zurückgegriffen werden (vgl. Fisseni, 1997, 41–42).

Schwierigkeitsberechnung bei mehrstufigen Antworten:

In diesem Fall ist p nicht definiert.

Mögliche Lösung des Problems:

Dichotomisierung der Item-Scores (z. B. 0 und 1), dann Berechnung als zweistufig mit p.

Berechnung von Mittelwert und Streuung (Mittelwert äquivalent zu p, jedoch muss die Streuung beachtet werden).

$p_{m}$ = Index für mehrstufige Antworten:

vereinfachte Formel:

$p_{m}={\frac {\text{Erreichte Wertepunkte}}{\text{Erreichbare Wertepunkte}}}$

zur exakteren Berechnung liegen von verschiedenen Autoren verschiedene Berechnungsvorschläge vor (vgl. Fisseni, 2004, 43–45).

Schwierigkeitsunterschiede zwischen zwei Items können über eine Mehrfeldertafel geprüft werden.

Diese Formeln gelten streng genommen nur für reine Niveautests, d. h. solchen, die keine Testzeitbegrenzung vorschreiben und/oder bei denen Probanden alle Aufgaben bearbeiten konnten. Ist Letzteres nicht erfüllt, wie es oftmals bei Leistungstests der Fall ist, darf die Anzahl der „richtigen“ Antworten nicht in Beziehung zur Gesamtzahl der Probanden gesetzt werden, sondern nur der Zahl, die die jeweilige Aufgabe überhaupt bearbeitet hat (vgl. Lienert, 1989).

Trennschärfe

Der Trennschärfe eines Items ist zu entnehmen, wie gut das gesamte Testergebnis aufgrund der Beantwortung eines einzelnen Items vorhersagbar ist (Bortz & Döring, 2005). Eine hohe Trennschärfe bedeutet also, dass das Item zwischen den Probanden im Sinne des Gesamttests zu differenzieren vermag (d. h., Probanden mit hoher Merkmalsausprägung lösen ein Item „richtig“, Probanden mit niedriger dagegen nicht).

Die Trennschärfe wird durch den Trennschärfekoeffizienten dargestellt. Dieser Korrelationskoeffizient zwischen einem Einzelitem und dem Gesamttestscore als Kriterium wird für jedes einzelne Item berechnet und richtet sich nach dem Skalenniveau der Testwerte. Ist der Test-Score intervallskaliert und normalverteilt, so wird als Trennschärfe ( $r_{it}$ ) die Produkt-Moment-Korrelation zwischen den Werten je Item i und dem korrigierten Gesamtwert t gewählt:

r_{it}={\frac {cov(i,t)}{s_{i}\cdot s_{t}}}

Ist $r_{it}$ = 0, wird ein Item von Probanden mit hoher wie niedriger Merkmalsausprägung gleichermaßen gelöst. Sofern negative Trennschärfen nicht mit einer Bedeutungsumkehr der Itemformulierung (oder Skala) gerechtfertigt sind, gelten diese Items als unbrauchbar.

A priori sind möglichst hohe absolute Trennschärfen wünschenswert, insbesondere aber für Niveautests. Die Trennschärfe eines jeden Items ist abhängig von seiner Schwierigkeit, der Homogenität bzw. Dimensionalität des Tests, der Stellung des Items innerhalb des Tests und der Reliabilität des Kriteriums. (Als Kriterium kann neben dem Testwert auch ein Außenkriterium herangezogen werden; dann handelt es sich gleichzeitig um einen Validitätskoeffizienten.) Die höchsten Trennschärfen findet man bei Items mit mittlerer Schwierigkeit (vgl. Lienert, 1989).

Homogenität

Die Homogenität ${\bar {r}}_{it}$ gibt an, wie hoch die einzelnen Items eines Tests im Durchschnitt miteinander korrelieren. Bei hoher Homogenität erfassen die Items eines Tests ähnliche Informationen (Bortz & Döring, 2005).

Werden alle k Testitems paarweise miteinander korreliert, ergeben sich $k(k-1)/2$ Korrelationskoeffizienten ( $r_{ii}$ ), deren (via Fisher’scher Z-Transformation errechneter) Mittelwert ( ${\bar {r}}_{ii'}$ ) die Homogenität des Tests beschreibt.

Die Höhe der Iteminterkorrelationen $r_{ii}$ ist abhängig von der Schwierigkeit. Je größer die Schwierigkeitsunterschiede zwischen den Items, desto geringer wird die Interkorrelation, die wiederum die Reliabilität eines Tests beeinflusst. In der Regel werden daher für einen (Sub-)Test entweder unkorrelierte (d. h. heterogene) Items gleicher Schwierigkeit oder positiv korrelierte (d. h. homogene) Items unterschiedlicher Schwierigkeit genutzt (vgl. Lienert, 1989).

Definition

Analyse der Rohwertverteilung

Statistische Kennwerte

Itemschwierigkeit

Trennschärfe

Homogenität

Dimensionalität

Literatur

Einzelnachweise

Wikiwand - on