Art der
Berechnung des Konfidenzintervalls (Konfidenzintervall um einen beobachteten Wert)
Zur
statistischen Absicherung von beobachteten Testwerten stehen in der Klassischen
Testtheorie im Wesentlichen zwei Methoden zur Verfügung: Absicherung des
individuellen Testergebnisses mit Hilfe des Standardmessfehlers
(Äquivalenzhypothese) und des Standardschätzfehlers (Regressionshypothese). Die
Äquivalenzhypothese geht davon aus, dass der beobachtete Wert einer Person eine
gute Annäherung (Schätzung) an den wahren Wert der Person darstellt. Im
Gegensatz dazu geht die Regressionshypothese davon aus, dass der wahre Wert der
Person erst aus dem beobachteten Wert der Person geschätzt werden muss. Aus den
genannten Hypothesen kann man Formeln (siehe Bühner, 2004) für
Konfidenzintervalle ableiten. Bei einer hohen Messgenauigkeit des Tests führen
beide Methoden zu ähnlichen breiten Konfidenzintervallen. Die Berechnung von
Konfidenzintervallen nach der Äquivalenzmethode benötigt weniger statistische
Voraussetzungen und daher in vielen Fällen unproblematischer als die Berechnung
nach der Regressionshypothese. Zu weiteren Vor- und Nachteilen siehe Bühner
(2004) oder Stelzl (1993).
Klassifikation: Die
Beurteilung einer Person erfolgt im Vergleich zu einer Normstichprobe. Um das
Testergebnis einer Person zu beschreiben, gibt es bestimmte Kategorien,
beispielsweise unterdurchschnittlich, durchschnittlich und überdurchschnittlich
bzw. Zwischenkategorien durchschnittlich bis überdurchschnittlich und
durchschnittlich bis überdurchschnittlich. Diese Kategorien werden anhand der
Standardabweichung der Normstichprobe gebildet:
Liegt das Konfidenzintervall
(KI) einer Person komplett unterhalb einer Standardabweichung (SD) vom
Mittelwert (M), wird die Eigenschaft oder Fähigkeit der Person als unterdurchschnittlich
im Vergleich zur Normstichprobe bezeichnet: Grenzen des KI liegen unter M -
SD.
Erstreckt sich das
Konfidenzintervall (KI) einer Person vom Bereich unterhalb einer
Standardabweichung (SD) vom Mittelwert (M) in den Bereich innerhalb einer
Standardabweichung (SD) um den Mittelwert (M), wird Eigenschaft oder Fähigkeit
der Person als unterdurchschnittlich bis durchschnittlich im
Vergleich zur Normstichprobe bezeichnet: untere Grenze des KI liegt unter M -
SD und obere Grenze des KI im Bereich um M ± SD
Liegt das Konfidenzintervall
einer Person im Bereich um eine Standardabweichung (SD) um den Mittelwert (M),
wird Eigenschaft oder Fähigkeit der Person als durchschnittlich im
Vergleich zur Normstichprobe bezeichnet: Grenzen des KI liegen im Bereich um M ±
SD.
Erstreckt sich das
Konfidenzintervall (KI) einer Person vom Bereich innerhalb einer
Standardabweichung (SD) um den Mittelwert (M) bis in den Bereich über eine
Standardabweichung (SD) vom Mittelwert (M), wird Eigenschaft oder Fähigkeit der
Person als durchschnittlich bis überdurchschnittlich im Vergleich zur
Normstichprobe bezeichnet: untere Grenze des KI liegt im Bereich um M ±
SD und obere Grenze des KI über M + SD.
Liegt das Konfidenzintervall
einer Person über einer Standardabweichung um den Mittelwert, wird die
Eigenschaft oder Fähigkeit der Person als überdurchschnittlich im Vergleich zur
Normstichprobe bezeichnet: Grenzen des KI liegen über M + SD.
Unterschiedliche Annahmen über die Klassifikation: In manchen
Testmanualen wird die oben genannte Klassifikation nicht verwendet. Alternativ
wird der Interquartilbereich (50 Prozent der Vergleichsgruppe liegen in diesem
Bereich) als Durchschnittsbereich herangezogen. Es mag gute statistische Gründe
für oder gegen diese alternative Klassifikation geben. Letztendlich spricht ein
inhaltliches Argument gegen die Verwendung des Interquartilbereichs. Durch
diese Klassifikationsregel wird der Durchschnittbereich kleiner: Personen
erzielen leichter ein über- oder unterdurchschnittliches Ergebnis. Auch in
diesem Fall sollte sich die Klassifikation an den nachteiligen Folgen für die
Person orientieren. In der Regel sind mit extremen Ausprägungen mehr Nachteile
als Vorteile verbunden. Dennoch sollten Regeln nicht starr, sondern gut begründet
angewandt werden. So kann unter bestimmten Annahmen auch die Verwendung des
Interquartilbereichs sinnvoll sein.
Ausnahmen: Für die
Interpretation der Messwerte von Personen muss ein weiterer Punkt beachtet werden.
Liegt der Mittelwert der Norm oder der Mittelwert der Rohwerte in der
Normstichprobe innerhalb des Konfidenzintervalls, wird die Fähigkeit oder
Eigenschaftsausprägung als durchschnittlich bezeichnet. Dies gilt unabhängig
davon, ob das Intervall im Bereich unterhalb oder über einer Standardabweichung
um den Mittelwert hinausragt. Wenn dies der Fall ist, spricht dies dafür, dass
Aussagen mit der gewählten Sicherheitswahrscheinlichkeit auf Basis der
Messgenauigkeit des Tests nicht sinnvoll sind. In einem solchen Fall ist es
günstig, die Sicherheitswahrscheinlichkeit zu reduzieren, z.B. von 95 Prozent
auf 90 oder 80 Prozent.
Die Klassische
Testtheorie nimmt an, dass die Breite des Vertrauensintervalls unabhängig vom
beobachteten Wert ist. Dies ist jedoch unzutreffend (vgl. Rost, 1999, S. 144).
Ist der beobachtete Wert extrem hoch oder extrem niedrig, ist seine
Messgenauigkeit geringer als bei einem Wert mit mittlerer Ausprägung. Diesem
Sachverhalt tragen weder die Regressions- noch die Äquivalenzhypothese
Rechnung. Der Anwender sollte sich jedoch im Klaren darüber sein, dass
durchschnittliche Messergebnisse ein kleineres Konfidenzintervall aufweisen als
extreme Werte.
Wichtig: Im Rahmen eines Gutachtens müssen im
Befund immer der Test(name) und die Vergleichsgruppe/Vergleichsnorm
genannt werden. Ohne diese Angaben können Normwerte nicht interpretiert werden.
Literatur:
Bühner, M.
(2006). Einführung in die Test- und
Fragebogenkonstruktion (2.Auflage). Pearson: München
Rost, J. (1999). Was ist aus
dem Rasch-Modell geworden? Psychologische Rundschau, 50(3), 140 – 156.
Stelzl, I. (1993).
Testtheoretische Module. In L. Tent & I. Stelzl, Pädagogisch-psychologische
Diagnostik (S. 39 – 201).
Göttingen:
Hogrefe.