Art der
Berechnung des Konfidenzintervalls (Kritische
Differenz für den Unterschied zwischen zwei Werten einer Person):
Messfehlerkritisch: Mit Hilfe der
Äquivalenzhypothese kann getestet werden, ob der Unterschied in einer
Eigenschaftsausprägung oder Fähigkeit darauf zurückzuführen ist, dass die Tests
unterschiedlich messgenau sind. Liegt die beobachtete kritische Differenz über der
durch das Programm errechneten kritischen Differenz, heißt dies, dass der
Messwertunterschied in beiden Tests nicht
dadurch erklärbar ist, dass die Tests beide eine unterschiedliche
Messgenauigkeit besitzen und damit ist der Unterschied praktisch bedeutsam.
Valenzkritisch: Mit Hilfe der
nach der Regressionshypothese geschätzten „wahren“ Werte kann getestet werden,
ob der Unterschied in der Eigenschaftsausprägung darauf zurückzuführen ist, das
die Tests oder die Skalen etwas Unterschiedliches messen. Liegt die beobachtete
kritische Differenz über der durch das Programm errechneten kritischen
Differenz, heißt dies, dass der Messwertunterschied in beiden Tests nicht
dadurch erklärbar ist, dass die Tests eine unterschiedliche Eigenschaft oder
Fähigkeit erfassen. In der Regel ist diese Information für den Testleiter/in
wenig interessant. Diese Auswertung wird daher nicht empfohlen.
Mess- und valzenzkritische Absicherung einer kritischen Differenz: Wenn nun die
kritische Differenz zwischen zwei Testwerten weder durch die Ungenauigkeit der
Tests noch durch deren unterschiedlichen Messanspruch bedingt ist, kann beides
(unterschiedliche Messgenauigkeit und unterschiedlicher Messanspruch) dafür
verantwortlich sein, dass dieser Messwertunterschied zwischen beiden Tests
beobachtet wurde. Daher ist eine mess- und schätzfehlerkritische Absicherung
der Testwertdifferenz notwendig. Erst wenn die beobachtete Differenz über
dieser kritischen Differenz liegt, spricht man von einem inhaltlich bedeutsamen
Unterschied der Fähigkeits- oder Eigenschaftsausprägung einer Person.
Dazu ist es
zuerst notwendig, dass die Reliabilitätsschätzungen
für beide Untertests gleich sind. Ist dies nicht der Fall, muss eine sogenannte
tau-Normierung durchgeführt werden. Diese wird mit
dem Programm durchgeführt, unabhängig davon, ob ein bedeutsamer Unterschied
zwischen beiden Messwerten vorliegt oder nicht. Die beiden tau-normierten
Messwerte können dann mit Hilfe einer z-verteilten
Prüfgröße auf Unterschiedlichkeit geprüft werden, berücksichtigt man nur die Messungenauigkeit
der Tests. Liegt ein bedeutsamer Unterschied vor, wird nun in einem nächsten
Schritt geprüft, ob der Unterschied durch die Messungenauigkeit der Tests und
dem unterschiedlichen Messanspruch der Tests bedingt ist. Dazu wird wiederum
eine z-verteilte Prüfgröße herangezogen. Ist auch
dieser Unterschied signifikant, ist der Unterschied in der Fähigkeit bzw.
Eigenschaftsausprägung bedeutsam, also nicht auf die Messgenauigkeit der Tests
und deren unterschiedliche Korrelation miteinander zurückzuführen.
Voraussetzungen: Um eine solche Prüfung
durchzuführen sollten beide Testkennwerte bivariat normalverteilt sein. Eine solche Prüfung ist aufwendig. Es
sollte zumindest sichergestellt werden, dass beide Kennwerte univariat normalverteilt sind.
Wichtig: Diese Formeln können nicht angewandt
werden, wenn ein Untertest- und ein Gesamttestwert auf Unterschiedlichkeit
geprüft werden soll oder zwei Skalen- oder Untertestkennwerte, die eine gewisse
Anzahl an Untertests oder Items teilen (siehe Stelzl,
1982). In einem solchen Fall ist die Annahme unkorrelierter Messfehler
verletzt. Nehmen wir als Beispiel den Reasoning-Gesamtwert
aus dem I-S-T 2000 R und die verbale Intelligenz aus dem I-S-T 2000 R: In die
Berechnung des Reasoning-Werts geht der Kennwert der
verbalen Intelligenz mit ein. Damit sind die Messfehler des Kennwerts der
verbalen Intelligenz im Reasoning-Kennwert enthalten.
Die Unabhängigkeit der Messfehler ist verletzt.
Literatur:
Stelzl, I. (1982). Fehler und Fallen der Statistik. Bern:
Huber.