This video: 

Testtheorien, Testkonstruktion und Psychologische Diagnostik (5)

Key points 

00:00 Testtheorien, Testkonstruktion und Psychologische Diagnostik (5)

01:50 Bitte.

02:04 Ist das auch in Ordnung?

03:20 So, wir sind stehen geblieben beim dritten Axiom.

05:19 Und das hat ja sozusagen auch was mit einem Messfehler zu tun, oder?

07:05 Und was hat jetzt die klassische Testtheorie zu bieten hinsichtlich der Reliabilität?

07:37 Ist die Messgenauigkeit, die Messpräzision einverstanden?

09:29 Erinnern Sie sich an dieses Beispiel?

10:27 0,40?

11:10 Weitere Vorschläge?

11:30 Vorschläge zum Rechenweg?

11:41 Bitte, Sie wissen nicht, was die Varianz ist?

11:55 Woran hakt es bei den anderen?

12:22 Also dann muss ich Basal fragen, wie lautet die Formel zur Berechnung der Reliabilität, die wir gerade durchgenommen haben?

12:31 Einverstanden?

12:41 Ja, Sie sagen, es ist in der Tat so.

13:01 Ich lüfte jetzt mal das Geheimnis.

14:07 Gibt es dazu Nachfragen?

16:56 Wie wirkt sich das auf das Konfidenzintervall aus, das Sie als Diagnostikerin erheben oder das Sie bestimmen?

17:26 Zunächst nochmal, was ist ein Standardmessfehler?

18:10 Wie berechnet er sich?

20:27 In welchem Bereich liegt der wahre Wert W mit einer bestimmten Wahrscheinlichkeit?

22:35 Woher kommen denn die 1,96?

23:19 Könnten Sie damit leben?

23:34 Was würde jetzt passieren?

28:57 Klingt vielversprechend, nicht?

30:44 Was für ein Konstrukt könnte Sie interessieren?

31:26 Was sagt meine Diplomarbeitsbetreuerin dazu?

31:43 Wie viele gleich gute Items müssen noch hinzugefügt werden?

31:54 Oder schauen wir es uns erst noch einmal theoretisch an.

32:17 Zunächst, wie ist die zu verstehen?

34:15 Das heißt, es müssten die 40 Items zu den 15 dazukommen?

35:37 Den Faktor K?

36:20 Welches wäre das?

37:09 Denn bei dieser Frage gibt es kritische Differenzen: Werden Fragen beantwortet oder sind Fragen beantwortbar, wie zum Beispiel, ob beobachtete Skalenwertdifferenzen statistisch signifikant sind?

37:31 Oder eine andere Möglichkeit der Fragestellung wäre: Unterscheiden sich die Skalenwerte von zwei Probanden auf derselben Skala signifikant?

38:21 Also, ist diese Differenz von einem IQ-Punkt statistisch signifikant zwischen Ernie und Peterchen?

38:47 Und dazu nehmen wir, oder hätte ich Ernie und Bert nehmen sollen?

40:10 Wie sieht es aus mit den Formeln im Rahmen meiner Klausur?

41:41 Ist hier dasselbe gemeint?

41:54 Haben Sie es schon?

42:26 Vorschläge?

44:20 Kann ich dann bei SPSS zum Beispiel das berechnen lassen und sagen, alle, die darunter liegen, werden nicht betrachtet oder so?

47:25 Dann beträgt Decret welche Größe bitte?

48:26 12,4?

48:59 normiert, dass das also eine Standarderreichung mit 10 Punkten sind, also hat man dann nicht, wenn man einen Unterschied von der Standarderreichung hat, schon irgendwie einen Unterschied, bedeutet das noch nichts?

52:10 Wir haben Stichprobenabhängigkeit der Parameter, das ist ein Punkt.

52:51 Die Frage dabei ist natürlich, sind diese Befunde generalisierbar auf andere Stichproben?

53:27 Ist das eher eine homogene oder eine heterogene Stichprobe?

54:23 Bei heterogenen oder homogenen Stichproben?

55:27 Führt das zu mehr Faktoren oder zu weniger Faktoren?

55:53 Haben Sie schon zur Faktorenanalyse ein bisschen was gehört?

56:10 Wenn weniger Varianz da ist, was heißt das für das Potenzial der Korrelation?

57:32 Das Problem ist halt, die Korrelationsberechnung hängt auch an den Varianzen.

58:27 Das heißt, die Folie fasst nochmal zusammen.

59:11 Soll das beispielsweise ein Test sein zur Erfassung des Kommunikationsverhaltens bei jungen Nachwuchskräften in Großkonzernen?

59:26 Wir müssen genau sagen, für welche Population ist dieser Test geeignet?

1:03:43 Ein Pluspunkt für die klassische Testtheorie ist natürlich die praktische Bewährung.

1:04:35 So, was hat man jetzt damit gemacht?

1:10:01 Manifest ist das Wort kennen Sie?

1:12:14 Haben wir da irgendwelche ungebetenen Gäste oder so?

1:16:17 Was heißt denn IC-Funktion?

1:17:01 Ja, tut's wirklich.

1:18:18 Können Sie das nachvollziehen?

1:18:56 Nickende Zustimmung?

Testtheorien, Testkonstruktion und Psychologische Diagnostik (5)

Testtheorien, Testkonstruktion und Psychologische Diagnostik (5)

  • Bevor wir gleich inhaltlich da weitermachen, wo wir beim letzten Mal aufgehört haben, habe ich noch einige organisatorische Punkte, die ich mit Ihnen besprechen möchte.
  • Dazu bitte ich, wie üblich, um die Herunterfahrung der Lautstärke auf Arbeitsniveau.
  • Dankeschön.
  • Zunächst geht es darum, das ist ein ganz wichtiger Punkt für Sie, die Klausuranmeldung.
  • Sie wissen, am 16.
  • Juli haben Sie die Chance, vollumfänglich Ihr Wissen im Rahmen der Klausur zu präsentieren.
  • Dazu lasse ich folgende Liste herumgehen, die Sie kennen.
  • Das sind Listen, die Gültigkeit haben für die Personen, die nach der neuen Studienordnung studieren.
  • Die Personen, die noch nach der alten Studienordnung studieren und sich anmelden möchten, können das sehr gerne im Sekretariat tun.
  • In unserem Sekretariat spricht seit 2011 bis 2012 Frau Lauchs, die Ihre Anmeldung entgegennimmt.
  • Und die anderen bitte ich, lassen Sie das hier kursieren und tragen sich ein mit den jeweiligen Daten, die Ihnen ja mittlerweile geläufig sind.
  • Ich fange mal hier vorne an, bitte schön.
  • Das nächste ist, wir behandeln ja Fragebogenkonstruktion.
  • Und eine Kollegin aus der Allgemeinen 2, die ich sehr schätze, hat einen kleinen Fragebogen konstruiert, den sie bitten möchte, auf freiwilliger Basis auszufüllen.
  • Es geht im Wesentlichen um Attraktivität und Kompetenz.
  • Ich lasse den Fragebogensatz mal rumgehen.
  • Wer teilnehmen möchte, darf das gerne tun.
  • Die Kollegin kommt dann am Ende der Vorlesung und sammelt sie wieder ein.
  • Das Ganze dauert ungefähr fünf Minuten.
  • So, bitteschön, bedienen Sie sich, genug da.

Bitte.

So, gibt es noch Fragen, die den organisatorischen Ablauf betreffen von Ihrer Seite?

Keine?

  • Gut.

Ist das auch in Ordnung?

  • Dann gehen wir gleich mal gucken, was jetzt auf uns zukommt in der heutigen Sitzung und in der nächsten Sitzung.
  • Das ist der grobe Ablaufsplan für die nächsten beiden Sitzungen, die wir zusammen haben.
  • Zunächst machen wir heute weiter.
  • Wir haben angefangen, Sie erinnern sich, auch mit den praktischen Übungen, die ich für Sie eingebaut habe.
  • Die Axiome 1 bis 3 wurden letzte Woche besprochen und teilweise schon an praktischen Beispielen berechnet.
  • Heute wollen wir natürlich die Axiome 4 und 5 nachschieben, damit das Ganze eine vollständige Sache wird.
  • Und dann schauen wir uns auch die kritischen Aspekte an, die mit der klassischen Testtheorie einhergehen, und schauen dann mal, was eine konkurrierende Testtheorie, wenn Sie so wollen, nämlich die probabilistische Testtheorie, zu bieten hat.
  • Damit werden wir heute beginnen, und beim nächsten Mal geht es dann damit weiter.
  • Da möchte ich Ihnen schon einen Lerntipp geben.
  • Heute werden wir bei der probabilistischen noch nicht so weit kommen.
  • Es ist aber so, dass Studierende rückmelden, und das kann ich in gewisser Weise verstehen, dass die probabilistische Testtheorie eine der größten intellektuellen Herausforderungen in der Testtheorie ist, also in der Testtheorienveranstaltung hier auch, aber generell auch.
  • Insofern, wenn Sie sich da etwas unsicher fühlen, würde eine gute Vorbereitung für dieses Thema sich sicher auszahlen.

Gut.

So, wir sind stehen geblieben beim dritten Axiom.

  • Demzufolge geht es heute weiter gleich mit dem vierten.
  • Es besagt, dass die Höhe des Messfehlers unabhängig vom Ausprägungsgrad der wahren Werte anderer Tests ist.
  • Die wahren Werte, man kann sie jetzt mit 'w' abkürzen, das entspricht dem englischen Sprachgebrauch, nämlich 'true value' oder 'true score', und auf Deutsch wäre es natürlich dann 'w'.
  • Bedeutungsmäßig ist das identisch.
  • Das heißt, in einem Beispiel gesprochen, die Messfehler eines Intelligenztests sollten zum Beispiel nicht mit Testangst oder Konzentrationsfähigkeit, also mit anderen Tests gemessenen Persönlichkeitsmerkmalen, korrelieren.
  • Also die Messfehler. Die Messfehler sind unabhängig vom Ausprägungsgrad der wahren Werte mit anderen Tests.
  • Das ist eine Annahme.
  • Sie können das kritisieren.
  • Wir wollen das nachher auch gerne gemeinsam machen und schauen, ob Sie das für plausibel halten oder ob das immer plausibel sein muss oder ob es da auch Ausnahmen gibt.
  • Das fünfte Axiom besagt die Messfehler verschiedener Testanwendungen, zum Beispiel: Bei einer Testung 1 mache ich den Messfehler E1, bei einer Testung 2 mache ich den Messfehler E2.
  • Die sind nun vollständig voneinander unabhängig, sagt das fünfte Axiom.
  • Das heißt, ihre Messwerte sind unkorreliert.
  • Also, wenn man den Messfehler aus der Testung 1 korreliert mit dem Messfehler der Testung 2, kommt dabei eine glatte Null raus.
  • Also ein nicht signifikanter Zusammenhang.
  • Ein Beispiel dafür wäre, dass Personen, die bei einer Testanwendung besonders müde sind oder hohe Testangst haben, sollen bei einer Testwiederholung keine analogen Effekte zeigen.
  • Intuitiv eindeutig.
  • Die Aussage zunächst.
  • Ob das aktionplausibel ist, wollen wir uns noch anschauen.
  • Bitte.
  • Und hat das zum Beispiel was mit der Validität zu tun, weil, das habe ich mir mal überlegt, also Validität ist doch sozusagen die Frage, ob der Test nicht wissen muss, was er messen soll.

Und das hat ja sozusagen auch was mit einem Messfehler zu tun, oder?

  • Also, wenn der Test zum Beispiel nicht der Fall wäre, dann könnte es ja auch einfach sein, dass der Test halt nicht wüsste, was er messen soll, wenn der Messfehler. Im Prinzip könnte man das so sagen.
  • Wenn der Test nicht das misst, was er messen soll, zum Beispiel aufgrund von großen Messfehlern, wäre er nicht valide.
  • Das stimmt.
  • Aber Sie greifen jetzt ein wenig vor dem Verlauf der Vorlesung, aber es ist richtig.
  • Bei dem Beispiel, was da steht, dem einen Teil kann ich absolut folgen.
  • Also, wenn jemand so leicht müde ist, muss er das beim nächsten Mal ja nicht mehr sagen.
  • Wenn jemand aber Angst hat, vielleicht auch vor Prüfungssituationen, dann ist das manchmal beides.
  • Richtig.
  • Also das Wesentliche ist dabei, nehmen wir beispielsweise an, eine Person ist sehr intelligent, sagen wir, sie hat einen IQ von 130, befindet sich aber zum Zeitpunkt des Intelligenztests in einem besonders müden Zustand, sodass sie sozusagen nicht ihre volle Leistungsfähigkeit demonstrieren kann. Das spiegelt sich dann in einem IQ-Ergebnis von 120 wider.
  • Hätten wir einen Messfehler von 10 gemacht.
  • Müdigkeit ist jetzt nicht unbedingt stabil.
  • Wohingegen Testangst schon stabil sein kann.
  • Nicht sein muss, aber sein kann.
  • Und wenn sie stabil wäre, dann hätte die Person sicherlich auch bei einem anderen Intelligenztest oder demselben in einem Dreivierteljahr später vermutlich dieselbe Testangst.
  • Und dann wäre das ein systematischer Fehler.
  • Und ein systematischer Fehler macht dann natürlich dieses Axiom hier plausiblerweise ziemlich zunichte.
  • Ja, guter Hinweis.
  • Also das mit den Axiomen ist sowieso so eine Sache, da kommen wir gleich noch drauf.
  • So, dann Reliabilität.
  • Sie wissen, eines der wichtigen Gütekriterien ist Reliabilität.

Und was hat jetzt die klassische Testtheorie zu bieten hinsichtlich der Reliabilität?

  • Sie besagt, dass die Reliabilität R durch den Anteil der Varianz der wahren Werte st² an der Varianz der beobachteten Werte, also s²x, angibt.
  • Das heißt, das Ganze ist einfach ein Quotient.
  • Und das ist eine Sache, die Sie sich merken sollten.

Was ist die Reliabilität?

Wie ist sie definiert?

  • Das ist wichtig, das muss man unbedingt draufhaben.

Ist die Messgenauigkeit, die Messpräzision einverstanden?

  • Und wir versuchen das jetzt sozusagen von der statistischen Warte mal aufzubröseln, rechnen auch gleich ein praktisches Beispiel dazu, damit sich das verfestigt.
  • Und dann bekommen Sie auch ein, wie soll ich sagen, ein intuitives Verständnis dafür und lernen es nicht nur auswendig.
  • Wobei das auch wichtig ist.
  • Das heißt, man macht diesen Quotienten auf.
  • R, die Reliabilität.
  • Es gibt verschiedene Formen der Reliabilitätsschätzung.
  • Das hier ist zunächst einmal eine, diese R mit den Indizes TT ist häufig die Re-Test-Reliabilität, also wenn eine Testwiederholung ist die Reliabilität.
  • Aber das ist jetzt nicht so entscheidend.
  • Zunächst einmal geht es generell um die Reliabilität hier in dieser Aussage.
  • Die Varianz der Warenwerte.
  • Varianz der beobachteten Werte.
  • Das heißt, die Reliabilität gibt den Anteil der Varianz der wahren Werte an der Varianz der beobachteten Werte an.
  • Das können wir auch so darstellen, dann wird es noch besser.
  • Das heißt, die wahre Varianz ist die Varianz der wahren Werte, nur ein anderer Begriff.
  • Und die Varianz der beobachteten Werte, ein anderer Begriff dafür, ist die Gesamtvarianz.
  • Und dies ist die wichtigste und zentrale Ableitung aus den Axiomen der klassischen Testtheorie.
  • Sie können sich das so vorstellen, das ist wirklich so ein Stützpfeiler, den man kennen muss.
  • So, das heißt, nehmen wir ein praktisches Beispiel, so wie es auch in der Klausur auf Sie zukommen könnte.
  • Ein Reliabilitätskoeffizient von zum Beispiel R, gleich Punkt 80.
  • Ein solcher Wert gibt an, dass die beobachtete Varianz der Testwerte zu 80 Prozent auf wahre Unterschiede zwischen den Personen zurückzuführen ist und nur, könnte man sagen, nur zu 20 Prozent auf Fehlervarianz beruht.
  • Und dazu rechnen wir gleich mal eine Übungsaufgabe.
  • Da habe ich mir überlegt, rechnen wir doch einfach zur Festigung des soeben erworbenen Wissens die Aufgabe zu Ende, die wir beim letzten Mal angefangen haben.

Erinnern Sie sich an dieses Beispiel?

  • Eine Aufgabenstellung lautete, und die haben wir bearbeitet. Prüfen Sie, ob für den Messfehler der Messwerte X die beiden Aktionen mit 2 und 3 der klassischen Testtheorie gelten.
  • Das haben wir überprüft.
  • Die zweite Aktion besagt, dass der Mittelwert der Messfehler 0 ist.
  • Das konnten wir überprüfen.
  • Und die dritte Aktion besagt, dass die Korrelation zwischen R und T gleich 0 ist.
  • Das war auch der Fall in diesem fiktiven Datensatz.
  • Der mit der Praxis jedoch nicht viel zu tun hat, weil man hier die wahren Werte kennt. Aber das war auch nicht für die Praxis gedacht, sondern zur Verständnisförderung der Formeln.
  • Sie sehen noch eine ausstehende Aufgabe. Diese lautet nämlich: 'Jetzt berechnen Sie bitte die Reliabilität dieses Tests.'
  • Dazu möchte ich Sie bitten, das eben erworbene Wissen anzuwenden und mir eine Zahl zu nennen, die das Ergebnis widerspiegelt.

0,40?

  • Nein, ich würde es noch einmal versuchen.
  • Nein, 0,40 stimmt leider nicht.
  • Das war vermutlich ein Tippfehler.

Weitere Vorschläge?

Wie machen wir es vom Rechenweg her?

Vorschläge zum Rechenweg?

Gehe ich richtig in der Annahme, dass Ihnen das jetzt zu schwer ist?

Oder haben Sie alle den Taschenrechner vergessen?

Oder was hindert Sie daran, die Lösung zu bestimmen?

Bitte, Sie wissen nicht, was die Varianz ist?

  • Die Formel für die Varianz.
  • Die Formel für die Varianz, ja.
  • Ihr Taschenrechner weiß es.
  • Doch, er sollte es wissen.
  • Wenn es ein wissenschaftlicher Taschenrechner ist, dann weiß er das.
  • Sie brauchen nur die Rohwerte einzugeben.

Woran hakt es bei den anderen?

  • Das ist eine sehr einfache Aufgabe, wenn ich das anfügen darf.
  • Es dürfte Sie zwar frustrieren, aber ich muss Ihnen die harte Wahrheit sagen.
  • Das, was in der Klausur kommt, ist schon noch schwieriger.

Bitte, wie lautet Ihr Vorschlag?

  • Ich sage, zum Lernen sind wir ja jetzt hier in der Polizei.
  • Richtig.

Also keine Ideen, Vorschläge?

Also dann muss ich Basal fragen, wie lautet die Formel zur Berechnung der Reliabilität, die wir gerade durchgenommen haben?

Varianz der Warenwerte durch Varianz der beobachteten Werte.

Einverstanden?

  • Gut, jetzt stellt sich ja nur die Frage, wie wir anhand dieses Minidatensatzes genau das berechnen können.

Haben Sie da auch eine Idee?

Ja, wie es weitergeht, genau.

Ja, Sie sagen, es ist in der Tat so.

  • Man nimmt die Rohwerte her und berechnet die Varianz.
  • Einverstanden.
  • Nur war ich etwas irritiert, weil das nicht unbedingt schneller jetzt kam aus dem Plenum.
  • Wir haben ja viele intelligente Personen auch Sitz.

Haben Sie auch eine Zahl anzubieten?

  • Keine Taschenhalter, okay.
  • Nein, 0,80 ist es auch nicht.

Ich lüfte jetzt mal das Geheimnis.

  • Es sieht so aus, ich vermute, es liegt daran, auch wenn das jetzt keiner gesagt hat, dass Sie noch nicht so richtig optimal eingearbeitet sind, was die Benutzung Ihrer Taschenrechner angeht.
  • Also zunächst mal ist das ja die Formel der Varianz der Rehabilität.
  • Varianz der Warenwerte durch Varianz der beobachteten Werte.
  • Die Varianz der beobachteten Werte finde ich natürlich in dieser Spalte und die Varianz der Warenwerte in dieser Spalte.
  • Wenn Sie Varianzen berechnen können mit Ihrem Taschenrechner, dann brauchen Sie nur die Rohwerte einzugeben.
  • Das sind jetzt hier jeweils diese fünf Werte.
  • 2, 0, 5, 10, 8 und dann spuckt er in die Varianz aus.
  • Dasselbe gilt für die nächste Spalte.
  • Das Ganze dividieren Sie einfach und erhalten folgenden Wert.
  • Da herauskommt, das haben Studierende damals falsch berechnet.
  • Richtig ist, da muss dann stehen 16,17 und das ist nichts anderes als 0,94.
  • Das Ganze ist wirklich kein Hexenwerk.

Gibt es dazu Nachfragen?

  • Okay, wenn das nicht der Fall ist, lasse ich die Folie noch einen Moment aufliegen.
  • Sie bekommen die übrigens auch, wenn der Unterrichtsmittschau zur Verfügung gestellt.
  • Die Sachen, die ich Ihnen auch auf dem Overhead zeige.
  • Sodass es jetzt kurz genügt für den Moment, dass Sie das Ergebnis notieren, und der Rest wird Ihnen dann online zur Verfügung gestellt.
  • Haben Sie noch eine Frage, bitte.
  • Genau, das hatte ich gerade schon erwähnt, aber Varianz der beobachteten und Varianz der gemessenen Werte sind identische Begriffe in diesem Kontext.
  • So, die Übungsaufgabe haben wir berechnet, sodass wir sagen können, wir haben jetzt die klassische Testtheorie in ihren Grundzügen, nämlich in ihrer Axiomatik, kennengelernt, haben einige Beispielaufgaben dazu berechnet, dass wir uns jetzt langsam annähern können dem Punkt, dass wir die klassische Testtheorie etwas aus einem kritischen Blickwinkel anschauen.
  • Da werden wir gleich zu übergehen.
  • Aber zunächst nochmal, die klassische Testtheorie wird auch als Messfehlertheorie bezeichnet, weil der Messfehler eine wichtige Größe ist, haben Sie kennengelernt.
  • Deshalb wollen wir uns diesem Messfehler einmal näher widmen, und hier kommt ein ganz wichtiger Punkt, den man nicht vergessen darf.
  • Der ist für Sie als angehende Diagnostiker und Testtheoretiker derart wichtig, dass ich ihn hier gesondert hervorheben möchte.
  • Das ist der unterstrichene Satz, den Sie auf der Folie finden.
  • Nämlich die Grundüberlegung, dass psychologische Tests und psychologische Diagnostik nicht, wenn man verantwortlich vorgeht, ohne Betrachtung des Messfehlers betrieben werden können.
  • Ja, aufgrund dessen, dass wir, wenn wir als Psychologen messen, in der Regel Messfehler haben, die hoffentlich zwar gering sind, aber immerhin vorhanden, müssen wir uns das vor Augen führen und in unsere diagnostische Entscheidung mit einbeziehen.
  • Denn die Messfehler, die wir machen, müssen wir im Hinterkopf haben, um beispielsweise Konfidenzintervalle zu berechnen.
  • Auch wenn wir danach streben, den Messfehler möglichst gering zu halten, ist es in der Praxis in der Regel so, dass wir es nicht schaffen, ihn auszumerzen.
  • In manchen Gebieten sind wir sogar relativ weit davon entfernt, den Messfehler ausmerzen zu können.
  • Deshalb ist es wichtig, das im Hinterkopf zu haben.
  • Die praktischen Auswirkungen von Messfehlern, zum Beispiel für die Berechnung von Konfidenzintervallen, werden wir hier noch vollumfänglich behandeln im Rahmen dieser Vorlesung.
  • Nicht in dieser heutigen Stunde, aber in den kommenden Sitzungen.

Und Sie werden sehen, was konkret bedeutet das denn, wenn die Reliabilität eines Tests geringer ist?

Wie wirkt sich das auf das Konfidenzintervall aus, das Sie als Diagnostikerin erheben oder das Sie bestimmen?

  • Es hat in der Tat erhebliche Auswirkungen, auch für die Aussagekraft Ihrer Diagnostik.
  • Das heißt, eine hohe Reliabilität und damit ein kleiner Standardmessfehler sind in der Praxis sehr wichtig, da dies die Breite der zu bestimmenden Konfidenzintervalle wesentlich mitbestimmt.
  • Das habe ich gerade gesagt.
  • Ich möchte es nochmal wiederholen, weil es für uns in der Praxis nicht überschätzt werden kann in der Bedeutsamkeit.

Zunächst nochmal, was ist ein Standardmessfehler?

  • Wir haben ja gesagt, die klassische Testtheorie ist eine Messfehlertheorie.
  • Jetzt wollen wir zunächst mal schauen, wie man den Messfehler überhaupt fassen kann, begrifflich.
  • Also, ist zunächst mal in drei Formulierungen derjenige Anteil an der Streuung eines Tests, der zulasten seiner gewöhnlich nicht perfekten, also unvollständigen Reliabilität geht. Haben wir in anderer Form schon gesagt, ist darüber hinaus ein Maß für den Anteil der Fehlerstreuung an der Streuung von Messwerten.
  • Und gibt an, die Streuung der beobachteten Werte um die entsprechenden wahren Werte bei Messwiederholungen an einer Person.
  • Das Ganze lässt sich als Normalverteilung mit wahrem Wert als Zentrum veranschaulichen.
  • Es sind drei verschiedene Arten, sich begrifflich diesem Begriff Messfehler zu nähern.

Wie berechnet er sich?

  • Der Standardmessfehler berechnet sich nach der Formel, die Sie hier sehen. SE ist gleich SX mal Wurzel aus 1 minus R. Also die Wurzel, die geht hier drüber, über die Klammer und hängt somit von der Streuung S und dem Reliabilitätskoeffizienten R ab.
  • Da sieht man also, der Standardfehler hängt in irgendeiner Form von der Reliabilität ab.
  • Und wie es in dieser einfachen Formel dargestellt ist, werden wir es auch noch praktisch erläutern. Dann sehen Sie es mal spürbar.
  • Wenn wir also hergehen und sagen, die Reliabilität wäre 1, dann hätten wir, können Sie sich ja schon anhand dessen, was wir bisher gesagt haben, leicht herleiten, hätten wir einen Messfehler von 0.
  • Schauen wir mal, ob es stimmt.
  • Wenn wir hier für R die Reliabilität 1 einsetzen, ja, dann haben Sie, steht hier 1 minus 1 gleich 0, Wurzel aus, ja, Sie sehen, da käme dann 0 raus.
  • Also in diesem Extremfall, den wir gerne hätten, aber nicht haben in der Regel, beträgt er 0.
  • Bei fehlender Reliabilität entspricht er der Streuung der beobachteten Werte, welche dann ausschließlich auf Fehler einflüssen würden.
  • Das sehen Sie, wenn Sie hier 0 reinschreiben.
  • Die Wurzel aus 1 ist 1 und Sie sehen, dass es auch funktioniert.
  • Das heißt, je zuverlässiger das Messinstrument ist, desto geringer ist der Standardmessfehler.
  • Die Minimierung des Messfehlers kommt uns natürlich entgegen.
  • Das heißt, Standardmessfehler und Konfidenzintervall gehören eng zusammen, im wahrsten Sinne des Wortes.
  • Das bedeutet, je geringer der Standardmessfehler ist, desto enger ist das Konfidenzintervall.
  • Das Konfidenzintervall dient dazu, den wahren Wert zu bestimmen.
  • Wenn Sie so wollen, das Konfidenzintervall, da wir den wahren Wert ja nicht direkt messen können, versuchen wir mit dem Konfidenzintervall den wahren Wert quasi zu umzingeln.
  • Und je enger wir den wahren Wert umzingeln können, mit einer gegebenen Fehlerwahrscheinlichkeit, desto genauer ist unsere Diagnostik.
  • Das heißt, unser Bestreben muss sein, das Konfidenzintervall möglichst eng zu fassen.
  • Dazu brauchen wir sehr zuverlässige Tests.

Das heißt, man könnte eine praktische Fragestellung konstruieren.

  • Das wird auf dieser folgenden Folie gemacht.
  • Beispiel einer Fragestellung.
  • Gegeben ist ein beobachteter Wert X einer Person.

In welchem Bereich liegt der wahre Wert W mit einer bestimmten Wahrscheinlichkeit?

  • Und dabei nimmt man häufig die 95-prozentige Wahrscheinlichkeit, also 5% Erzeugungswahrscheinlichkeit.
  • Je geringer der Standardmessfehler, desto schmaler ist dieser Bereich.
  • Das Konfidenzintervall berechnet sich folgendermaßen.
  • Das ist eine ganz einfache Formel.
  • Das ist der beobachtete Wert plus minus dem Irrtumswahrscheinlichkeits-Z-Wert mal dem Standardmessfehler.
  • Konkret ausgedrückt schreibt man es so.
  • Hier haben wir jeweils den beobachteten Wert.
  • Das X steht für den beobachteten Wert.
  • In der Mitte steht immer der wahre Wert, den wir umzingeln wollen, mit dem Konfidenzintervall möglichst eng.
  • Hier bewegt sich der wahre Wert. Die untere Grenze des Konfidenzintervalls wäre der beobachtete Wert minus Z, also der Irrtumswahrscheinlichkeit Z-Wert mal dem Standardmessfehler. Hier oben ist es derselbe Term, nur aufaddiert: Messwert plus diesem Term.
  • Das heißt, wenn man es einzeln anschaut, berechnet sich die untere Grenze folgendermaßen. Die obere Grenze analog, nur durch eine Addition statt Subtraktion durch diesen Term.
  • Das heißt, wir gucken es uns mal mit einem konkreten Beispiel an, mit greifbaren Zahlen.
  • Wenn jemand 110 Punkte im Test erzielt hat und der Standardmessfehler SE gleich 2 ist, liegt der wahre Wert der Person bezüglich ihres IQ mit einer Wahrscheinlichkeit von 95 Prozent zwischen den Werten 106 und ungefähr 114.
  • Das heißt, man würde dann schreiben, ist konkret nur eingesetzt mit den Zahlen, die im Fallbeispiel gegeben sind.
  • 110 minus den Term, kleiner gleich wahrer Wert, kleiner gleich 110 plus den Term.
  • Und dann, wenn man es einsetzt und ausrechnet, kommt also raus, der wahre Wert dieser Person, die wir getestet haben, mit dem Testergebnis 110, ist mit 95-prozentiger Wahrscheinlichkeit innerhalb der Grenzen des Konfidenzintervalls, die da lauten, ich spreche jetzt gerundet 106 bis 114.

Finden Sie das ein akzeptables Konfidenzintervall?

Einverstanden?

Oder bitte?

Woher kommen denn die 1,96?

  • Das ist der Irrtumswahrscheinlichkeits-Z-Wert.
  • Das können Sie in dieser Z-Tabelle ablesen.
  • Die 1,96 ist der Wert, den man hat für 95-prozentige Konfidenzintervalle.
  • Sobald Sie sich auf einen Irrtumswahrscheinlichkeitswert festlegen, ist der vorgegeben.
  • Den brauchen Sie nicht auszurechnen.
  • Der ist in der Klausur übrigens auch immer angegeben.
  • Aber das ist hier der 95-prozentige, mit dem 1,96 ist sehr bekannt und geläufig.
  • Also stimmen Sie dazu.

Werden Sie als Diagnostikerin zufrieden sein, wenn Sie wissen, okay, Testergebnis 110, mit 95-prozentiger Wahrscheinlichkeit bewegt sich der wahre Wert wirklich in diesen Grenzen, die wir gerade bestimmt haben, mit dem Konfidenzsignal?

Könnten Sie damit leben?

Könnten Sie damit leben, ne?

  • Das ist sozusagen, ich würde auch sagen, das geht in Ordnung.
  • Das ist schon recht genau die Diagnostik.

Was würde jetzt passieren?

  • Angenommen, der Messfehler wäre doppelt so hoch.
  • Überschlagen wir es mal, was dann passieren würde.
  • Dann hätten wir hier halt 1,96 mal 4.
  • Rechnen wir 2 mal 4, wären es dann 8.
  • Dann wäre das Inkonfidenzintervall schon bei 102.
  • Und hier wäre es ungefähr bei 118.
  • Mit 95-prozentiger Wahrscheinlichkeit in den Grenzen von 102 bis 118.
  • Das ist schon nicht mehr so prickelnd.
  • Das ist weniger prickelnd im Sinne von präzise.
  • Zwischen 102 und 118, da liegen in dem subjektiven Empfinden der Intelligenz schon noch mal Welten.
  • 102 wäre gerade Pi mal Daumen durchschnittlich und 118 wäre schon ein sehr respektabler Wert.
  • Sie sehen, je größer der Messfehler, desto breiter wird das Konfidenzintervall und je kleiner der Messfehler, desto enger wird das Konfidenzintervall.
  • Daher gehören die Aussage zum Standardmessfehler und Konfidenzintervall eng zusammen, im wahrsten Sinne des Wortes.
  • Gut, das heißt, hier im Beispiel geblieben, dass zum Beispiel die Aussage, dass die Person einen höheren IQ als 105 hat, auf dem 5%-Niveau signifikant ist, da das komplette Konfidenzintervall oberhalb von 105 liegt.
  • So kann man es auch sehen.
  • Also Werte, die darunter liegen, 105 liegt darunter, werden überboten durch das Konfidenzintervall und daher kann man auch mit 5% Irrtumswahrscheinlichkeit sagen, die Person ist intelligenter als IQ 105.
  • So, das heißt, wir schauen uns mal noch eine weitere Anwendung an.
  • Das Konfidenzintervall für den wahren Wert einer Person in einem Test wird also in zwei Schritten berechnet.
  • Wir machen es noch einmal an einem anderen Beispiel, um das zu festigen.
  • Der erste Schritt ist zunächst die Berechnung des Standardmessfehlers.
  • Der war eben gegeben, jetzt berechnen wir mal zu Fuß.
  • Standardmessfehler ist die Streuung, also die Standardabweichung des Tests X multipliziert mit der Wurzel von 1 minus der Reliabilität des Tests.
  • Machen wir das mal.
  • Machen wir gleich, aber zuerst schauen wir uns den zweiten Schritt an.
  • Der zweite Schritt wäre die Schätzung für das Konfidenzintervall für den unbekannten Warenwert W oder T, je nachdem.
  • Das 95%-Konfidenzintervall ergibt sich unter der Annahme, dass E normal verteilt ist, was wir in der Regel annehmen, aus folgender Gleichung, die wir eben hatten.
  • Schauen wir es uns praktisch an.
  • Gemessener Wert: 112.
  • Streuung wäre 12, Reliabilität: 0,84.
  • Berechnen wir einen Standardmessfehler.
  • Sx ist ja 12, also setzen wir 12 mal Wurzel 1 minus Reliabilität, also 0,84 ein.
  • Das heißt, das ist nichts anderes als 12 mal 0,4, weil die Wurzel aufgelöst ergibt 0,4, das heißt 4,8.
  • Das ist der Standardmessfehler.
  • Das Ganze wird flugs in die Formel eingesetzt, die hier noch einmal theoretisch wiedergegeben ist. Hier eingesetzt, betrug der gemessene Wert 112, der Irrtumswahrscheinlichkeitszettwert war 1,96, mal 4,8 hier subtrahiert, auf der Seite addiert, siehe da.
  • Das Konfidenzintervall lautet 102, kleiner gleich wahrer Wert, kleiner gleich 121,4.
  • Da haben wir ein typisches Beispiel dafür, dass ein Konfidenzintervall recht weit werden kann und die Aussagemöglichkeit der Diagnostik, die wir betreiben, sich damit verringert.
  • Das ist ein ähnliches Beispiel wie eben, das Konfidenzintervall ist auch recht weit.
  • Und das bei einer Reliabilität, die trotzdem Punkt 84 beträgt und damit eigentlich auf den ersten Blick im Persönlichkeitsbereich akzeptabel wäre.
  • Im Intelligenzbereich steht man eher nach Reliabilitäten ab Punkt 90.
  • Aber es ist trotzdem keine schlechte Reliabilität im engeren Sinn.
  • Und trotzdem ist das Konfidenzintervall recht weit.
  • Sie sehen das.
  • Das sind die unerfreulichen Konsequenzen aus weiten Konfidenzintervallen.
  • Wie hängt jetzt Reliabilität, die wir gerade berechnet haben, und eben auch schon an dem Beispiel von Herrn Borz berechnet haben, zusammen mit Testlänge.
  • Hier lässt sich zeigen, dass zum Beispiel mit der Verdopplung der Testlänge, und der Test besteht ja aus Items, also wenn ich die Testlänge verdopple, muss ich die Items verdoppeln, und zwar in Einheiten von Items, die genauso gut sind wie Items, die schon im Test drin sind, sonst funktioniert es nicht.
  • Die Items, die ich hinzufüge, müssen dieselbe psychometrische Qualität haben wie die vorher darin befindlichen.
  • Ich kann es nicht mit Schrott-Items auffüllen, in der Hoffnung, dass meine Reliabilität sich dann verbessert durch diese stumpfe Verlängerung.
  • Das funktioniert nicht.
  • Das heißt, zum Beispiel, mit einer Verdopplung der Testlänge geht eine Vervierfachung der wahren Varianz einher, während sich die Fehlervarianz nur verdoppelt.
  • Das heißt, eine Verlängerung des Tests hat Reliabilitätsgewinne zur Folge.
  • Da Reliabilität als Anteil der wahren Varianz an der Gesamtvarianz definiert ist, haben wir gerade die Formel besprochen und auch berechnet. Würde dies eine Verdopplung der Reliabilität bedeuten.

Klingt vielversprechend, nicht?

  • Diese mathematische Ableitung hat sich auch empirisch gut bestätigen lassen, was für eine Angemessenheit der Axiome der klassischen Testtheorie spricht.
  • Also hier, Sie wissen noch, Axiomatik nicht überprüfbar, für den empirisch arbeitenden Wissenschaftler insofern in gewissem Sinne ein Dorn im Auge, da wir gerne die Annahmen, die wir machen, überprüfen würden.
  • Das ist im Rahmen der klassischen Testtheorie nicht oder nur eingeschränkt möglich.
  • Aber trotzdem scheint auf Grundlage dieser Axiomatik, also scheint diese Axiomatik nicht völlig daneben zu liegen, denn die empirische Überprüfung dieser Annahme funktioniert in diesem Punkt recht gut.
  • Spricht also für eine empirische Bewährung dieser Axiomatik.
  • Da gibt es eine schöne Formel von den Herren Spearman und Brown, die nach ihnen benannt wurde, und die besagt, dass der Zusammenhang zwischen Ausgangsreliabilität und Testverlängerung - also Testverlängerungsfaktor, müsste man sagen - häufig als K oder N bezeichnet wird, der Verlängerungsfaktor.
  • Und die neue Reliabilität lässt sich wie folgt berechnen.
  • Das heißt, ich habe hier eine gegebene Reliabilität, einen Verlängerungsfaktor K, hier eine neue Reliabilität, die ich bestimmen möchte, einen Verlängerungsfaktor K, eine gegebene Reliabilität und hier diese freundliche Formel, die sich hier unten im Nenner noch ergibt.
  • Die mir ermöglicht, die wird auch Prophecy-Formel genannt, weil sie eine Art Prophezeiung darüber abgibt, wie sich meine bestehende Reliabilität verändert, wenn ich den Test verlängere oder sogar auch verkürze.
  • Das ist praktisch.
  • Im Alltag, im testdiagnostischen Alltag oder wenn Sie eine Diplomarbeit schreiben, könnte diese Formel für Sie relevant sein.

Stellen Sie sich vor, Sie konstruieren einen Test zur Messung. Was interessiert Sie beispielsweise?

Haben Sie den Wunsch?

Was für ein Konstrukt könnte Sie interessieren?

  • Kommunikationsfähigkeit, okay.
  • Sie entwickeln in Ihrer Diplomarbeit eine Skala zur Messung der Kommunikationsfähigkeit. Sie stellen fest, dass nachdem Sie sich 15 Items überlegt haben, nach den Kriterien, die wir hier gelernt haben, Sie sich 25 Items überlegt haben. Leider sind 10 Items aufgrund der ungünstigen sprachlichen und/oder statistischen Kennwerte, wie wir es hier gemacht haben, rausgeflogen.
  • Es sind 15 verblieben.
  • Sie stellen fest, dass die Reliabilität dieser 15 Items beispielsweise bei 0,60 liegt.
  • Sie sind unzufrieden.
  • Sie denken, also bei 0,60, das möchte ich nicht auf mir sitzen lassen.

Was sagt meine Diplomarbeitsbetreuerin dazu?

  • Ich habe in der Vorlesung Testtheorien gehört.
  • Im Persönlichkeitsbereich sollte man eine Reliabilität von mindestens 0,80 erreichen.
  • Das wäre sehr wünschenswert.
  • Im Intelligenzbereich gerne auch noch mehr.
  • Also, Sie möchten auf mindestens 0,80 kommen.

Stellt sich für Sie die Frage, was tun?

Wie viele gleich gute Items müssen noch hinzugefügt werden?

  • Genau das können Sie mit dieser Spearman-Brown-Prophecy-Formel berechnen.
  • Das bedeutet, wir setzen etwas ein.

Oder schauen wir es uns erst noch einmal theoretisch an.

  • Das heißt, diese Formel besagt, behalten Sie das Anwendungsbeispiel zur Kommunikationsfähigkeit mit dem Hinterkopf.
  • Dabei zeigt sich also, dass der Reliabilitätszuwachs umso größer ist, je geringer die Ausgangsreliabilität ist.
  • Das sehen wir jetzt gleich anhand dieser Grafik.
  • Diese Grafik sagt Ihnen Folgendes.

Zunächst, wie ist die zu verstehen?

  • Sie sehen hier auf der Y-Achse die Reliabilität des bereits dann verlängerten Tests.
  • Und hier unten auf der X-Achse sehen Sie die Verlängerung des Tests um dieses N- oder um diesen K-Faktor.
  • Das heißt, wir haben beispielsweise jetzt den Test zur Kommunikationsfähigkeit mit der Ausgangsreliabilität von Punkt 60.
  • Dann schauen wir mal, was passiert.
  • Wir haben also hier eine Ausgangsreliabilität von Punkt 60.
  • Wo wir hin möchten mit dem Test, ist der Wert von Punkt 80.
  • Sie können jetzt anhand dieser Grafik ablesen, Pi mal Daumen, Sie können es natürlich auch mit der Formel direkt berechnen, aber das ist hier grafisch abgetragen, insofern anwendungsfreundlicher.
  • Wenn dieser Test verlängert wird um das Fünffache, dann hätte er eine neue Reliabilität von ungefähr Punkt 87.
  • Da wir aber nicht dorthin wollen, sondern nur an diesem Punkt hier. Hier vergleicht er die neue Reliabilität des bisherigen Tests mit der Reliabilität von Punkt 60.
  • Die 80er-Marke, das heißt, ich muss ihn ungefähr 2,7 Mal so lang machen, wie er jetzt ist.
  • Dann mit genauso guten Items, wie sie bisher schon enthalten sind.
  • Und dann erreicht er eine Reliabilität von Punkt 80.
  • Also 2,7 Mal so lang.
  • Er hat also 15 Items im Bestand, mal 2,7 gerechnet ergibt das Pi mal Daumen ungefähr 40 Items.
  • Das heißt, zu den 15 Items, die Sie haben, müssten Sie noch 25 gleich gute Items dazu erfinden, sodass Sie auf die Gesamtsumme von 40 Items kommen.

Stimmt nicht?

Verlängerung des Tests um das M-Fache, ja.

  • Das ist richtig.

Das heißt, es müssten die 40 Items zu den 15 dazukommen?

  • Nein, nein, nicht 15.
  • Es wird multipliziert.
  • Es wird multipliziert, die bestehende Itemzahl mit dem neuen N, also 15 war die Ausgangszahl mal das N, das war hier Pi mal Daumen 2,7, daraus kommt jetzt im Kopf gerechnet ungefähr 40 raus.
  • Hier können Sie sehen, was Sie tun müssen, um diese Zielreliabilität zu erreichen.
  • Sie sehen darüber hinaus in dieser freundlichen Tabelle, beziehungsweise Grafik, ist ja eher eine Grafik, dass die Zuwächse an Reliabilität leichter zu erzielen sind.
  • Das sehen Sie hier durch stärkere Steigungen, wenn Sie eine geringere Ausgangsreliabilität haben.
  • Sie sehen auch hier hinten in dem Bereich, erreicht man durch eine Verlängerung des Tests kaum mehr Zugewinne an Reliabilität.
  • Das heißt, es ist schwieriger, einen Test mit einer hohen Ausgangsreliabilität noch reliabler zu machen, als es ist, einen schlecht reliablen Test auf ein einigermaßen akzeptables Niveau zu bekommen.
  • Wenn Sie so wollen, im Reliabilitäts-High-End-Bereich müssen Sie relativ viel Aufwand leisten, was die Testlänge angeht, um noch besser zu werden.
  • Ja, bitte.
  • Ich verstehe es nicht ganz.

Woher bekommt man diesen Faktor K?

Den Faktor K?

  • Man kann die Formel auch auflösen, und wir bekommen gleich ein praktisches Beispiel dafür.
  • Dann kann ich es Ihnen besser erläutern als jetzt.
  • Sie sehen das zum Beispiel hier, wenn Sie einen guten Intelligenztest haben, der schon eine Ausgangsreliabilität von Punkt 90 hat und Sie auf 95 kommen wollen, dann müssen Sie den Test doppelt so lang gestalten.
  • Wenn Sie ihn dreifach so lang gestalten, kommen Sie nur auf, was weiß ich, Punkt 96.
  • Wenn Sie ihn vierfach so lang gestalten, nur auf 97.
  • Erinnern Sie sich, wir haben noch nicht darüber gesprochen. Vielleicht haben Sie es schon mal gehört, es gibt ein Nebengütekriterium, was dann ganz stark in Gefahr gerät.

Welches wäre das?

  • Die Ökonomie wird dann ganz stark bedroht, natürlich.
  • Für so minimale Zugewinne, wie in diesem Punkt 90er Ausgangsbeispiel, kann ich zwar erzielen, das wäre auf dem Papier quasi ein Erfolg, ist es aber unter Betrachtung des Nebengütekriteriums Ökonomie beim Testen fast Frevel, das zu tun.
  • So.
  • Die Folie überspringe ich gerade, kommen wir später dazu.
  • Und gehen wir zum nächsten Punkt, der jetzt im Moment gerade besser zum Thema passt.

Hat zu tun mit der Berechnung von kritischen Differenzen.

  • Das ist für die diagnostische Praxis auch sehr wichtig.

Denn bei dieser Frage gibt es kritische Differenzen: Werden Fragen beantwortet oder sind Fragen beantwortbar, wie zum Beispiel, ob beobachtete Skalenwertdifferenzen statistisch signifikant sind?

Unterscheiden sich die Testwerte eines Probanden auf zwei Skalen signifikant?

  • Also, ich führe einen intraindividuellen Vergleich durch.

Unterscheiden sich zwei Skalen innerhalb einer Person signifikant voneinander?

Oder eine andere Möglichkeit der Fragestellung wäre: Unterscheiden sich die Skalenwerte von zwei Probanden auf derselben Skala signifikant?

  • Das wäre dann ein interindividueller Vergleich.
  • Und da wir ja mit dem Messfehler leben müssen und seine Auswirkungen auf unsere Diagnostik beachten müssen, ist die Berechnung von kritischen Differenzen ein wichtiger Punkt.
  • Das heißt, Sie können nicht hergehen und zwei Leute am selben Intelligenztest testen, und es kommt heraus, beispielsweise, dass Ernie 120 hat und Peterchen 121, und dann sagen, dass Peterchen der Intelligentere von beiden ist.
  • Solche Aussagen sollten Sie ab heute spätestens nicht mehr treffen.
  • Peterchen hat zwar einen IQ-Punkt mehr bekommen, aber ob er jetzt wirklich intelligenter ist auf einem statistisch abgesicherten Niveau, das muss man erst einmal überprüfen.

Also, ist diese Differenz von einem IQ-Punkt statistisch signifikant zwischen Ernie und Peterchen?

  • Wird sich zeigen.
  • Das kann man damit berechnen.
  • Eine Skalenwertdifferenz, eben hatten wir die Skalenwertdifferenz von einem Punkt ermittelt im Beispiel, ist dann signifikant, wenn sie größer oder gleich der kritischen Differenz ist.
  • Und diese kritische Differenz, die müssen wir jetzt mal berechnen, bevor wir feststellen können, ob Ernie und Peterchen überhaupt unterschiedliche Intelligenz haben.

Und dazu nehmen wir, oder hätte ich Ernie und Bert nehmen sollen?

  • Wäre doch ein Klassiker gewesen.
  • Das heißt, die Ermittlung von Unterschieden zwischen zwei Testpunktwerten ist jetzt wichtig.
  • In diesem Kontext, nehmen wir ruhig Ernie und Bert, das ist lustig.
  • Um zu ermitteln, ob sich die Testwerte zweier Probanden in einem Test überzufällig voneinander unterscheiden oder durch Zufallseinschlüsse, die zurückgehen auf die Unreliabilität des Tests, zu erklären sind, lässt sich eine kritische Differenz berechnen, die empirisch zu übertreffen ist.
  • Also, die kritische Differenz ist empirisch zu übertreffen.
  • Um von einem signifikanten Unterschied auszugehen.
  • Dazu gibt es zwei freundliche Formeln.
  • Die kritische Differenz sehen Sie hier links, berechnet sich aus dem Irrtumswahrscheinlichkeits-Z-Wert, mal diesem Wert SE-Dif genannt.
  • Und das SE-Dif berechnen Sie über diese freundliche Formel hier auf der Seite, die sich nicht wesentlich von der Formel, die wir eben zur Messfehlerberechnung hergenommen haben, unterscheidet.
  • Aber man beachte, hier steht noch eine 2.
  • Die darf man nicht vergessen.
  • Also, eine kritische Differenzberechnung ist ein Klassiker in der Klausur, kam meines Wissens bisher in jeder Klausur bei mir dran.
  • Das heißt, es ist hochgradig prüfungsrelevant, dieses Wissen.
  • Es ist deshalb prüfungsrelevant, weil es auch für Ihre spätere Diagnostik hochrelevant ist, und deshalb sollten Sie gleich hier zeigen, dass Sie es draufhaben.

Wie sieht es aus mit den Formeln im Rahmen meiner Klausur?

  • Diese Formeln, die hier angegeben sind, finden Sie immer auf der letzten Seite meiner Klausuren.
  • Genau wie die Irrtumswahrscheinlichkeits-Z-Werte können Sie sie tabellarisch ablesen, wenn Sie sie nicht parat haben.
  • Das sehen Sie auch, wenn Sie die Klausuren herunterladen, die ich freigegeben habe.
  • Das sind Übungsklausuren aus den Jahren 2003 bis 2005.
  • Das habe ich auch schon an dieser Stelle erwähnt.
  • Sie werden immer sehen, dass die letzte Seite eine Formelseite ist, auf der die wichtigsten Formeln aufgeführt sind.
  • Da steht jedoch natürlich nicht dabei, wofür diese Formel geeignet ist.
  • Es steht nur die Formel da.
  • Also, ich gehe davon aus, dass Sie sich damit vertraut gemacht haben, dass Sie wissen, wozu diese Formel dient.
  • Und falls Sie aufgrund von Stress Gedächtnislücken haben sollten, können Sie gerne nachschlagen.
  • Das ist mein Verständnis von kompetenter Anwendung: Sie kennen die Formel, können sie wiedererkennen und damit arbeiten.
  • Nicht, dass Sie sie auswendig können müssen.
  • Schauen wir uns ein praktisches Beispiel an.
  • Ein Test wurde auf eine Standardabweichung von 20 normiert.
  • Die Reliabilität dieses Tests beträgt 0,92 und der Standardfehler einer interindividuellen Differenz für diesen Test beträgt. Also, der Standardfehler für eine interindividuelle Differenz bedeutet, dass Ernie und Bert denselben Intelligenztest machen, unterschiedliche Ergebnisse erzielen und wir wissen möchten, ob das statistisch signifikant ist.
  • Das heißt, bitte berechnen Sie hier den SE.
  • Also eben war es SE-DIV genannt.

Ist hier dasselbe gemeint?

  • Versuchen Sie, sich mit Ihrem Taschenrechner vertraut zu machen.

Haben Sie es schon?

  • Nr.
  • 8.
  • Einverstanden, ja.
  • Ich habe es schon mal für Sie berechnet.
  • Sie sehen es schon in der Formel darunter.
  • Jetzt kommt ja schon der Wert 8 raus.
  • Aber wichtig ist jetzt hier weniger sozusagen, dass Sie möglichst schnell diese Zahlen nennen können, sondern dass Sie einmal mit Ihrem Taschenrechner versucht haben, hier auf dieses Ergebnis zu kommen und den Weg verstehen.
  • Bitte.
  • Ich verstehe jetzt nicht, welchen Wert man für das X nimmt.

Welchen Wert man für das X nimmt, für das SX?

Vorschläge?

  • Die 20.
  • Sie sehen, das ist hier die Standardabweichung von 20.
  • Das SX ist 20.
  • Das ist wie eine Textaufgabe, wo man nicht jetzt direkt auf dem Präsentierteller gesagt kriegt, was jetzt das SX ist.
  • Das heißt, wenn Sie diese Werte hier einsetzen, damit sind alle Werte, das Sx ist die 20, die 92 setzen Sie hier für die Reliabilität ein, die hier mit RTT abgekürzt ist, eine Möglichkeit der Reliabilitätsschätzung, kommen Sie auf den Wert 8 und dann müssen Sie noch multiplizieren, wenn wir zurückgehen, Sie sehen das hier, das Decret berechnet sich aus dem Z-Alpha-Halbe mal dem S-Edif-Wert.
  • Gehen wir wieder vor.
  • Das Z-Alpha-Halbe ist jetzt hier die 1,96.
  • Das ist wieder der Irrtumswahrscheinlichkeits-Z-Wert für 95-prozentige Wahrscheinlichkeit.
  • Mal 8 ist der Wert aus dem SE-DIF.
  • Das heißt, die kritische Differenz, die es zu übertreffen gilt, in diesem Test, den meinetwegen Ernie und Bert gemacht haben, um sagen zu können, sie haben eine statistisch unterschiedliche Leistung erbracht.
  • beispielsweise wenn das ein Intelligenztest wäre, beträgt 15,7 IQ-Punkte.
  • Das heißt, wenn Ernie und Bert die Werte 20 und 121 erzielt haben, sind die statistisch gesehen gleich.
  • Schön wäre es natürlich, und das werden Sie intuitiv auch so sehen, wenn dieser Decret-Wert deutlich enger wäre.
  • Dazu brauchen wir reliablere Tests.
  • Auch dafür ist das gut.
  • Wenn die mehr als 16 Punkte auseinander wären, dann hätten Sie einen signifikanten Unterschied in Ihrer Intelligenzausprägung.
  • Und 16 Punkte, bedenken Sie bitte, wie viel das ist.

Kann ich dann bei SPSS zum Beispiel das berechnen lassen und sagen, alle, die darunter liegen, werden nicht betrachtet oder so?

  • Sie könnten mit SPSS, wenn Sie möchten, diese kritische Differenz berechnen und sich dann die Liste, wenn Sie beispielsweise 100 Studienanfänger getestet haben, Bei einem Studieneingangstest haben Sie deren IQ-Werte und Sie können dann das Dekret berechnen aufgrund der Angaben, die Sie hier vorfinden und dann schauen, okay, mindestens so viele Punkte müssen die auseinanderliegen, die Herrschaften, damit ich davon sprechen kann, dass jemand intelligenter ist als der andere.
  • Und darauf basieren Sie dann hoffentlich Ihre Auswahlentscheidung.
  • Wenn es jetzt nur beispielsweise nach Intelligenz ausgewählt würde, würden Sie darauf Ihre Auswahlentscheidung basieren.
  • Das heißt, auch eine Person, die einen IQ-Wert von 110 erzielt hat mit diesem Test, von dem wir die Daten hier haben, und eine Person, die einen Wert von 120 erzielt hat, auch die sind nicht statistisch bedeutsam unterschiedlich in ihrer Intelligenz.
  • Ist ein klassisches Beispiel zum Beispiel, wenn Sie Studienauswahltests konzipieren.
  • Brauchen Sie möglichst reliable Angaben, damit Sie diese kritischen Differenzen, damit die sich enger gestalten und Sie dann besser Auswahl betreiben können.
  • Es geht nur um die Differenz, genau.
  • Das funktioniert auch zum Beispiel, wenn Sie es mit Extraversionen machen.
  • Sie können auch sagen, es gibt einen Extraversionswert von 1 bis 9 und da wäre zum Beispiel die kritische Differenz, die man so findet, so zwei Extraversionswertpunkte, um zu sagen zu können, der eine ist extravertierter als der andere.
  • Also diese kritische Differenzberechnung ist in der Praxis sehr bedeutsam.
  • Deshalb lege ich darauf Wert und deshalb kommt es auch in der Klausur.
  • Es geht in beide Richtungen.
  • weil sie es nicht verstanden haben, ihre Kommilitonin meinte, wenn wir das hier aufrunden, hätten wir 16 Punkte und wenn eine Person 120 hätte, dann müsste damit das Dekret übertroffen werden, entweder 16 Punkte drüber, das wären dann über 136 oder 16 Punkte drunter, das wären dann beim Wert, hatte ich 110 oder 120 gesagt, naja, dann subtrahieren sie diese Werte und finden dann die Grenze nach unten.
  • Also ich finde, das ist schon eine heftige kritische Differenz hier.
  • in der Praxis.
  • Bitte.
  • Also das ist der übliche Wert, den Sie ablesen, wenn Sie eine fünfprozentige Irrtumswahrscheinlichkeit haben wollen.
  • Die Schreibweise variiert dazwischen, aber ich meine immer das klassische abzulesende Z.
  • was in meiner Klausur auch immer vorgegeben ist.
  • Das ist kein Stolperstein.
  • Man findet hierfür häufig unterschiedliche Schreibweisen.
  • Ich habe mich jetzt nicht auf eine einzige festgelegt.
  • Gemeint sind, wie gesagt, immer die vorgegebenen Sachen von mir.
  • Das heißt, machen wir noch ein weiteres Übungsbeispiel.
  • Wir haben einen IQ-Test mit Standardabweichung Sx gleich 10, Reliabilität von Punkt 80 und 5% Irrtumswahrscheinlichkeit.
  • Hier ist wieder das Z gegeben, 1,96.

Dann beträgt Decret welche Größe bitte?

  • 6,32 haben wir im Angebot.
  • Ich sehe bestätigendes Nicken.
  • Aus Ihrer Ecke haben Sie genickt.
  • Das ist ein guter Hinweis.
  • Das sind zwei Schritte.
  • 12,4 Einverständnis.

12,4?

  • Decret ist 12,4, wunderbar.
  • Okay.
  • Das heißt, die kritische Differenz von 12,4 gilt es zu überwinden, damit wir davon sprechen können, dass sich zwei Personen in diesem Test unterscheiden mit einer 5-prozentigen Erdungswahrscheinlichkeit.
  • Gut, ich sehe schon, Sie haben das eingeübt, das funktioniert.
  • Dazu gibt es aber noch eine Frage.
  • Frage, also ich dachte, wenn man jetzt so einen Intelligenztest z.B.

normiert, dass das also eine Standarderreichung mit 10 Punkten sind, also hat man dann nicht, wenn man einen Unterschied von der Standarderreichung hat, schon irgendwie einen Unterschied, bedeutet das noch nichts?

  • Nein, das bedeutet in dem Fall für die Berechnung von kritischen Differenzen noch nichts.
  • Aber Sie sehen anhand Ihrer Frage, und das ist eine gute Frage, dass diese kritischen Differenzen recht breit sein können, recht groß sein können, damit man überhaupt von einem Unterschied sprechen kann.
  • Und eine Standardabweichung Unterschied, und hier wäre die Standardabweichung 10 und die kritische Differenz, wie Sie gerade berechnet haben, ja 12,4.
  • Das heißt, die kritische Differenz ist schon als recht groß einzuschätzen.
  • Das ist ein weiterer Beleg dafür, worauf Sie aufmerksam gemacht haben, dass diese kritischen Differenzen recht groß sein können, damit wir überhaupt von einem statistisch signifikanten Unterschied sprechen können.
  • Und unser Bestreben, das ist natürlich klar, geht dahin, die Reliabilität zu erhöhen, um diese kritischen Differenzen kleiner zu machen.
  • Ganz ähnlich wie die Enge des Konfidenzintervalls positiv zu beeinflussen.
  • So, jetzt wird es ein bisschen kritisch, nämlich kritisch für die klassische Testtheorie.
  • Wir haben eben gesehen, mit der kann man was anfangen.
  • Es gibt empirische Befunde, die für sie sprechen.
  • Zum Beispiel die Herleitung der Reliabilität funktioniert ganz gut in der Praxis, in vielen Fällen.
  • Konfidenzintervallberechnung, kritische Differenzberechnung.
  • Das sind Dinge, die wir anhand der Axiomatik der klassischen Testtheorie vorgenommen haben und die sehr weite Verbreitung finden und die deshalb alle von uns können müssen.
  • Schauen wir uns jetzt mal an, was die klassische Testtheorie noch an wichtigen Punkten aufweist, die wir kritisch und kritisch heißt ja auch positiv ins Feld führen können.
  • Über 95 Prozent der auf dem Markt befindlichen Testverfahren wurden nach der klassischen Testtheorie konstruiert.
  • Das bezieht sich über 95 Prozent, müsste man sagen, der seriösen Verfahren.
  • Weil viele Verfahren, die Sie in diesen besagten Zeitschriften finden, sind überhaupt nicht wissenschaftlich fundiert und die Herrschaften, die die konstruiert haben, haben von der klassischen Testtheorie auch noch nie was gehört.
  • Aber selbst von den seriösen Verfahren sind 95 Prozent nach der klassischen Testtheorie konstruiert.
  • Das heißt, die hatten eine absolute Vormachtstellung.
  • Ich bin ja nebenbei auch Geschäftsführer seit kürzerem der Testothek, die mittlerweile in die Bibliothek integriert ist.
  • Und wir schaffen gerade umfangreiche Testverfahren im Umfang von mehreren Tausend Euro, weil die total veraltet war, der Bestand.
  • Und ich habe in dieser Bestellung, die jetzt rausgeht, die hat den Umfang von ungefähr aktueller Stand 12.000 Euro, ist kein einziger Test dabei, der nach der probabilistischen Testtheorie konstruiert ist, sondern alle nach der klassischen Testtheorie, um Ihnen einen Eindruck zu geben.
  • Also im Moment ist der Stand, den wir haben in der Testothek, Wahrscheinlich eher 98% klassische Testtheorie, 2% probabilistische Testtheorie.
  • Um Ihnen den Stellenwert klarzumachen, ist das ein wichtiger Punkt.
  • Diese Tests haben sich in der Praxis eindeutig bewährt und trotzdem sollten auch die Unzulänglichkeiten kritisch betrachtet werden.
  • Das heißt, wir schauen uns mal die kritischen Aspekte an.
  • Wir haben folgende Punkte anzubringen, anhand derer sich die Kritik aufbaut.

Wir haben Stichprobenabhängigkeit der Parameter, das ist ein Punkt.

  • Wir haben messtheoretische Probleme und wir haben wissenschaftstheoretisch fundierte Probleme und schauen die uns jetzt eins nach dem anderen an.
  • Wir haben zunächst mal den wichtigen Punkt Stichprobenabhängigkeit.
  • Item- und Testkennwerte, wie zum Beispiel Itemschwierigkeit, Trendschärfe, Reliabilität, auch Validität, werden an spezifischen Stichproben berechnet.
  • Wir haben ja in unseren kleinen Rechenbeispielen immer mit Minidatensätzen gearbeitet, um die Rechnerei für Sie mit dem Taschenrechner jetzt zu erleichtern.
  • Aber wir haben mit Datensätzen gerechnet, die Stichproben entstammen.

Die Frage dabei ist natürlich, sind diese Befunde generalisierbar auf andere Stichproben?

  • In diesem Kontext ist es wichtig zu erwähnen, dass man durch die Wahl heterogener oder homogener Stichproben die Reliabilität künstlich erhöhen oder senken kann.
  • Das heißt, die Ergebnisse, die ich anhand der klassischen Testtheorie herausbekomme, sind stichprobenabhängig.
  • Und ich kann das auch ein bisschen manipulieren, wenn ich möchte, durch die Wahl der Stichprobenart.

Was glauben Sie, ist die Reliabilität eher günstig bei heterogenen oder bei homogenen Stichproben?

Zunächst mal, was ist eine homogene Stichprobe und was ist eine heterogene Stichprobe?

  • Ich gebe Ihnen mal ein paar Beispiele vor.
  • Wir machen Intelligenzforschung hier im Saal.

Ist das eher eine homogene oder eine heterogene Stichprobe?

  • Homogen, einverstanden.
  • Sie gehen auf den Marienplatz und interviewen da Passanten zu allen Tages- und Nachtzeiten.
  • Heterogen, einverstanden.
  • Sie machen Forschung wie Herr Guilford, der mittlerweile glaube ich nicht mehr lebt, er lebt garantiert nicht mehr, bei der Bundeswehr oder bei der US Army und lassen sich immer Soldaten abkommandieren, die ihre Tests ausführen.
  • Homogen und Heterogen, homogene Stichproben.
  • Soldaten ist eine…
  • Moment, das ist rein deskriptiv, das ist nicht normativ.
  • Wir sind auch homogen hier.
  • Als Stichprobe.
  • Aber der hat insbesondere Intelligenzforschung an Offizieren gemacht und man kann schon sagen, das ist eher eine homogene Stichprobe.
  • Okay, also ich sehe schon, das Verständnis ist da.

Das heißt, wenn diese Begriffe Ihnen klar sind, wann glauben Sie, ist die Reliabilität höher?

Bei heterogenen oder homogenen Stichproben?

  • Bei Heterogenen, weil die Reliabilität braucht Varianzen und das habe ich in der Homologie Stichproben gemacht.
  • Richtig, sehr gut.
  • Sehr gute Antwort.
  • Ihre Kommilitonin, ich wiederhole es gerne mal noch für alle.
  • Die Reliabilität hat viel zu tun mit den Varianzen.
  • Sie haben die Reliabilitätsformel ja eben gesehen und auch schon in dem kleinen Beispiel berechnet, hängt ab von den Varianzen.
  • Und es ist in Heterogenen Stichproben, wo die Leute unterschiedlicher sind, ist einfach mehr Varianz drin.
  • Und aufgrund dieses Potenzials, dass die Leute unterschiedlicher sind, heißt statistisch gesprochen, es gibt mehr Varianz, erhöht das Potenzial der Reliabilität.
  • Und wenn Sie, versuchen wir mal einen Transfer, wenn Sie hergehen und forschen jetzt nur, machen Intelligenzforschung, wie der Herr Guilford an Offizieren der US Army, haben Sie eine homogene Stichprobe.
  • Die homogene Stichprobe heißt, die Leute unterscheiden sich nicht doll, das heißt, ich habe geringere Varianzen.
  • Also sagen wir kleine Varianzen vergleichsweise.

Wozu führen geringere Varianzen, wenn Sie Faktorenanalysen jetzt über diesen Datensatz laufen lassen?

Führt das zu mehr Faktoren oder zu weniger Faktoren?

  • Es führt zu mehr Faktoren.
  • Es führt zu mehr Faktoren.
  • Deswegen hat der Herr Gilford auch viel mehr Intelligenzfaktoren gefunden, als jetzt Leute, die an heterogenen Stichproben geforscht haben, das finden.

Haben Sie schon zur Faktorenanalyse ein bisschen was gehört?

  • Versuchen wir noch einen Schritt.

Weniger Varianz heißt, was bedeutet das für die Korrelation, die da sind?

  • Ich höre mal weg.

Wissen Sie es vielleicht?

Wenn weniger Varianz da ist, was heißt das für das Potenzial der Korrelation?

  • Geringer.
  • Genau.
  • Wenn ich geringe Korrelationen habe in einem Datensatz zwischen den Variablen und ich lasse dann eine Faktorenanalyse drüber laufen, dann brauche ich mehr Faktoren, um beispielsweise 50, 60 Prozent Varianzaufklärung zu erreichen, als wenn ich es in einer heterogenen Stichprobe mache.
  • Also nehmen wir nochmal die Kette.
  • Homogene Stichprobe heißt geringe Varianz.
  • Geringe Varianz heißt geringe Korrelation.
  • Geringe Korrelation heißt faktorenanalytisch gesprochen, mehr Faktoren.
  • Nehmen wir die Kette für heterogene Stichproben.
  • Heterogene Stichproben heißt, die Leute unterscheiden sich.
  • Das heißt, es gibt viel Varianz.
  • Viel Varianz sind eine gute Voraussetzung dafür, dass es hohe Korrelationen gibt, wo es hohe Korrelationen gibt in einem Datensatz.
  • ist die Möglichkeit, faktorenanalytisch gesprochen, gegeben mit wenigen Faktoren, einen gewissen Zielprozentsatz an aufgeklärter Varianz zu erreichen.
  • Sie sehen, das hängt zusammen.
  • Unterschiedlichkeit der Stichprobe, Varianz, Korrelation, faktorenanalytische Erlebnisse.
  • Versuchen Sie sich daran mal zu erinnern, wenn es darum geht, wenn man sich überlegt, ja, wie viele Faktoren müssen wir eigentlich extrahieren, um einen akzeptablen Prozentsatz an Varianza mit aufzuklären, mit den extrahierten Faktoren.
  • Wenn Sie dann daran denken, ich glaube, dann wird Ihnen noch einiges noch ein bisschen klarer von einer holistischen Perspektive.

Bitte.

Das Problem ist halt, die Korrelationsberechnung hängt auch an den Varianzen.

  • Und wenn die Varianzen nicht gegeben sind, weil die Leute so ähnlich sind, dann sind die Zusammenhänge so, wie ich es gerade gesagt habe.
  • Auch wenn es vielleicht kontraintuitiv erscheinen mag.
  • Ich habe bewusst diese Fragen gestellt, so ein bisschen provokant, um sie in dieser Hinsicht ohne bösen Willen ein wenig aufs Glatteis zu führen.
  • Aber das dient dem Verständnis.
  • Daher die Legitimation.
  • Also Sie sehen, wir waren eigentlich auf diesen Punkt gekommen über den Punkt Stichprobenabhängigkeit.
  • Wir haben gerade gezeigt, dass über Homogenität und Heterogenität der Stichprobe auch Gütekriterien beeinflusst werden können.
  • Das heißt, wenn Sie die Reliabilität Ihres Tests hochtreiben wollen, könnten Sie das Schlupfloch nutzen, indem Sie eine möglichst Stichprobe wählen, heterogene Stichprobe wählen.
  • Einverstanden.

Das heißt, die Folie fasst nochmal zusammen.

  • Je homogener eine Stichprobe ist, desto geringer fallen die jeweiligen Korrelationen aus.
  • Dies führt zu einer Varianz der Reliabilitätskoeffizienten, die allein auf die Auswahl der Stichprobe zurückzuführen ist.
  • Und Reliabilitäten sind nur schwer zu generalisieren, weil sie ja stichprobenabhängig sind.
  • Und alles, was stichprobenabhängig ist, ist schwer zu generalisieren.
  • Wir hätten aber gerne stichprobenunabhängige Befunde.
  • Die kriegen wir bei der klassischen Testtheorie aber nicht.
  • Das kann man kritisch erwähnen.
  • Das heißt, wir müssen bei der klassischen Testtheorie Punkte diskutieren wie Bedeutung der Stichprobenrepräsentativität.
  • Nehmen wir beispielsweise Ihren Test, den Sie entwickeln wollten zum Kommunikationsverhalten.

Für wen soll der sein?

Soll das beispielsweise ein Test sein zur Erfassung des Kommunikationsverhaltens bei jungen Nachwuchskräften in Großkonzernen?

  • Stichwort Trainees.

Oder soll das sein Kommunikationsfähigkeit von Lehrern an Hauptschulen?

Wir müssen genau sagen, für welche Population ist dieser Test geeignet?

  • Und demzufolge sollte man auch die Normierungsstichprobe wählen.
  • Also dass der Test für den Geltungsbereich, den er beansprucht, eine repräsentative Stichprobe hat.
  • Damit geht einher das Problem der Definition der Population.
  • Sie müssen sich eine Zielpopulation bewusst überlegen und die dann stichprobentechnisch ins Visier nehmen.
  • Der nächste Kritikpunkt an der klassischen Testtheorie waren messtheoretische Erwägungen.
  • Daten sollten auf Intervallskalenniveau liegen, aber bei vielen Tests ist jedoch fraglich, ob diese Voraussetzung erfüllt ist.
  • So müssten etwa die Abstände bei abgestuften Ratingsskalen, die wir ja schon kennengelernt haben, psychologisch gleich interpretiert werden, dann spricht man von Äquidistanz.
  • Also wenn wir hergehen, ich gehe gerne auch Partys, klassisches Extraversionsitem, Abstufung 1 bis 5.
  • gelabelt in dem gängigen Persönlichkeitstest Neo-FFI, beispielsweise starke Ablehnung, Ablehnung, neutral, Zustimmung, starke Zustimmung.
  • Da muss zwischen diesen einzelnen fünf Stufen, die ich Ihnen gerade genannt habe, subjektiv in den Köpfen der Personen eine Gleichabständigkeit bestehen.
  • Das nennt man nun als Fremdwort Äquidistanz.
  • Und Intervallskalen haben ja diesen Vorteil, dass sie von Äquidistanz ausgehen.
  • Dann nämlich, wenn Intervallskalenniveau gegeben ist, wovon wir ausgehen häufig in der Psychologie, ohne es zu beweisen, wenn wir mit klassisch-testtheoretischen Methoden arbeiten, kann man Mittelwerte berechnen, Varianzen berechnen, kann man Messwertdifferenzen bilden.
  • Das alles ist in der Praxis, wird es so gemacht.
  • Überblick über die Verbreitung der klassischen Testtheorie habe ich Ihnen ja gerade gegeben anhand der Verbreitung der Tests.
  • Das alles ist jedoch fraglich und es gibt dafür zunächst keine explizite Überprüfung, was uns als empirische Wissenschaftler zunächst stören muss.
  • Wir würden es gerne genau wissen.
  • Wissenschaftstheoretisch betrachtet kann man kritisch anmerken, dass die klassische Testtheorie als Messfehlertheorie nichts anderes ist als eine axiomatische Fehler- oder Messfehlertheorie ohne psychologische Fundierung mit nicht überprüfbarer Axiomatik.
  • Nicht überprüfbar kann für uns auch wieder eigentlich nur ein Ansporn sein, das zu verbessern, das abzuändern oder nach anderen Möglichkeiten zu suchen, wie wir unsere Vorannahmen, die wir machen, überprüfen können.
  • So, dann gibt es noch aus den Aktionen, die wir besprochen haben, gibt es noch problematische Schlussfolgerungen, die intuitiv vielleicht ein wenig Unbehagen bei Ihnen auch ausgelöst haben, als wir darüber gesprochen haben.
  • Zum Beispiel sagt das Axiom 2, ja, die Annahme, dass der Messfehler bei Messwiederholungen einen Erwartungswert von 0 hat, ist bestenfalls eine theoretische Modellannahme.
  • Das muss aber ja nicht notwendigerweise so sein.
  • Und das Axiom 5, es ist unplausibel anzunehmen, dass die Ausprägungen der Messfehler von zwei Tests unabhängig voneinander sind, da sich zum Beispiel Testangst bei beiden systematisch in die gleiche Richtung auswirken könnte.
  • Das ist ein Beispiel, was Sie, Frau Schöning, schon eben angeführt haben.
  • Wenn das ein systematisches Problem ist, dann sind die Messfehler, die eine Person macht, wahrscheinlich doch korreliert zwischen Messung 1 und Messung 2.
  • Und wenn das aber so ist, dann widerspricht das der Axiomatik.
  • Die Axiomatik wird aber gleichwohl dazu hergenommen, beispielsweise Reliabilität zu definieren.
  • Das heißt, die Reliabilitätsdefinition ist ein bisschen am Wackeln, potenziell.
  • Weiteres Problem ist, dass Wahrscheinlichkeitsaussagen sich streng genommen nicht auf den Einzelfall übertragen lassen.
  • Wenn folgendes gegeben ist, nämlich Reliabilitäten und Validitäten unter dem Maximalwert von 1,0 erlauben lediglich gruppenstatistische Wahrscheinlichkeitsaussagen.
  • Und dies steht einer Anwendung psychologischer Tests auf den Einzelfall diametral entgegen.
  • Wir wollen ja in der Regel psychologische Einzelfalldiagnostik betreiben.
  • Ganz streng geurteilt müssten wir dazu optimale Goethe-Kriterien-Ausprägungen haben, die wir aber nicht haben.
  • Trotzdem kann man eine einigermaßen seriöse Diagnostik machen, wenn man versucht, zumindest diese Werte zu optimieren.
  • Die Alternative wäre, Diagnostik zu unterlassen.
  • Das kann nicht wirklich die Wahl sein.

Ein Pluspunkt für die klassische Testtheorie ist natürlich die praktische Bewährung.

  • Denn nach der klassischen Testtheorie entwickelte Verfahren haben sich in der Praxis zur Bestimmung von intra- und interindividuellen Unterschieden bewährt und erlauben objektive, reliable und relativ hochvalide Einschätzungen.
  • Nach wie vor werden fast alle der erhältlichen Testverfahren nach dem Item-Analyse-Verfahren der klassischen Testtheorie entwickelt.
  • wie gerade auch am Beispiel meiner Tätigkeit erläutert.
  • Und das Ganze ist, das ist jetzt von sehr harschen Kritikern formuliert, dass die klassische Testtheorie immerhin eine gute Alternative zu Zufallsentscheidungen liefert.
  • Das ist ein bisschen bösartig, wenn Sie so wollen.
  • Das heißt, Instrumentare in der klassischen Testtheorie sind immerhin wesentlich besser als Zufallsentscheidungen.
  • Ja, so what.
  • Ich würde sagen, wir sind deutlich besser.
  • In den meisten Fällen deutlich besser.
  • Nichtsdestotrotz gibt es noch Optimierungspotenzial.

So, was hat man jetzt damit gemacht?

  • Auf der Grundlage der Kritik an der klassischen Testtheorie entwickelten sich Erweiterungen des ursprünglichen Ansatzes, zum Beispiel die Generalisierbarkeitstheorie, auf die ich im Rahmen dieser Vorlesung nicht weiter eingehen möchte, weil die uns so ein bisschen weiter abführen möchte von dem Pfad, den ich für diese Vorlesung als relevant definiert habe.
  • Da gibt es als Grundlage der Kritik auf die klassische Testtheorie die probabilistische.
  • Da wollen wir sehr wohl hinschauen, was die uns zu bieten hat.
  • Welche Vorteile im Vergleich zur klassischen Testtheorie.
  • Und es gibt Modelle mit anderer Akzentsetzung, zum Beispiel kriteriumsorientierte Leistungsmessungen, die schauen wir uns an, wenn wir die probabilistische Testtheorie besprochen haben.
  • Die Statistiker und die Methoden-Freaks, wenn sie so möchten, haben sich sehr wohl auf Grundlage dieser kritischen Befundlage hinsichtlich der klassischen Testtheorie überlegt, was man dann besser machen könnte.
  • Und wir werden nachher noch reinschnuppern, ja, ich hoffe es, wir werden noch reinschnuppern in die probabilistische, um zu sehen, wie die funktioniert.
  • Ja, machen wir das.
  • Werfen wir uns, nicht werfen wir uns, sondern holen wir uns ins Gedächtnis.
  • Nochmal die grundlegende Ausgangssituation, die wir in der Testtheorie vorfinden.
  • Sie erinnern sich an diese Grafik.
  • Wir haben ein Personenmerkmal, das wir gerne direkt erfassen würden.
  • Wir können aber nicht.
  • Wir brauchen Tests dazu als Umweg.
  • Das heißt, wir geben Items, also Stimuli, den Personen vor.
  • Und diese Personen reagieren dazu.
  • Sie liefern Antworten oder auch Responses, wie der Angelsachse sagt.
  • Er reagiert auf die Stimuli in einer bestimmten Weise.
  • Das ist das Testverhalten, beispielsweise das Einkreuzverhalten in einem Persönlichkeitstest.
  • Auf Grundlage dieses Testverhaltens schließe ich zurück auf die Merkmalsausprägung der Person.
  • Sie erinnern sich da an die Testdefinitionen, die wir gleich in der ersten Vorlesung im April noch besprochen haben.
  • Das ist die Grundlogik des Testens.
  • Ich führe das Ihnen bewusst nochmal auf, weil dieser Punkt wichtig wird, dass hier jetzt steht, Personmerkmal beeinflusst das Testverhalten und nicht bestimmt hundertprozentig.
  • Dieser Punkt wird wichtig bei der jetzt folgenden probabilistischen Testtheorie.
  • So, Sie sehen, die probabilistische Testtheorie ist auch abgekürzt als IRT und IRT steht für nichts anderes als Item Response Theory oder Theorie auf Deutsch.
  • Können wir ruhig Deutsch sagen.
  • Also Personen kriegen Items als Stimuli vorgesetzt, reagieren darauf, liefern also Responses.
  • Und diese Responses interpretieren wir und schließen auf die Merkmalsausprägung.
  • Das heißt, ein Test liefert ein Resultat oder Testergebnis und dieses Testergebnis soll indikativ für ein bestimmtes Merkmal der Person sein.
  • Machen wir es praktisch, ein Test liefert ein Testergebnis, sagen wir IQ 120, und dieses Testergebnis, also IQ 120, soll indikativ für ein Merkmal, also das Merkmal Intelligenz der Person sein.
  • Deswegen machen wir es.
  • Nicht überraschend.
  • Es ist aber klar, dass das Testergebnis kein unfehlbares numerisches Äquivalent für die entsprechende Merkmalsausprägung ist.
  • Sie erinnern sich noch bei der klassischen Testtheorie, wo wir gesagt haben, wer misst, misst zumindest teilweise.
  • Das heißt, das ist potenziell mit Fehler behaftet.
  • Jetzt möchte ich die klassische Testtheorie kontrastieren zum probabilistischen und dann so können wir Unterschiede herausarbeiten.
  • Über den Zusammenhang zwischen Testergebnis und Merkmalsausprägung werden unterschiedliche Annahmen gemacht.
  • Zunächst schauen wir uns die klassische Testtheorie an, welche Annahme sie macht.
  • Sie geht nämlich davon aus, dass das Testergebnis direkt, wenn auch mit Messfehlern behaftet, Sie erinnern sich an den Physiklehrerspruch, dem Ausprägungsgrad des gemessenen, also wahren Merkmals entspricht.
  • Das Testergebnis entspricht direkt, wenn auch mit Messfehlern behaftet, dem wahren Wert der Person.
  • Der Zusammenhang zwischen Personenmerkmal und Testmerkmal wird also a priori als deterministisch angenommen und ist zudem, weil er axiomatisch begründet, keiner empirischen Überprüfung zugänglich.
  • Also hier herrscht eine deterministische Annahme in der klassischen Testerie.
  • Jetzt schauen wir uns die probabilistische an.
  • Entschuldigung, wir bleiben noch kurz bei der klassischen.
  • Wir haben ein Testergebnis, wie zum Beispiel IQ120, und wissen, das setzt sich zusammen aus dem wahren Wert der Person und nichts anderem als dem Messfehler.
  • Das heißt, der Effekt unkontrollierter Variablen wird als Messfehler bezeichnet, also unsystematische Fehler.
  • Und dem gegenüber legt die probabilistische Testtheorie nicht von vornherein fest, wie der Zusammenhang zwischen Merkmalsausprägung und Testergebnis zu sein hat.
  • Sie sagt also nicht a priori, es muss ein deterministischer Zusammenhang bestehen, sondern die probabilistische Testtheorie geht differenzierter vor.
  • Sie sagt nämlich, es gibt zwei Ebenen, die wir differenzieren müssen.
  • Das sind nämlich die Ebenen Merkmalsebene, Die nennt man auch latente Variablen und die Testebene, das ist also die Item-Ebene, die nennt man auch Manifeste-Variablen und betrachtet das Testergebnis lediglich als Indikator für das Merkmal.
  • Also die Merkmals-Ebene ist beispielsweise die extraversion Intelligenz, die in mir ruht, ist latent.
  • Latente heißt verborgen.
  • Das ist das, was wir eigentlich gerne hätten.
  • Wir kommen aber an das Eigentliche ja nicht dran und deshalb brauchen wir die Item-Ebene mit Manifestenvariable.

Manifest ist das Wort kennen Sie?

  • Gut.
  • Das heißt, hier wird differenziert.
  • Das Testergebnis wird als Indikator für die Merkmalsausprägung betrachtet.
  • Schauen wir es uns weiter an.
  • Dabei ist die Beziehung zwischen Merkmal und Indikator, die kann man als Funktion ausdrücken, in der Regel eine probabilistische.
  • Probabilistische heißt wahrscheinlichkeitsbezogen.
  • Das Gegenteil von probabilistisch ist deterministisch.
  • wie es die klassische Testtheorie macht, deren Verlauf zudem sehr unterschiedlich sein kann.
  • Das heißt, das Hauptunterscheidungsmerkmal zur klassischen Testtheorie besteht darin, dass bei der Item-Response-Theorie eine hypothetisch festgelegte Funktionsform empirisch darauf geprüft werden kann, ob sie auch tatsächlich vorliegt.
  • Da erinnern sich gerade vor dem Hintergrund der Kritik an der klassischen Testtheorie, das ist ein Vorteil.
  • Hier kann etwas überprüft werden.
  • Hier muss ich nicht an Axiome glauben.
  • Das schauen wir uns nochmal im Kontrast an.
  • Die klassische Testtheorie beginnt mit der Annahme über Tests und führt Items erst bei der Konstruktion reliabler und valider Verfahren ein.
  • Wohingegen die probabilistische Testtheorie startet mit Annahmen über Items, aus denen dann Eigenschaften weiterer Testmerkmale abgeleitet werden.
  • Das heißt, die klassische Theorie oder klassische Testtheorie siedelt Testwerte und wahre Werte auf dem gleichen Kontinuum an, wohingegen die probabilistische Testtheorie zwei verschiedene Arten von Variablen betrachtet, zwischen denen ein probabilistischer Zusammenhang besteht.
  • Das heißt, Die Fragestellung der probabilistischen Testtheorie ist im Wesentlichen, welche Rückschlüsse können auf Personenmerkmale gezogen werden, wenn lediglich, und wir haben ja lediglich, deswegen ist das kursiv, wenn lediglich Antworten auf diverse Test-Items, also unsere Stimuli vorliegen und diese Antworten auf diese diversen Test-Items sind ja englisch gesprochen nichts anderes als Item-Responses.
  • Das heißt, was können wir anfangen mit den Item-Responses, die wir haben, um auf die Merkmalsausbreitung der Person schließen zu können.

Haben wir da irgendwelche ungebetenen Gäste oder so?

  • Das heißt, wir haben hier ein Testergebnis.
  • Wir haben einen Kennwert des Testobjektes.
  • Das heißt, das hier ist beispielsweise IQ 120.
  • Kennwert des Testobjektes ist der wahre Wert, den Sie kennengelernt haben aus der klassischen Testtheorie.
  • Und dazwischen besteht jetzt in der probabilistischen Testtheorie daher der Name ein probabilistischer Zusammenhang versus ein deterministischer wie in der Klasse steht.
  • Das heißt, das Testergebnis ist nichts anderes als ein Indikator für eine latente Variable.
  • Das ist wichtig.
  • Also das Testergebnis ist immer nur ein Indikator für das eigentlich zu messende latente Konstrukt.
  • Unterscheiden wir nochmal Manifest- und Latente-Variablen kurz.
  • Manifeste-Variablen beschreiben das unterschiedliche Antwortverhalten auf verschiedene Test-Items.
  • Das sind also die Item-Responses.
  • Und die latenten Variablen, hier Xi ausgesprochen, bezeichnen die nicht beobachtbaren Merkmalsausprägungen, also zum Beispiel Fähigkeiten, Dispositionen wie Persönlichkeit, Intelligenz, Motivation, Kommunikationsverhalten und so weiter.
  • die dem Manifestenverhalten zugrunde liegen sollen.
  • Dann unterscheiden wir weiterhin Fähigkeitsparameter, die nennt man auch Personenparameter, Dispositionsparameter oder Beta.
  • Beta können Sie sich merken für Ability.
  • Das ist eine ähnliche Sprüche.
  • beschreibt die Fähigkeit einer Person, also die Merkmalsausprägung des latenten Konstrukts oder Traits, ein bestimmtes Testitem zu lösen.
  • Und dann gibt es noch einen Schwierigkeitsparameter, den man auch als Itemparameter bezeichnen kann oder auch Anforderungsparameter.
  • Und den kann man hier Delta wie Difficulty sich merken.
  • Übrigens, wundern Sie sich nicht, da kommt auch noch eine Warnfolie nächste Sitzung.
  • Diese Parameter werden unterschiedlich bezeichnet von unterschiedlichen Herrschaften.
  • Deshalb führe ich hier schon einige Alternativen mit an.
  • Aber schauen Sie bitte immer, welcher Testautor welche griechische Buchstaben verwendet, damit sie nicht durcheinander kommen.
  • Der Schwierigkeitsparameter ist nichts anderes als die Anforderung, welche ein Item an die Fähigkeit der zu untersuchenden Person stellt.
  • Dann gibt es, weil es so schön war, haben wir noch ein paar mehr Parameter.
  • Ich sehe schon, Sie sind ganz begeistert, so viele Parameter in einer Stunde, das ist richtig sportlich.
  • Der Diskriminationsparameter hat nun was zu sagen darüber, über die Steilheit der IC-Funktion.
  • Der wird jetzt nicht in allen Modellen angenommen.
  • Und Sie sehen hier schon im Vorgriff, es gibt ein Guttman-Modell, es gibt Dichotome-Rasch-Modelle, es gibt noch weitere Modelle, auf die wir noch zu sprechen kommen werden.
  • Die Grundidee hinter Modellen ist, Sie haben sich jetzt mit den wichtigsten Grundeigenschaften der probabilistischen Testtheorie zum jetzigen Zeitpunkt schon vertraut machen können.
  • Je nachdem, welche Annahmen ich treffe, wie dieser Zusammenhang zwischen den Parametern gestaltet ist, gibt es unterschiedliche Modelle.
  • Und diese Modelle basieren, wie gesagt, auf unterschiedlichen Grundannahmen.
  • Das Wissen fügt sich erst zusammen bei der profilistischen Testtheorie, wenn wir den Schluss erreicht haben.
  • Sie müssen im Moment noch mit einem fragmentierten Wissen leben.
  • Wie übrigens auch mit der ganzen Vorlesung Testtheorien ist es häufig so, dass Sie bis zu ungefähr der Hälfte, bis zu zwei Dritteln im Vorlesungstonus damit rechnen müssen, dass sie noch nicht den Gesamtüberblick haben.
  • Das setzt sich erst nachher Baustein für Baustein zusammen.
  • Es ist einfach ein stark zusammenhängendes didaktisches Gebiet, was man aber nicht holistisch vermitteln kann, sondern runterbrechen muss auf einzelne Punkte, die sich nachher dann aber wunderbar zusammensetzen.
  • Das heißt, mit ein bisschen Frustrationstoleranz müssen sie leben.

Was heißt denn IC-Funktion?

  • IC-Funktion heißt itemcharakteristische Funktion und ist ein ganz wichtiger Punkt in der probabilistischen Testserie, auf den wir wahrscheinlich beim nächsten Mal zu sprechen kommen.
  • Zwischen diesen genannten Modellparametern gibt es jetzt Zusammenhänge und die machen die Modelleigenschaften aus.
  • Personen- und Itemparameter lassen sich gemeinsam auf einer eindimensionalen Skala abbilden, nennt man angelsächsisch auch Joint Scale, sodass immer entscheidbar ist, welcher der beiden Parameter größer ist.
  • Und von der Ausprägung beider Parameter soll nun wiederum probabilistisch abhängen, ob ein Item gelöst wird oder nicht.
  • Das heißt, jeder Parameterkonstellation ein bestimmter Wahrscheinlichkeits zugeordnet werden kann, mit dem ein Item gelöst wird.
  • Das hört sich jetzt sehr abstrakt an für Sie.

Ja, tut's wirklich.

  • Aber wenn wir uns diese itemcharakteristischen Funktionen nochmal anschauen, und Sie haben ja schon Vertrautheit damit geschlossen vor ungefähr zwei Sitzungen, das lassen wir jetzt nochmal Revue passieren.
  • Wir haben hier auf der x-Achse üblicherweise abgetragen eine latente Eigenschaft.
  • Sagen wir beispielsweise die Merkmalsausprägung in Intelligenz.
  • Hier ist der Ursprung, also hier sind Personen mit theoretischer Intelligenz von 0 und hier sagen wir mal mit 130.
  • Auf der y-Achse finden wir abgetragen, ganz analog zu dem, wie Sie es auch schon kennengelernt haben, die Wahrscheinlichkeit ein Item zu lösen.
  • Wahrscheinlichkeiten variieren im Wertespektrum zwischen 0 und 1.
  • Demzufolge steht hier unten natürlich die 0 und da oben die Lösungswahrscheinlichkeit 1.
  • So, und hier finden Sie jetzt grafisch eine IC-Funktion, die in der Mitte irgendwie eine stärkere Steigung hat als an den Rändern.
  • Eine klassische Form von IC-Funktion.
  • So.
  • Das hier, die IC-Funktion, ist die Funktion für ein einziges Item.
  • Hier unten steht jetzt noch der Satz, je höher die Fähigkeit, desto größer ist die Wahrscheinlichkeit, das Item zu lösen.

Können Sie das nachvollziehen?

  • Wenn ich so fähig bin, also wenn meine Intelligenz irgendwo hier liegt, habe ich die Lösungswahrscheinlichkeit, kann ich ja ohne Problem ablesen anhand dieser IC-Funktion, eine Lösungswahrscheinlichkeit von ungefähr 10 Prozent.
  • Wenn ich hingegen meine Intelligenzausprägung hier angesiedelt ist, kann ich hier oben gucken und dann habe ich eine ziemlich hohe Wahrscheinlichkeit, nämlich ungefähr 95-prozentige Wahrscheinlichkeit, dieses Intelligenztest-Item zu lösen.
  • Das heißt, es ist ohne Probleme möglich, aufgrund der monoton steigenden Funktion, wie der Mathematiker sagt, bei dieser IC-Funktion zu sagen, je höher die Fähigkeit, desto größer die Wahrscheinlichkeit, das Item zu lösen.

Ja?

Nickende Zustimmung?

  • Gut.
  • Das heißt, es gibt eigentlich nur drei Fälle, die wir uns anschauen können, was die die Relation von Personenparameter und Itemparameter angeht.
  • Wir können hergehen und sagen, gut, der erste Fall lautet, die Wahrscheinlichkeit, dass die Person das Item löst, ist gleich Punkt 50.
  • Das ist immer dann gegeben, wenn die Fähigkeit der Person genauso groß ist wie die Schwierigkeit der Aufgabe.
  • Das heißt, wenn Personenparameter, also im Intelligenzbereich gesprochen, das latente Konstrukt Intelligenz genauso groß ist wie die Schwierigkeit der Aufgabe, beträgt die Wahrscheinlichkeit, das Item zu lösen, genau 50 Prozent.
  • Wenn es hingegen so ist, dass die Wahrscheinlichkeit, dass der Item-Parameter geringer ist, sehen Sie hier Item-Parameter geringer als der Personen-Parameter, wenn Sie so wollen, umgangssprachlich formuliert, die Person ist schlauer, als das Item schwer ist, dann resultiert eine Lösungswahrscheinlichkeit für das Item, die größer als 50 Prozent ist.
  • Und hier haben wir den umgekehrten Fall.
  • Der Personenparameter ist geringer ausgeprägt als der Item-Parameter.
  • Umgangssprachlich formuliert, das Item ist schwerer, als die Person schlau ist.
  • Resultiert eine Lösungswahrscheinlichkeit von unter Punkt 50.
  • So, da ich den Eindruck habe, dass Sie jetzt schon ein bisschen angestrengt wirken, möchte ich Sie bitten, die ausgefüllten Fragebögen wieder nach vorne zu bringen und wünsche Ihnen eine schöne Woche.