This video: Dans cette vidéo : Neste vídeo : 

Testtheorien, Testkonstruktion und Psychologische Diagnostik (6)

Key points Points Clés Dicas 

00:00 Testtheorien, Testkonstruktion und Psychologische Diagnostik (6)

00:48 Gibt es von Ihrer Seite aus im Moment noch organisatorische Dinge, die wir klären sollten?

01:58 Was sind also wichtige Dinge, die wir nennen müssen, um die probabilistische Testtheorie zu verstehen?

02:17 Was steckt dahinter?

04:01 Delta, das stand für das Difficulty, erinnern Sie sich?

08:52 Wie hängen sie eigentlich zusammen?

10:09 Die Fragestellung, auf der dieser Punkt beruht, ist folgende.

11:14 Wie könnte man prinzipiell von mehreren Manifestvariablen auf eine dahinterliegende latente Variable schließen?

13:07 Was ist die Idee dahinter?

13:25 Wenn es jetzt so ist, dass die Ursache deshalb korrelieren, weil die latente Variable das steuert, kausal auslöst, dann müsste, wenn ich die latente Variable konstant halte an einem lokalen Ort - deswegen heißt es lokal - aber wenn ich die latente Variable herauspartialisiere aus dieser Korrelation der manifesten Extraversionsitems, was müsste dann passieren?

13:58 Wenn ich die Ursache sozusagen wegnehme, weshalb die Extraversionsitems korrelieren, was passiert dann?

14:46 Hier machen wir mal weiter.

15:52 Was meint es denn wirklich?

16:52 Eine andere Meinung?

19:10 Was glauben Sie, welche Items kann man wohl zusammenfassen in einem Modell?

19:25 1, 2 und 3, also 1 und 2 und 3, meinen Sie wahrscheinlich dieses hier, ne?

21:38 Dabei können die Manifestvariablen entweder dichotom oder abgestuft sein.

22:04 Welche Modellparameter werden zum Beispiel in einem Modell der probabilistischen Testtheorie angenommen?

22:30 Was ist ein variierender Item-Diskriminationsparameter?

23:24 Oder gestatten Sie das nicht und sollen sie alle gleich sein, nur von der Verlaufsgestalt her nach links und rechts verschoben?

28:57 Was wird dazu angenommen?

30:33 Wie sollte sie auch anders sein?

31:07 Wie nennt man die?

31:26 Also, was heißt das?

32:57 Und jetzt als Vorgriff: Welches von den drei Items ist das schwerste?

33:05 Welches ist das schwerste?

33:21 Möchte der Statistiker und möchte der Statistiker unter uns das präzisieren?

33:50 Ja, weil es sieht, dass die Kreuzung mit der Y-Achse, die Y-Achse ist die Ordinate, oder?

34:06 Der Kreuzpunkt ist sehr weit unten, sprich, wenn man jetzt sagt, die und die Fragen werden gelöst, also wäre das dann ein Item, das nur von 15 Prozent gelöst wird?

35:10 Welches Item ist das schwerste?

40:33 Die Frage ist natürlich, gibt es auch so etwas wie maßgeschneidertes Testen?

41:28 Verstehen Sie das?

42:09 Verstanden?

45:28 Wenn ich die Itemschwierigkeit bestimmen möchte, wie mache ich das?

47:30 Klingt ziemlich unglaubwürdig, ne?

48:58 Was bedeutet das konkret?

50:42 Aber ist der Grund dafür, wenn jetzt jemand nur 30 Prozent des Tests beantwortet, dass dann auf die 100 Prozent einfach geschlossen wird, mit einer bestimmten Wahrscheinlichkeit?

52:27 Aber wenn man es jetzt umdreht und jemand sagt, er hat 20 Grad und hat keine Lust mehr und kreuzt nicht mehr an der Kamera und weiß nicht mehr, ist der trotzdem intelligent oder hat der einfach keine Lust?

53:07 Kann man das erreichen?

56:02 Und wie konstruiere ich dann einen solchen Test?

58:28 So rum wird jetzt ein Schuh draus.

59:09 Das heißt, das adaptive Testen kann untergliedert werden in zwei Unterpunkte.

1:00:01 Was wäre dann vermutlich am besten? Welche Art von Item in Bezug auf die Schwierigkeit würden Sie dann als erstes vorgeben?

1:00:19 Was macht der Computer, wenn er adaptiv denkt?

1:00:58 Okay?

1:01:15 Eine Sache stört mich gerade, und zwar wenn Fähigkeiten und Schwierigkeiten identisch sind, ist die Wahrscheinlichkeit, dass das Item. Gehe ich davon aus, dass wenn ich einen Bereich habe, wo die Schwierigkeit ähnlich ist und 50 Prozent davon gelöst wird, dass dann die Fähigkeit dort anzusiedeln ist?

1:02:50 Wollen die mich hier auf den Arm nehmen?

1:08:14 Erinnern Sie sich vielleicht an den Namen des Tests?

1:09:07 Also ist dieser Ausnahmefall auch realisiert?

1:09:33 Also, wie sieht das mit dem Anwendungsgebiet der probabilistischen Testtheorie aus?

1:11:18 Schmale Merkmalsbereiche habe ich üblicherweise auch in gut erforschten Gebieten.

1:12:27 Zumindest besteht da die Gefahr.

1:14:16 Also geht man dann davon aus, dass der Wert hundertprozentig korrekt ist?

1:17:13 Okay?

1:17:29 Ich muss es ja auch einer Stichprobe vorlegen, oder?

Testtheorien, Testkonstruktion und Psychologische Diagnostik (6)

Testtheorien, Testkonstruktion und Psychologische Diagnostik (6)

  • Gleichzeitig gehen wir mit der Begrüßung der Bitte einher.
  • Nehmen Sie Ihre Plätze ein, wir haben genug Freie.
  • Wenn Sie die Gespräche einstellen, freue ich mich auch.
  • Dankeschön.
  • Sie wissen, dass ich gerne organisatorische Dinge regle, sofern sie die Allgemeinheit betreffen, vorab oder am Anfang der Vorlesung.
  • Ich möchte den wiederholten Aufruf starten, sich in diese Listen einzutragen für die Klausuranmeldung.
  • Ich weiß, die meisten von Ihnen haben das schon getan, aber nur um sicherzugehen, dass eventuelle Personen, die das noch nicht getan haben, die Chance dazu haben, lasse ich das hier nochmal kursieren.
  • Ich bitte Sie, lassen Sie es rumgehen, tragen Sie gegebenenfalls fehlende Informationen nach.
  • Ich gebe es direkt Ihnen.

Gibt es von Ihrer Seite aus im Moment noch organisatorische Dinge, die wir klären sollten?

  • Okay, das scheint nicht der Fall zu sein, dann können wir uns den Luxus gönnen und direkt zum Thema zurückkommen.
  • Und Sie erinnern sich vom letzten Mal, das Thema war probabilistische Testtheorie und es hat einige Herausforderungen, die es birgt. Das Thema, aber ich denke, gemeinsam werden wir das meistern.
  • Gehen wir mal weiter im Text.
  • Wir sind stehen geblieben in der letzten Woche.
  • Bei dieser Folie, die Ihnen demonstriert, wie Personenparameter, also Fähigkeit und Itemparameter, also Schwierigkeit des Items, zueinander in Beziehung stehen können.
  • Und diese drei möglichen Beziehungsformen, nämlich entweder sie sind gleich, das war der erste Fall, oder das eine ist jeweils größer als das andere, führen zu bestimmten Konsequenzen.
  • Und diese Denkweise werden wir jetzt in der heutigen Vorlesungssitzung fortsetzen.
  • Apropos, in eigener Sache noch eine kleine Anmerkung.
  • Die Personen unter Ihnen, die in meinem Seminar zu Persönlichkeits- und Intelligenztests teilnehmen, das regulär genau nach dieser Vorlesung stattfindet, möchte ich darüber informieren, dass aufgrund des Ausfalls der Referentengruppe die Sitzung heute ausfällt.

Was sind also wichtige Dinge, die wir nennen müssen, um die probabilistische Testtheorie zu verstehen?

  • Wir brauchen natürlich den Begriff der Item-Charakteristik oder auch IC-Funktion oder auch ICC-Funktion, also mit zwei Cs.
  • Die ist zunächst mal wichtig zum Grundverständnis.

Was steckt dahinter?

  • Diese Item-Charakteristiken oder IC-Funktionen beschreiben die Beziehung zwischen einem latenten Merkmal, also in der Regel dem Personenparameter, und dem Reaktionsverhalten auf ein Item in Form einer Wahrscheinlichkeitsaussage.
  • Das heißt, diese itemcharakteristischen Kurven sind nichts anderes als Wahrscheinlichkeitsaussagen, wie bei gegebener Fähigkeit oder bei gegebenen Personenparameter die Lösungswahrscheinlichkeit für ein bestimmtes Item aussieht.
  • Mit dieser itemcharakteristischen Funktion und wie die aussehen kann, gehen verschiedene Modelle einher, in die man die probabilistische Testtheorie untergliedern kann.
  • Da kommen wir gleich noch dazu.
  • Die verschiedenen Modelle des IAT, die schauen wir uns gleich an, unterscheiden sich darin, welche IC-Funktion angenommen wird.
  • Gewisse Modelle setzen bestimmte Verlaufsgestalten von diesen IC-Funktionen voraus.
  • Und erlauben nur diese.
  • Grundsätzlich lassen sich folgende Typen von IC-Funktionen und damit einhergehende Modelle innerhalb des Spektrums der probabilistischen Testtheorie unterscheiden.
  • Wir haben zunächst einmal deterministische Item-Charakteristiken.
  • Deterministisch, den Begriff kennen Sie noch aus der klassischen Testtheorie.
  • Diese deterministischen Item-Charakteristiken gehen davon aus, dass das Antwortverhalten der Versuchspersonen durch die Item- und Personenparameter vollständig bestimmt ist.
  • Also, wenn Sie so wollen, vollständig bestimmt heißt determiniert und deshalb heißen die Modelle auch deterministisch, das kommt daher.
  • Das heißt, Lösungswahrscheinlichkeiten für die einzelnen Items sind je nach Beta, das war Ability, also Fähigkeit und Delta, und Delta sind immer entweder 0 oder 1.

Delta, das stand für das Difficulty, erinnern Sie sich?

  • Also, das heißt, die Lösungswahrscheinlichkeiten, die resultieren, sind für jeden Punkt im Fähigkeitsspektrum entweder genau 0 oder genau 1.
  • Wie sich das grafisch dann ausdrückt, schauen wir uns gleich an.
  • Eine deterministische Item-Charakteristik wäre natürlich diese hier.
  • Wenn entweder immer 0 oder immer 1 die Lösungswahrscheinlichkeit ist, dann muss die Item-Charakteristik genau so aussehen.
  • Das ist ein Beispiel dafür, wie sich die Verlaufsgestalten der EC-Funktion unterscheiden.
  • Also, Sie sehen, dass hier die Logik hinter diesem deterministischen Item, das ich hier mit dem Laserpointer nachzeichne, ist, dass die Person, die so fähig ist wie hier abgetragen auf der X-Achse, das Item nicht löst.
  • Die Person, die so fähig ist, immer noch nicht.
  • Die Person, die so fähig ist, immer noch nicht, sondern erst Personen ab genau diesem Cut-Off-Wert.
  • Und alle fähigeren Personen sind in der Lage, das Item zu lösen, und das mit einer Wahrscheinlichkeit von 100 Prozent, also mit einer Wahrscheinlichkeit von 1.
  • Daher kommt diese Verlaufsgestalt zustande.
  • Und diese Abbildung hier hat den Vorteil, dass man hier nochmal sieht, dass die Item-Charakteristik nicht eine rein senkrechte Linie ist, sondern im rechten Winkel dazu gehen jeweils auch noch Merkmalsausprägungen, also Wahrscheinlichkeitsaussagen, ab.
  • Wohingegen, und das ist ein schöner Kontrast jetzt hier auch in der Abbildung, Sie wissen, auf der y-Achse ist immer die Lösungswahrscheinlichkeit, die ja zwischen 0 und 1 variieren kann, abgetragen.
  • Diese geschwungene, leicht s-förmige Kurve, monoton steigend, wird dann wohl keine deterministische sein, sondern eben eine probabilistische Itemcharakteristik, und die schauen wir uns im Folgenden an.
  • Wenn eine stochastische Beziehung zwischen Beta und Delta und der Lösungswahrscheinlichkeit angenommen wird, das heißt, Lösungswahrscheinlichkeiten in allen Abstufungen zwischen 0 und 1 auftreten können.
  • Das sieht man hier.
  • Wenn ich relativ unfähig bin in einem Merkmal oder eine relativ schwache Merkmalsausprägung, will sagen Personenparameter, habe ich hier bei diesem einen Item eine Lösungswahrscheinlichkeit von Punkt 1.
  • Wenn ich sehr fähig bin, habe ich eine Lösungswahrscheinlichkeit von ungefähr, Sie können das hier ablesen, Punkt 9.
  • Bei diesem Item können Lösungswahrscheinlichkeiten in fast stufenloser Folge vorkommen.
  • Solche Funktionen sind in der Regel monoton steigend.
  • Sie sehen das hier, die steigt immer, die fällt niemals, die Funktion.
  • Das heißt, je höher Beta, also je höher die Ausprägung der Fähigkeit ist, desto höher ist auch die Wahrscheinlichkeit.
  • Monoton steigend heißt nicht, dass die steigt ja hier stärker als sie es da tut, oder als sie es hier tut, das sehen Sie, das ist egal.
  • Hauptsache, monoton steigend bedeutet, dass sie allein aufgrund dessen, dass sie nie wieder fällt, sondern immer steigt, auch wenn sie an manchen Stellen nur noch sehr schwach steigt.
  • Das heißt, die Lösungswahrscheinlichkeit ist umso höher, je fähiger ich bin, auch wenn sich die Werte numerisch nicht so dramatisch unterscheiden.
  • Gut, schauen wir uns verschiedene Arten von Item-Charakteristiken einmal an.
  • Ich habe ein paar Klassiker für Sie auf der Folie festgehalten.
  • Sie sehen hier zunächst einmal eine monotone Charakteristik.
  • Man könnte dazu sagen, hier, das ist auch eine monoton steigende Item-Charakteristik.
  • Eine nicht monotone Charakteristik ist es deshalb, weil sie mal steigt und mal fällt.
  • Kommt nicht so häufig vor.
  • Es gibt natürlich eine lineare Charakteristik.
  • Das Item steigt eine gewisse Weile linear und dann gar nicht mehr, beispielsweise.
  • Oder wir haben eine lineare Charakteristik mit Rate- und Fehlerwahrscheinlichkeitskorrektur.
  • So eine Möglichkeit.
  • Oder die eben schon besprochene Gutman-Charakteristik, die ja so verläuft, so zack, Sprung von 0 auf 1 ab einem gewissen Wert im Personenparameter und danach lösen alle fähigeren Personen das Item mit einer Wahrscheinlichkeit von 1.
  • Das sind Charakteristiken, mit denen wir es zu tun haben werden.
  • Die Charakteristik, mit der wir uns am meisten auseinandersetzen werden, ist die monoton steigende Charakteristik und die Gattnern-Charakteristik.
  • Die anderen sind eher zur Verdeutlichung der noch vorhandenen Möglichkeiten aufgeführt.
  • Also, nehmen wir uns noch einmal ein paar Grundannahmen der probabilistischen Testtheorie vor.
  • Die besagen nämlich, die jeweils gefragte Variable, und da unterscheidet sich die probabilistische Testtheorie von der klassischen, dass man nämlich differenzierter schaut.
  • Nämlich differenzierter dahingehend, was eigentlich latente Variablen sind, die wir messen wollen.
  • Also in der Regel Variablen, die innerhalb der Person liegen.
  • Und manifeste Variablen, also quasi das Ankreuzverhalten oder das Reaktionsverhalten oder auch das Responsverhalten, daher der Name.

Wie hängen sie eigentlich zusammen?

  • Und wir schauen uns das jetzt nochmals differenziert an.
  • Also die jeweils gefragte Variable, auf der jedem Testobjekt ein Wert zugeordnet ist, ist die latente Variable, beispielsweise Extraversion, Intelligenz, Moderation und so weiter.
  • Diese ist nicht direkt zugänglich. Das ist ja das Problem. Wenn sie direkt zugänglich wäre, bräuchten wir eine Testtheorie vermutlich nicht, und für die aber Indikatoren existieren.
  • Also, ich habe ein Messobjekt. Dieses Messobjekt beherbergt eine latente Variable. Und diese latente Variable, erinnern Sie sich an den Spruch mit dem Auge Gottes, die hätten wir ja gerne diagnostiziert, können wir nicht direkt. Auch bei der probabilistischen Testtheorie können wir es nicht direkt. Wir können aber sehr wohl Indikatoren versuchen zu finden.
  • Indikatoren, Sie wissen ja, etwas indizieren heißt etwas anzeigen. Und diese Indikatoren sollen uns also anzeigen, wie es um die Ausprägung der latenten Variable bestellt ist.
  • Das heißt, hier geht es natürlich darum, dann gute Indikatoren zu finden.
  • Und Indikatoren sind in der Regel gute Manifest-Variablen.
  • Gut.
  • Jetzt kommen wir zu ein paar Punkten, die sehr wichtig sind.
  • Diese sind im Rahmen der probabilistischen Testtheorie zentral.
  • Und der erste Punkt, über den wir sprechen wollen, ist die lokale stochastische Unabhängigkeit.

Die Fragestellung, auf der dieser Punkt beruht, ist folgende.

  • Wie könnte man prinzipiell von mehreren Manifestvariablen, das sind ja die Variablen, die wir haben, aufgrund des Responsverhaltens der Personen, auf eine dahinterliegende, nämlich die Ausprägung der Manifestvariablen verursachende, latente Variable schließen.
  • Sie erinnern sich an das alte Problem der klassischen Testtheorie genauso.
  • Wir haben nur die Item-Responses, oder wir haben nur das Testverhalten und müssen auf Grundlage dieses Testverhaltens zurückschließend auf die Merkmalsausprägung.
  • In der klassischen Testtheorie war das so, man nahm das an, dass das geht, konnte es aber nicht überprüfen aufgrund der Axiomatik.
  • Wir haben kritisiert im Rahmen der klassischen Testtheorie, man würde es gerne nicht nur bei dem Glauben belassen, sondern auch gerne überprüfen können.
  • Und vielleicht haben Sie jetzt schon intuitiv das Gefühl gehabt, es könnte sein, dass die probabilistische Testtheorie genau das bietet.
  • Und das tut sie nämlich.
  • Und dazu muss man sich dieses Konzept der lokalen stochastischen Unabhängigkeit mal genauer anschauen.
  • Aber das ist im Prinzip die Grundfrage.

Wie könnte man prinzipiell von mehreren Manifestvariablen auf eine dahinterliegende latente Variable schließen?

  • Das ist genau der Punkt, den wir jetzt meistern möchten.
  • Die probabilistische Testtheorie oder IRT genannt, gestattet dies, wenn folgende Punkte gegeben sind.
  • Das ist dann nämlich der Fall und möglich, diesen Schluss zu ziehen von Manifesta, von Manifesta-Variablen auf die latente Merkmalsausprägung, wenn die Items homogen bezüglich der latenten Variable sind, das heißt, wenn die Manifestenvariablen miteinander korrelieren.
  • Also die Items, die extra Version messen sollen, extra Version wäre ein Beispiel, die latente Variable, sollten die Items, die extra Version messen, natürlich miteinander korrelieren, sonst wäre es ein bisschen eigenartig.
  • Das ist das Erste.
  • Die manifesten Variablen sollten inhaltlich Indikatoren der latenten Variable sein.
  • Also sollten sie jetzt, was den Item-Wortlaut im Sprachlichen angeht, auch wirklich auf extra Version getrimmt sein.
  • Das sollte überprüfbar sein, hinsichtlich Expertenvalidierung, beispielsweise.
  • Und die latente Variable sollte als Ursachenfaktor und damit Indikator für die Korrelation der Manifesten Variablen untereinander verantwortlich sein.
  • So, jetzt wissen Sie, Korrelation und Kausalität sind so ein Thema.
  • In der Regel ist es nicht gegeben.
  • Die Denke, die hier jetzt aber vorgenommen wird, ist interessant, und das schauen wir uns im Detail jetzt noch an.
  • Also zur Überprüfung, ob die Voraussetzungen gegeben sind für lokale stochastische Unabhängigkeit, die ein wesentliches Merkmal der probabilistischen Testtheorie ist, müssen wir uns noch ein paar Gedanken machen.
  • Wir können bei der Überprüfung nämlich so vorgehen.
  • Itemhomogenität im Sinne der probabilistischen Testtheorie läge dann vor, wenn bei Herausforderung des Einflusses der latenten Variable aus der Korrelation zwischen den manifesten Variablen keine Korrelation mehr zwischen diesen bestünde.

Was ist die Idee dahinter?

  • Also, nehmen wir das Extraversionsbeispiel.
  • Die Items, manifeste Variablen, ich gehe gerne auf Partys, ich bin gerne in Gesellschaft anderer Menschen, ich genieße es, Personen um mich zu haben und so weiter und so fort, korrelieren, wenn ich eine Messung vornehme.

Wenn es jetzt so ist, dass die Ursache deshalb korrelieren, weil die latente Variable das steuert, kausal auslöst, dann müsste, wenn ich die latente Variable konstant halte an einem lokalen Ort - deswegen heißt es lokal - aber wenn ich die latente Variable herauspartialisiere aus dieser Korrelation der manifesten Extraversionsitems, was müsste dann passieren?

Wenn ich die Ursache sozusagen wegnehme, weshalb die Extraversionsitems korrelieren, was passiert dann?

  • Dann dürften die nicht mehr korrelieren, weil sie ja nur aus dem Grund korrelieren, dass nämlich die latente Variable diese Korrelation steuert, genau.
  • Und das kann man überprüfen.
  • Denn die Logik nochmal vertiefend dazu ist, dass wenn nur, also einzig und allein die latente Merkmalsausprägung, also beispielsweise latente Merkmalsausprägung Extraversion, die Korrelation zweier Items auf einer Stufe verschwinden lässt, auf einer Stufe heißt lokal, deswegen heißt es lokale stochastische Unabhängigkeit, dann muss dies unabhängig von der Stichprobe sein.
  • Das ist auch noch ein toller Nebeneffekt.
  • Oder andersherum, die Ursache der Korrelation der manifesten Variablen ist dann einzig und allein die latente Variable.

Hier machen wir mal weiter.

  • Das heißt, man kann es auch grafisch darstellen.
  • Wir haben hier, sagen wir beispielsweise vier Extraversion-Items, und wenn diese Items miteinander korrelieren, dann verbindet man sie häufig so mit diesen Bögen.
  • Wir beginnen also hier, die Items korrelieren substanziell miteinander, um Extraversionen zu messen.
  • Sie sehen jetzt auch, die Modellannahme ist, dass die latente Variable, auch im Beispiel Extraversion, diese Item-Ausprägungen steuert, die die Personen ankreuzen.
  • Wenn ich jetzt aber hier durch Konstanthaltung des Extraversionwertes auf einer Stufe, sagen wir zum Beispiel auf der Stufe sehr hoch extravertiert, ist aber eigentlich egal, welche Stufe, es muss nur eine Stufe sein, also ein lokaler Ort des Merkmalspektrums Extraversion.
  • Dann mache ich hier eine Konstanthaltung.
  • Ich nehme hier die Varianz raus, wenn Sie so wollen.
  • Und dann passiert nämlich dieser Schritt hier, Sie folgen dem Pfeil, kein Zusammenhang zwischen den Items bei Konstanthaltung der latenten Variable auf einen Wert mehr.
  • Das heißt, genau das ist der Punkt, den Sie gerade auch schön zusammengefasst haben.
  • Aber für mich ist das Wort 'lokal' trotzdem noch nicht ganz klar.

Was meint es denn wirklich?

  • 'Lokal' bedeutet an einem spezifischen Ort des Merkmalsspektrums der latenten Variable.
  • Zum Beispiel hochextravertierte, durchschnittlich extravertierte oder introvertierte Personen.
  • Es kommt gleich noch eine Grafik, die es vielleicht noch ein bisschen erläutern kann.
  • Das ist nämlich diese hier.
  • Diese lokale stochastische Unabhängigkeit schließt die Korrelation in der Population nicht aus.
  • Und das schauen wir uns mal an.
  • Wir haben jetzt zwei Variablen, die hier X1 und X2 genannt werden, es ist eigentlich egal, wie sie heißen, aber sie werden hier abgebildet.
  • Sie sehen hier, wie die beiden Variablen korrelieren, wenn ich mir das lokal anschaue.
  • Also angenommen, Sie haben noch nichts von der probabilistischen Testtheorie gehört, sehen Sie diese Abbildung.

Wie korrelieren die beiden Variablen?

  • Vermutlich hoch.

Finden Sie?

Eine andere Meinung?

  • Also sie korrelieren nicht hoch, weil wenn sie hoch korrelieren, würden sie eine Gerade bilden oder zumindest alle auf einem Punkt liegen.
  • Genau.
  • Also das hier, wenn so kreisförmige Streudiagramme vorkommen und das ist ja annähernd kreisförmig, dann ist eine Nullkorrelation gegeben.
  • Also lokal korrelieren diese beiden Variablen mit diesen Messwerten ungefähr zu Null.
  • Jetzt nehmen wir das her.
  • Sehen das hier.
  • Ist von einer anderen Teilstichprobe.
  • Das hat auch so ein kreisförmiges Wertespektrum, die korrelieren wahrscheinlich auch zu Null an diesem Ort.
  • Die korrelieren auch ungefähr zu Null, die ungefähr auch, und die ungefähr auch.
  • Aber wenn ich jetzt alle betrachte und die Lokalität da rausnehme, dann muss ich die Korrelationswolke, wenn Sie so wollen, hier rumziehen, und siehe da, dann haben wir eine ansehnliche Korrelation.
  • Das ist ein weiterer Punkt, der die Lokalität klar machen soll.
  • An einem bestimmten Ort des Merkmalspektrums, hier, wenn ich mir nur die Quadrate anschaue, Nullkorrelation.
  • Schau ich hier, nur die Kreise, Nullkorrelation.
  • Hier nur die Dreiecke, Nullkorrelation.
  • Hier nur die Kreuze, Nullkorrelation.
  • Schau ich mir aber das ganze Spektrum an, dann können sie sehr wohl korreliert sein.
  • Jetzt schauen wir uns an, welche Klassifikationskriterien es gibt, um Modelle der probabilistischen Testtheorie zu kategorisieren.
  • Also, ich kann sie nach Art klassifizieren, zunächst einmal nach der itemcharakteristischen Funktion oder auch IC-Funktion genannt.
  • Diese können zum Beispiel deterministisch sein, das ist eine Wiederholung, oder probabilistisch.
  • Hier haben wir in dem Beispiel kein deterministisches.
  • Oder probabilistisches.
  • Okay, also sehen Sie hier, die itemcharakteristischen Funktionen, die Sie hier abgebildet sehen, sind alle monoton steigend.
  • Die unterscheiden sich aber noch ein bisschen, und das ist jetzt bewusst so gewählt, weil nämlich die Itemcharakteristik, die Gestalt der itemcharakteristischen Funktion, sagt jetzt aus, für welche Modelle diese itemcharakteristische Funktion zulässig ist.

Was glauben Sie, welche Items kann man wohl zusammenfassen in einem Modell?

  • Ohne es jetzt schon mal gehört zu haben, nur so intuitiv.
  • Bitte, nochmal für mich.

1, 2 und 3, also 1 und 2 und 3, meinen Sie wahrscheinlich dieses hier, ne?

  • Ja, einverstanden.
  • Und der Grund dafür ist, dass die itemcharakteristische Funktion identisch ist, die Items eigentlich nur nach links oder rechts verschoben sind.
  • Die haben eine ähnliche, wenn Sie so wollen, Verlaufsgestalt.
  • Wohingegen das Item hier hat zwar so eine ähnliche Verlaufsgestalt, läuft aber steiler, hat also eine andere itemcharakteristische Funktion.
  • Und das Item 5, das ist hier so ein bisschen, was so ein bisschen am Rumeiern ist in seiner Verlaufsgestalt, das fällt auch aus diesen aus diesem Pulp ein bisschen raus.
  • Und diese itemcharakteristischen Funktionen gestatten uns jetzt, die Modelle etwas besser zu verstehen.
  • Also, wir können die Modelle nach den IC-Funktionen klassifizieren.
  • Wir können außerdem die Modelle der probabilistischen Testtheorie nach der Variablenart der manifesten und latenten Variablen klassifizieren.
  • Denn die latenten Variablen können natürlich kontinuierlich sein oder nur qualitativ unterschiedliche Ausprägungen aufweisen.
  • Und wenn sie kontinuierlich sind, also wenn es unterschiedliche quantitative Ausprägungen gibt, zum Beispiel bei Extraversion oder Intelligenz - das sind Merkmale, von denen ich glaube, dass sie diese Vorgabe erfüllen - dann spricht man von Latent-Trade-Modellen.
  • Also, die latente Variable ist ein Trade.
  • Den Begriff kennen Sie aus dem Grundstudium.
  • Und diese sind in der psychologischen Diagnostik am häufigsten, also die latente Variable, die man messen möchte, unterstellt man in der Regel, dass sie kontinuierlich skaliert ist.
  • Oder aber, was es auch gibt, die latente Variable kann nur qualitativ unterschiedliche Ausprägungen haben.
  • Also z.B.
  • liegt vor vs.
  • liegt nicht vor oder z.B.
  • Persönlichkeitstypen.
  • Da gibt es Persönlichkeitstypen 1, 2, 3.
  • Sie erinnern sich aus dem Grundstudium z.B.
  • Resilienz, Over-Controller und Under-Controller.
  • Dann ist das natürlich ein nominal skaliertes Merkmal bei der latenten Variable.
  • Und dann spreche ich demzufolge, weil die latente Variable kein Trait ist, sondern eine Klasse von, naja, siehe da, Latent-Class-Modellen.

Dabei können die Manifestvariablen entweder dichotom oder abgestuft sein.

  • Dieses dichotome Raschmodell werden wir gleich noch behandeln.
  • Bei abgestuften Variablen spricht man wieder von Ratingskalen.
  • Zum Beispiel der eindimensionale Spezialfall des Polytom-Raschmodells, dazu kommen wir gleich, was das bedeutet.
  • Das ist ein Vorausblick.
  • Dann kann ich weiterhin nach der Anzahl der Modellparameter kategorisieren.

Welche Modellparameter werden zum Beispiel in einem Modell der probabilistischen Testtheorie angenommen?

  • Nur ein unterschiedlicher Item- und Personenparameter, z.B.
  • Bei den Untermodellen Gutman-Modell oder Dichotomus-Rasch-Modell, oder kommt dann noch zu einem variierenden Item-Diskriminationsparameter, z.B.
  • Im Birnbaum-Modell, oder ob noch weitere Parameter vorgenommen werden.

Was heißt das?

  • Ich gehe nochmal zurück, um Ihnen das zu demonstrieren.

Was ist ein variierender Item-Diskriminationsparameter?

  • Das klingt recht kryptisch, ist aber einfach verstanden, wenn wir hier auf diese Folie zurückgehen.
  • Wir hatten gesagt, die Verlaufsgestalten dieser drei IC-Funktionen 1, 2 und 3 sind quasi nur entlang der X-Achse verschoben.
  • Ein variierender Item-Diskriminationsparameter im Vergleich zu diesen dreien sind die Nummern 4 und 5.
  • Das ist ja nichts anderes als ein anderer Item-Diskriminationsparameter, will sagen eine andere Verlaufsgestalt der IC-Funktion als zum Beispiel bei den 1, 2 und 3ern oder auch bei dem, der steiler steigt.
  • Der hat auch einen anderen Item-Diskriminationsparameter, will sagen, eine andere Verlaufsgestalt der IC-Funktion.
  • Es kommt jetzt darauf an, bei den Modellen zu prüfen, ob die Verlaufsgestalten der IC-Funktionen variieren.
  • Dann spricht man von einem variierenden Item-Diskriminationsparameter.

Oder gestatten Sie das nicht und sollen sie alle gleich sein, nur von der Verlaufsgestalt her nach links und rechts verschoben?

  • Das ist alles.
  • Manchmal sind die Fachbegriffe hier sehr schwierig, aber was dahinter steht, ist im Prinzip gut verständlich.
  • Allgemein gilt, es wird die Annahme eines latenten Continuums vorgenommen.
  • Das wäre, wie Sie mittlerweile wissen, ein Latent-Trait-Modell.
  • Und jede Person weist auf diesem Kontinuum eine bestimmte Ausprägung auf.
  • Das ist eine Wiederholung des Guttman-Modells.
  • Sie sehen das hier.
  • Sie sehen hier die Guttman-Skala mit drei Items.
  • Für jedes Item steigt an einer bestimmten Stelle des Merkmalskontinuums, also einmal bei Item 1 steigt es hier, bei Item 2 da und bei Item 3 hier, die Lösungswahrscheinlichkeit von 0 auf 1.
  • Das heißt, die Idee dahinter ist bei Guttman, das findet man übrigens in der Praxis ganz selten, dass es so etwas gibt, wirklich.
  • In der Einstellungsforschung gibt es das gelegentlich.
  • Die Idee hinter der Gartmann-Skala ist, es könnte einen kritischen Wert auf der Personenparameter-Achse geben, ab dem ein Item gelöst wird.
  • Also, wenn es zum Beispiel möglich wäre, Fremdenfeindlichkeit in ein Spektrum zu fassen, dann könnte man sagen, hier gar nicht fremdenfeindlich und ab da sehr fremdenfeindlich.
  • Und wenn das so ein Spektrum wäre, jetzt zum Beispiel bei der Extremismusforschung in der Politik, dann kann es Punkte geben, wo manche Leute sagen würden, soweit würde ich gehen im Umgang mit Ausländern.
  • Also, manche denken sich vielleicht nur, sie halten von den Menschen nichts.
  • Andere sagen, okay, wir sind gewalttätig und gehen in irgendeiner Form dagegen vor.
  • Und hier die rechtsradikalen Schläger, die machen das quasi dann zu ihrem primären Ansinnen.
  • Das wäre eine Möglichkeit.
  • Also in manchen Einstellungsbereichen kann man diese Gutman-Skala postulieren.
  • Aber in vielen Bereichen eben nicht, weil das Problem ist, was ja das Modell nicht zulässt, ist, wenn Sie zum Beispiel bis zu diesem Punkt das Item nicht lösen, das kann ja zum Beispiel heißen, Sie sagen dann immer Nein.
  • Und ab diesem Punkt der Merkmalsausprägung sagen Sie immer Ja.
  • Das heißt, Sie dürfen bei keinem einzigen Item, was danach kommt, mehr Nein sagen.
  • Das findet man sehr, sehr selten.
  • Also ich finde es schwierig, gerade den Grad der Einstellung und Ergänzung zu benennen.
  • Ich finde, es geht vielleicht bei Führung um Bestehen oder Nichtbestehen.
  • Einfach von Bestehen bis zur Führung, ab Nichtbestehen.
  • Aber gerade beim Einstellungsgrad kann ich mir nie vorstellen, dass es einen klaren Schnitt gibt, ab dem jemand rechtskräftig ist.
  • Und das ist gerade auch schwierig.
  • Ich gebe Ihnen dahingehend recht, dass es wirklich schwer vorstellbar ist.
  • Aber es ist wohl bei manchen Einstellungsforschungsprojekten, hat es geklappt.
  • Items, die nach diesem Modell Konformität hatten, zu finden.
  • Es ist in der Regel aber schwierig.
  • Da bin ich absolut d'accord mit Ihnen.
  • Allen Latent-Trade-Modellen ist gemeinsam, Sie erinnern sich, Latent-Trade, also kontinuierliche latente Variable.
  • Latent ist ein Kontinuum.
  • Es gibt eine Item-Charakteristik und lokale stochastische Unabhängigkeit sollte vorliegen.
  • Unterschiede bei diesen Latent-Trade-Modellen sind jedoch die Form der Item-Charakteristik. Eben haben wir ein Beispiel gesehen. Das waren die variierenden Item-Diskriminationsparameter potenziell und die Folgerungen daraus, die ich ziehen kann.
  • Schauen wir uns an, es gibt jetzt - das möchte ich dazu sagen - viele Modelle in der probabilistischen Testtheorie.
  • Aufgrund dessen, dass wir hier einen beschränkten Zeithorizont haben mit der Vorlesung und aufgrund dessen, als Wiederholung für Sie, dass die meisten Tests nach wie vor nach der klassischen Testtheorie konstruiert wurden, möchte ich jetzt herauspicken, dass ein sehr repräsentatives, klassisches Modell der probabilistischen Testtheorie, nämlich das Dichotome-Rasch-Modell, die Auseinandersetzung mit den Modellen auf diesem Überblicksniveau im Rahmen dieser Vorlesung belassen.
  • Wenn Sie vertiefend einsteigen wollen, gibt es bei anderen Dozenten im Rahmen der Statistikausbildung hier im Hause die Möglichkeit dazu.
  • Es ist aus zeitlichen Gründen aber einfach nicht möglich, jetzt hier vertieft in diese Thematik einzusteigen.
  • Ich habe Prioritäten dahingehend gesetzt, dass Sie später, wenn Sie Ihre Diplomarbeit schreiben oder ein eigenes Forschungsprojekt angehen, wo Sie in der Regel die klassische Testtheorie nutzen werden, sehr gut darauf vorbereitet sind und über ein sehr solides Grundlagenwissen in der IRT verfügen. Wenn Sie dann später bei uns mitarbeiten und eine Testentwicklung durchführen möchten, worauf wir noch heute zu sprechen kommen werden, werden Sie feststellen, dass dies sehr aufwendig ist. In diesem Fall müssen Sie Ihr Wissen noch etwas vertiefen.
  • Okay, also daher wird jetzt ein Modell, nämlich das Modell, über das am meisten geredet wird, in der probabilistischen Testtheorie, nämlich das Dichotom-Rasch-Modell, rausgepickt und einmal näher angeschaut, exemplarisch für weitere Modelle.
  • Wie sich weitere Modelle der Logik ergeben, das wissen Sie anhand der Klassifikationskriterien, die wir gerade besprochen haben.
  • Sie wissen, es gibt Latent-Class-Modelle, das bedeutet also, die latente Variable ist nominal skaliert und so weiter und so fort.
  • So, beim Rasch-Modell, das kommt übrigens daher, das ist ein dänischer Mathematiker, der heißt Rasch oder hieß Rasch.
  • Er hat sich damit auseinandergesetzt, und ihm zu Ehren heißen diese Modelle Rush-Modelle.
  • Oder das Rush-Modell wird jetzt hier herausgenommen als das dichotome Rush-Modell.

Was wird dazu angenommen?

  • Hinsichtlich der Personenparameter wird angenommen, es ist die Fähigkeit einer Person, ein bestimmtes Item zu lösen, das ist generell der Fall.
  • Und die Fähigkeit lässt sich durch einen Wert auf einer eindimensionalen Skala repräsentieren.
  • Das ist Ihnen auch nicht neu.
  • Beim Item-Parameter geht es darum, jede Item-Schwierigkeit lässt sich durch einen Messwert auf einer eindimensionalen Skala repräsentieren.
  • Und Person- und Item-Parameter lassen sich gemeinsam auf einer eindimensionalen Skala abbilden.
  • Das ist auch wiederholend zu dem eben Genannten der Personen-Parameter.
  • Also die Fähigkeit der Person kann größer, kleiner oder gleich sein der Item-Schwierigkeit.
  • Das ist die erste Folie gewesen, die ich heute nochmal gezeigt habe.
  • Das war bisher also eine Wiederholung.
  • Der Zusammenhang zwischen der Lösung eines Items und den beiden Parametern ist probabilistisch, also nicht deterministisch, sondern probabilistisch.
  • In Abhängigkeit von der Höhe von Item- und Personenparametern lässt sich dem Ereignis, dass das Item gelöst wird, eine Wahrscheinlichkeit zuordnen.
  • Auch nichts Neues.
  • Diese Annahmen über Item- und Personenparameter sollen in einer Wahrscheinlichkeitsfunktion abgebildet werden, und hier haben wir eine Wahrscheinlichkeitsfunktion mal abgetragen.
  • Lassen Sie sich nicht davon irritieren, dass jetzt die Y-Achse in der Mitte des Merkmalspektrums steht.
  • Das ist bedeutungsmäßig, das ist aus einem Buch zur probabilistischen Testtheorie rausgescannt.
  • Sie können die Y-Achse auch ohne Probleme einfach nach links verschieben.
  • Das ändert dann für das Verständnis auch nichts.
  • Sie sehen auch hier, die Y-Achse variiert auch wieder.
  • Hier ist die Lösungswahrscheinlichkeit abgetragen zwischen dem Wertespektrum 0 und 1.

Wie sollte sie auch anders sein?

  • Und wie jetzt hier das Wertespektrum auf der Personenparameterachse abgetragen ist, ist eigentlich nicht so entscheidend.
  • Jetzt für das Grundverständnis.
  • Sie sehen da, die Verlaufsgestalten dieser drei item-charakteristischen Funktionen sind auch gleich.
  • Das hat damit zu tun, dass das Rush-Modell nämlich nur gewisse item-Verlaufsgestalten akzeptiert.
  • Also zur Einordnung in das Spektrum möglicher Modelle der probabilistischen Testtheorie.
  • Das dichotome Rush-Modell ist also ein probabilistisches Modell, welches kontinuierliche latente Variablen annimmt, und deswegen ist es ein Was-Modell.

Wie nennt man die?

  • Latent-Straight.
  • Genau, kontinuierliche latente Variablen werden angenommen, also ist schon mal ein Latent-Trade-Modell, sowie bei dichotomen Manifestvariablen, also Antwortalternativen, angewendet wird.
  • Die zugrundeliegende IC-Funktion ist logistisch.

Also, was heißt das?

  • Das Ding heißt dichotomes Rush-Modell.
  • Und dichotom heißt es deshalb, weil die Antwortalternativen, die den Personen vorgegeben werden, bei den manifesten Variablen dichotom sind.
  • Also ja, nein, stimmt nicht, stimmt.
  • So einfach ist es.
  • Wenn man das jetzt also technisch formulieren wollte, dann wäre das dichotome Rush-Modell ein probabilistisch-logistisches dichotomes Latent-Trade-Modell mit invarianten Diskriminationsparametern.
  • So würde es in einem Fachartikel drinstehen. So macht man das, wenn man Impression Management betreiben will. Mit den Sachen, wenn man besonders schlau sein will, würde man es so formulieren.
  • Sie wissen, was dahinter steht. Das ist also weniger dramatisch, als es sich anhört.
  • Invariante Diskriminationsparameter heißt genau das.
  • Die Items, dieses etwas schlaff anmutende Item 5 von der Abbildung davor, das würde hier nicht zugelassen werden.
  • Es dürfen hier in diesem Modell nur Items reingenommen werden, die nach links oder rechts verschoben sind, aber die identische itemcharakteristische Funktion haben.
  • So.
  • Das heißt, das wäre ein Item, also wie man es mathematisch fasst, das überlassen wir den Mathematikfreaks.
  • Es geht hier zunächst um die Anwendung und das Verständnis der Grundidee.
  • Man kann das alles jetzt wunderbar in Formeln fassen, die brauchen Sie sich nicht merken.
  • Das ist jetzt nicht entscheidend für den Kontext dieser Vorlesung.
  • Sie sehen hier noch einmal die drei Items in dieser Verlaufsgestalt, invarianter Diskriminationsparameter.

Und jetzt als Vorgriff: Welches von den drei Items ist das schwerste?

Welches bitte?

Also das linke oder das rechte?

Welches ist das schwerste?

Logistisch?

  • Wenn Sie so wollen, sagen wir einfach wahrscheinlichkeitsbezogen monoton steigend.

Möchte der Statistiker und möchte der Statistiker unter uns das präzisieren?

  • Wir sind einverstanden.
  • Ja, also da gibt es mehrere Fallausformen, so S-förmig.
  • Ja, S-förmig, ja also.
  • Danke, das reicht für unsere Zwecke.

So, das heißt, welches von den Items ist vermutlich das schwerste?

Bitte?

  • Das rechte Item ist das schwerste.

Möchten Sie es auch begründen, für die anderen, die es noch nicht wussten?

Ja, weil es sieht, dass die Kreuzung mit der Y-Achse, die Y-Achse ist die Ordinate, oder?

  • Die Y-Achse ist, also zumindest die Abszisse ist die X-Achse, Ordinate die Y-Achse.

Der Kreuzpunkt ist sehr weit unten, sprich, wenn man jetzt sagt, die und die Fragen werden gelöst, also wäre das dann ein Item, das nur von 15 Prozent gelöst wird?

  • So verstehe ich das nicht.
  • Ja, wobei, da hatte ich ja gesagt, ob die Y-Achse hier jetzt steht oder ob sie hier steht, das ist jetzt für die Interpretation dieser Frage eigentlich egal.
  • Ihre Antwort war trotzdem richtig, nur die Begründung war jetzt nicht so überzeugend wie die Antwort.
  • Ja, ich kann Ihnen gerne auf die Sprünge helfen, aber ich möchte gerne noch die Kommilitonen fragen.
  • Vielleicht können die das auch.
  • Ja, aber ich finde die Idee ganz gut, wenn man einfach irgendeinen Punkt nimmt und sich dann die drei Skalen anschaut und dann schaut, wo es am niedrigsten ist.
  • Und da sind es die wenigsten Personen, die es geschafft haben.
  • Okay, machen wir ein Beispiel.
  • Also, wir sagen angenommen, die Person ist jetzt hier so fähig.
  • Hier ist der Punkt der Personenparameter der Person Peterchen.
  • Ja, hier.
  • Und Sie sehen das jetzt.

Welches Item ist das schwerste?

  • Na, das schwerste Item ist natürlich das, wo Peterchen mit geringster Lösungswahrscheinlichkeit im Vergleich von den dreien richtig ankreuzt, also das Item löst.
  • Also hier, Peterchen ist so fähig, das heißt bei dem Item 1, also diesem hier, löst Peterchen mit einer Wahrscheinlichkeit von ungefähr 50 Prozent.
  • Bei Item 2 löst Peterchen mit einer Wahrscheinlichkeit von ungefähr 30 Prozent, und bei dem Item 3 löst Peterchen mit einer Wahrscheinlichkeit von ungefähr 5 Prozent.
  • Demzufolge ist das rechte Item das schwerste, wobei Ihre Antwort richtig war und jetzt auch die Begründung geliefert ist.
  • Bitte.
  • Ich habe sozusagen, Sie sagen jetzt die Lösungswahrscheinlichkeit und ich habe sozusagen den Ansatzpunkt verdreht gehabt.
  • Deshalb war mein Verständnis richtig, aber die Klärung ist auf jeden Fall notwendig.
  • So klären sich Missverständnisse zum Vorteil aller wunderbar.
  • Wenn Sie einen Intelligenztest oder einen Konzentrationstest haben, der Items mit diesen itemcharakteristischen Funktionen anbietet, dann haben Sie für jedes Item in Ihrem Test, was modellkonform wäre, eine logistische Funktion, also einen S-Kurvenförmigen Verlauf.
  • Die ganz leichten Items stehen dann üblicherweise links und die schwereren rechts, genau aus dem Grund, den wir gerade besprochen haben.
  • Also, das heißt, wir schauen uns die Modellgleichung und die logistische IC-Funktion an.
  • Die Lösungswahrscheinlichkeit einer bestimmten Person, wir haben sie gerade Peterchen genannt, für ein bestimmtes Item, wird im Rush-Modell allein durch die Ausprägung von Fähigkeitsparameter Beta, von Ability, Sie erinnern sich, und vom Item-Schwierigkeitsparameter, Sie erinnern sich da an das D, nämlich Difficulty, bestimmt.
  • Der Zusammenhang zwischen Parametern und Lösungswahrscheinlichkeit soll nun durch die sogenannte logistische Funktion festgelegt sein, welche die Eigenschaft hat, dass im Mittelbereich, nämlich dort, wo Fähigkeit und Schwierigkeit gleich sind, und den Punkt haben wir bisher nur theoretisch angesprochen, wollen das jetzt aber als vertieft mal anschauen, was das bedeutet, nahezu Linearität zwischen Fähigkeit und Lösungswahrscheinlichkeit besteht.
  • Und das eröffnet uns diagnostisch vielfältige Möglichkeiten.
  • Während sich die Lösungswahrscheinlichkeiten im oberen und unteren Fähigkeitsbereich asymptotisch den Werten 0 und 1 nähern.
  • Naja, das hört sich schwierig an, ist es aber nicht.
  • Wir sehen das hier unten.
  • Hier wird also gesagt, also die logistische Funktion will nichts anderes sagen, hier als die itemcharakteristische Funktion legt die Lösungswahrscheinlichkeit fest, mit der bei bestimmter gegebener Fähigkeit, wir haben gesagt, Peterchen war hier und löst ihn folge mit dieser Wahrscheinlichkeit, ein Item gelöst wird.
  • Jetzt sehen Sie, hier steigt das Item stärker, als es das an den Rändern tut.
  • Das heißt, da wo Fähigkeit und Schwierigkeit ungefähr gleich sind, da ist die stärkste Steigung hier von dem Item, und da besteht fast Linearität.
  • Das ist ja eigentlich eine logistische Funktion, sozusagen eine S-kurvenförmige Funktion.
  • Aber hier ist trotzdem ein kurzer Moment der Linearität fast gegeben.
  • Und an diesem Punkt beträgt die Lösungswahrscheinlichkeit 50 Prozent, nämlich wenn Fähigkeit und Schwierigkeit zusammenkommen.
  • Während an den Rändern sich die Lösungswahrscheinlichkeit bei diesem Item kaum noch ändert.
  • Also, wenn ich extrem fähig bin, bin ich wahrscheinlich ungefähr hier im Spektrum. Habe ich eine Lösungswahrscheinlichkeit von meinetwegen Punkt 92 oder Punkt 95 und bin ich extrem fähig, quasi schon intergalaktisch, habe ich eine Lösungswahrscheinlichkeit von 96 oder 97.
  • Da ändert sich nicht mehr viel.
  • Wohingegen in diesem Bereich ändern sich die Lösungswahrscheinlichkeiten ziemlich dramatisch, weil da die Funktion am stärksten steigt.
  • Beispiel, wenn wir jetzt den Punkt hier nehmen, der Peterchen, der war hier ungefähr einzuschätzen, der löst mit einer Wahrscheinlichkeit von Punkt 04.
  • Und wenn er nur ein bisschen fähiger wäre, dann würde er es schon mit Punkt 5 lösen.
  • Da tut sich eine ganze Menge.
  • Genauso wenig wie im oberen Bereich tut sich hier in der Lösungswahrscheinlichkeit im unteren Personenparameterspektrum etwas.
  • Das heißt, dieses Item ist aufgrund genau dieser itemcharakteristischen Funktion wohl am ehesten in der Lage, welches Merkmalspektrum gut zu diagnostizieren.
  • Ein Vorgriff, aber vielleicht haben Sie es schon im Gespür.
  • Das mittlere natürlich.
  • Sie wissen ja noch von den Erwägungen der klassischen Testtheorie, wir hätten gerne Items, die gut differenzieren.
  • Und Items, die gut differenzieren in der probabilistischen Testtheorie sind diejenigen, die eine starke Steigung in der logistischen Funktion aufweisen.
  • Und das haben diese Items tatsächlich in diesem speziellen Bereich, also ungefähr von hier bis ungefähr hier.
  • Also, Personen, die leicht unterdurchschnittlich begabt sind bis hin zu Personen, die leicht überdurchschnittlich begabt sind, können anhand dieses Items sehr gut differenziert werden.
  • Das bedeutet, dass das Item besonders gut für Personen mit einer ungefähr mittleren Merkmalsausprägung geeignet ist.
  • Es liefert somit maximale Information.
  • Wohingegen es bei ganz unfähigen Leuten und bei sehr extrem fähigen Leuten eigentlich keine diagnostisch wertvolle Information mehr liefert.
  • Also Änderungen in der Wahrscheinlichkeit, das Item zu lösen, in Abhängigkeit von der Schwierigkeit und Fähigkeit.
  • Führen wir den Gedanken weiter aus.

Die Frage ist natürlich, gibt es auch so etwas wie maßgeschneidertes Testen?

  • Und wenn es das gibt, dann würden wir das natürlich gerne wissen, wie das geht.
  • Und ich greife mal vorweg, das geht anhand der Überlegungen, die wir hier gerade schon diskutieren.
  • Angenommen, die Fähigkeit, Better, Ability und Schwierigkeit, Delta von Difficulty sind gleich groß, dann beträgt die Lösungswahrscheinlichkeit für dieses Item 50 Prozent.
  • Den Punkt haben wir gerade besprochen.
  • An dieser Stelle hat die logistische Funktion ihren Wendepunkt.
  • Wer es nicht glaubt, schauen Sie mal hin.
  • Hier wendet sich etwas.
  • Erst würde die Tangente hier unten rumlaufen, dann läuft sie da oben rum.
  • Erinnern Sie sich vielleicht aus dem Abi noch.
  • Hat man mal berechnet.
  • Je mehr die Fähigkeit die Itemschwierigkeit übersteigt, d.h.
  • Je positiver die Differenz von Fähigkeit und Schwierigkeit ist, desto größer wird die Lösungswahrscheinlichkeit, wobei sie jedoch bei geringeren Differenzen schneller steigt.

Verstehen Sie das?

  • Je fähiger ich bin im Vergleich zur Schwierigkeit des Items, desto stärker ist natürlich auch die Lösungswahrscheinlichkeit eines Items.
  • Können Sie mir noch folgen? Gut.
  • Also je stärker ich fähiger bin als das schwierige Item, desto höher ist die Lösungswahrscheinlichkeit.
  • Schauen wir uns den Punkt noch einmal an, weil ich noch nicht ganz sicher bin, ob das alle verstanden haben.
  • Hier wäre ein mittleres Fähigkeitsniveau angezeigt.
  • Je fähiger ich bin, desto größer wird die Differenz zwischen Personenparameter und Itemparameter, also Personenmerkmal und Itemschwierigkeit.
  • Und je positiver diese Differenz ist, desto höher ist die Lösungswahrscheinlichkeit.
  • Das ist klar.

Verstanden?

  • Gut.
  • Dann schauen wir. Wir waren ja beim Rushmodell und wollten uns eigentlich die Modelleigenschaften des Rushmodells noch einmal genauer ansehen, und damit fahren wir jetzt hier fort.
  • Denn wenn Items diesen Rushmodell-Anforderungen entsprechen, haben sie für uns Diagnostiker sehr vorteilhafte Konsequenzen.
  • Also, Eigenschaften einer rasch modellkonformen Skala.
  • Angenommen ein Itemsatz entspräche - und das ist ja bisher noch nicht nachgewiesen, aber wir gehen jetzt mal davon aus - es sei schon nachgewiesen, entspräche den Annahmen des Raschmodells, dann ergeben sich bei der Anwendung solcher Skalen, die auf dem Raschmodell basieren, vier - das ist wichtig - vorteilhafte Modelleigenschaften.
  • Nach diesen vier Eigenschaften wird gelegentlich in Klausuren gefragt.
  • Also, Sie sehen schon die Zaunpfähle. Das ist die erste Konsequenz.
  • Itemhomogenität.
  • Das besagt, es werden nur itemcharakteristische Kurven zugelassen, die sich nicht schneiden.
  • Das heißt, dass alle Items den gleichen Verlauf der Lösungswahrscheinlichkeiten zeigen und in diesem Sinne sind sie homogen.
  • Sie unterscheiden sich lediglich darin, dass sie an unterschiedlichen Stellen des Item-Personen-Parameter-Kontinuums laufen.
  • Je höher die Schwierigkeit, desto weiter rechts.
  • Haben wir eben schon besprochen anhand dieses Beispiels, was hier unten nochmal klein eingefügt ist.
  • Das bedeutet also, dass die IC-Kurven parallel entlang der X-Achse verschoben sind.
  • Haben wir auch schon darüber gesprochen.
  • Und das heißt auch, dass alle dieselbe logistische Funktion haben, also dieselbe Verlaufsgestalt der IC-Funktion. Invariante Item-Diskriminationsparameter sind hier nicht erlaubt, sondern sie müssen gleich sein.
  • Also sie müssen invariant sein.
  • Varianz in der Verlaufsgestalt der IC-Funktion ist nicht erlaubt.
  • Dabei gilt für jedes Item: Die Wahrscheinlichkeit, dieses Item zu lösen, ist für tüchtigere oder, wenn Sie so wollen, fähigere Personen immer größer als für weniger Fähige.
  • Items, die nicht homogen sind, werden bei der Testkonstruktion eliminiert.
  • Gut, also beim Bifaktor-Modell gibt es Itemmobilität.
  • Darüber hinaus gibt es, und jetzt wird es ein bisschen unglaubwürdig, zunächst mal vielleicht, erschöpfende Statistik.
  • Das ist ein erstaunlicher Punkt.
  • Wenn - das muss man erst belegen, dass das so ist - Items lokal-stochastisch unabhängig voneinander sind, das heißt also, wenn die Wahrscheinlichkeit, ein Item zu lösen, nicht von der Wahrscheinlichkeit abhängt, ein anderes Item zu lösen, sondern ausschließlich von Fähigkeit und Itemschwierigkeit, wie wir schon besprochen haben, dann nämlich liefert die Anzahl der gelösten Items.
  • Und zwar unabhängig davon, welche Items bzw.
  • Welche Item-Teilmengen gelöst worden sind, eine erschöpfende Statistik für die Fähigkeit einer Person.
  • Ebenso liefert die Anzahl der Versuchspersonen, unabhängig davon, welche Versuchspersonen das Item bearbeiten, eine erschöpfende Statistik für den Item-Parameter.
  • Und das ist zunächst sehr unglaubwürdig.

Wie ist es bei der klassischen Testtheorie?

Wenn ich die Itemschwierigkeit bestimmen möchte, wie mache ich das?

  • Na, ich gehe her.
  • Ich konstruiere beispielsweise so einen Probedatensatz oder so eine Testform, gebe die an 50 Leute.
  • Die 50 Leute kreuzen jeweils die Items an.
  • Ich kann die Daten in SPSS eingeben oder vielleicht nicht mehr mit dem Taschenrechner bei 50 Leuten, aber ich kann es mit SPSS berechnen.
  • Der Mittelwert des Items ist die Itemschwierigkeit.
  • Die Itemschwierigkeit habe ich also berechnet anhand der Stichprobe von 50 Leuten, die ihre Kreuzchen gesetzt haben.
  • Da hatten wir gesagt, klassische Testtheorie hat ein Problem, sie ist stichprobenabhängig.
  • Richtig, wenn ich jetzt vielleicht andere 50 Leute gefragt hätte, wäre möglicherweise meine Item-Schwierigkeit anders gewesen.
  • Bei der klassischen Testtheorie besteht diese Gefahr, da sie stichprobenabhängig ist.
  • Jetzt klingen diese umfassenden Statistiken ganz anders als das, was Ihnen aus der klassischen Testtheorie bekannt ist.
  • Dieser Punkt besagt, und ich wiederhole es noch einmal, weil es so unglaubwürdig klingen mag, dass bei gegebener lokaler stochastischer Unabhängigkeit - was zunächst überprüft werden muss - die Anzahl der gelösten Items eine umfassende Statistik über die Fähigkeit der Person liefert, unabhängig davon, welche Items oder Itemteilmengen gelöst wurden.
  • Das heißt, die Person, deren Fähigkeiten ich diagnostizieren kann, auch wenn sie nicht alle Fragen beantwortet hat.
  • Das ist in der klassischen Testtheorie nicht möglich.
  • In der klassischen Testtheorie haben wir das Problem eines fehlenden Wertes, wenn jemand eine Frage nicht beantwortet.
  • Missing Value heißt, kann ich nichts reininterpretieren, deswegen will ich das verhindern und instruiere die Personen a priori schon, bitte kreuzen sie überall an, selbst wenn sie ein schlechtes Bauchgefühl haben, nehmen sie das, was noch am ehesten passt, aber bitte produzieren sie keine Missing Values, weil wir dann blöd dastehen.
  • Ist jetzt flapsig gesagt, aber im Prinzip ist das die Denke.
  • Hier ist es jetzt so. Die Fähigkeit einer Person herauszufinden, braucht die nicht bestimmte Items ankreuzen, sondern sie kann auch Teilmengen der Items, die ich vorgebe, ankreuzen.
  • Und ich kann trotzdem auf die Fähigkeit der Person schließen.

Klingt ziemlich unglaubwürdig, ne?

  • Zunächst mal.
  • Und ebenso liefert die Anzahl der Versuchspersonen, und zwar unabhängig davon, welche Versuchspersonen das Item bearbeiten, eine erschöpfende Statistik für den Item-Parameter, das heißt für die Item-Schwierigkeit.
  • Bei der klassischen Testtheorie wäre es so, das geht nicht.
  • Also, hier scheint eben wohl ein Vorteil begraben zu sein für die Diagnostik, den wir ausnutzen können.
  • Gehen wir mal weiter im Text.
  • Das fügt sich am Ende zusammen.
  • Dann gibt es den Punkt spezifische Objektivität oder auch Teilgruppenkonstanz genannt.
  • Innerhalb einer Population, für die Modellkonformität festgestellt worden ist - also Modellkonformität mit dem Dichotom-Rasch-Modell - fallen für einen Probanden und auch bei Probandenvergleichen sowohl Item- als auch Personenparameter immer gleich aus, gleichgültig, welche Merkmalsausprägung der Proband hat und unabhängig von den Items, die bearbeitet worden sind.
  • Das ist auch ein Riesending im Vergleich zur klassischen Testtheorie.
  • Denn diese Eigenschaft steht im Gegensatz zur klassischen Testtheorie, wo zwei Versuchspersonen ihre Rangplätze vertauschen können, wenn man ihre Leistung nach Teilmengen der bearbeiteten Items beurteilt.
  • Das heißt, das Dichotomie-Rasch-Modell ermöglicht mir die folgende Aussage.
  • Es besteht Unabhängigkeit beim Vergleich zweier Personen von dem Instrument, anhand dessen der Vergleich vorgenommen wurde.

Was bedeutet das konkret?

  • Bei der klassischen Testtheorie ist es so, haben wir auch praktisch berechnet, dass Person A den Intelligenztest, sagen wir den IST2000R, ausfüllt, Person B tut das auch.
  • Die bekommen dann beide ein Testergebnis und um zu testen, ob die beiden sich signifikant voneinander unterscheiden, berechne ich das Decret.
  • Haben wir gemacht, funktioniert.
  • Was jetzt aber nicht funktionieren würde, wäre, wenn Person A nur einen Teil vom IST ausfüllt.
  • Weil ich sagte, die anderen Items sind mir zu leicht, die anderen sind mir zu schwer.
  • Ich mache nur die, die mir gerade so liegen.
  • Das würde nicht gehen.
  • Die beiden Personen, egal ob sie super schlau sind oder eher weniger begabt hinsichtlich Intelligenzfragen, müssten den IST2000R, also diesen Beispielintelligenztest, komplett bearbeiten.
  • Sonst hätte man Missing Values und könnte die ganzen Sachen nicht berechnen, die Reliabilität und so weiter.
  • Dann kann ich diesen Vergleich vornehmen.
  • Und hier ist es jetzt so, wenn ich nach dem RASCH-Modell diagnostiziere. Dann können die Probanden unterschiedliche Items angekreuzt haben, auch nur Teilmengen von den Items. Die müssen nicht alle bearbeiten.
  • Und man kann trotzdem untersuchen, ob sie sich hinsichtlich ihrer Intelligenz unterscheiden.
  • Das heißt, es besteht wirklich Unabhängigkeit beim Vergleich zweier Personen von dem Instrument, anhand dessen der Vergleich vorgenommen wurde.
  • Das ist bei der klassischen Testtheorie nicht der Fall.
  • Der Vergleich der Intelligenz basiert auf diesem einen Verfahren, IST2000R.
  • Lösen Sie beispielsweise nur Teilmengen von den Items, die dieser fiktive rasch modellkonforme Intelligenztest bietet, und sie können trotzdem verglichen werden.
  • Das hört sich fast unglaublich an.

Aber ist der Grund dafür, wenn jetzt jemand nur 30 Prozent des Tests beantwortet, dass dann auf die 100 Prozent einfach geschlossen wird, mit einer bestimmten Wahrscheinlichkeit?

  • Die Idee dahinter ist, da kommen wir gleich dazu, dass. Also, ganz einfach gesagt, angenommen Sie sind Schulpsychologe. Wobei das in Bayern nicht gut funktioniert, weil die Schulpsychologen eigentlich eher besonders ausgebildet sind. Aber angenommen Sie sind Schulpsychologe in Norddeutschland, da sind das häufig auch Diplompsychologen, und es geht um einen Hochbegabungsfall.
  • Hochbegabungsfall.
  • Okay, die Eltern sagen, der Knabe ist hochbegabt, der soll mal zwei Klassen überspringen.
  • Der ist so in der Tradition von Stephen Hawking und Albert Einstein zu sehen.
  • Und Sie machen jetzt den Intelligenztest mit dem.
  • Und was feststeht, Sie finden relativ schnell heraus, okay, also intelligenzmäßig ist er wirklich gut dabei.
  • Dann muss er aber, wenn er einen Test nach der klassischen Testtheorie macht, dann muss er auch die ganz leichten Intelligenzaufgaben lösen.
  • Es besteht keine Möglichkeit, auf diese Items zu verzichten.
  • Und wenn das jetzt ein Test wäre, nach der probabilistischen Testtheorie, der nach dem Waschmodell konstruiert ist, dann besteht die Möglichkeit, nur die Items herauszunehmen, die die höchste Information liefern für diese Person.
  • Also, Sie würden dann gleich die Items auswählen, die auf überdurchschnittliche Intelligenz abzielen, und dann versuchen, im Bereich überdurchschnittlicher Intelligenz einzugrenzen, wo genau dieser Schüler jetzt liegt.
  • Kommen wir gleich noch zu. Das hat zu tun mit dem Schlagwort adaptives Testen, hat zu tun mit dem Hinweis auch, gibt es so etwas wie maßgeschneidertes Testen, und genau das ist diese Anwendung dafür.
  • Bitte.

Aber wenn man es jetzt umdreht und jemand sagt, er hat 20 Grad und hat keine Lust mehr und kreuzt nicht mehr an der Kamera und weiß nicht mehr, ist der trotzdem intelligent oder hat der einfach keine Lust?

  • Also, wenn er jetzt keine Lust mehr hat, ist es schwer zu diagnostizieren, was die Person drauf hat.
  • Aber wir nehmen mal an, der Schüler hat auch Interesse daran, seinen Job während der Testung zu machen.
  • Bitte.
  • Ich könnte noch eine Frage an dich stellen.
  • Mir ist nicht klar, wie die Reaktion auf ein Item unabhängig sein kann von der Reaktion auf das andere, wenn beide die gleiche Fähigkeit messen sollen.

Ja, ich verstehe, worauf Sie hinauswollen.

  • Das ist jedoch die Denkweise dahinter.

Kann man das erreichen?

  • Wenn ich jetzt Intelligenz messe, dann ist es doch abhängig.
  • Nur wenn ich Intelligenz habe, kann ich…
  • Es soll nur abhängig sein, wie Sie auf ein Item antworten; es soll nur abhängig sein von Ihrer Fähigkeit und nicht davon, wie Sie bereits angekreuzt haben.
  • Wobei, wie Sie bereits angekreuzt haben, auch wiederum abhängig von der Fähigkeit ist.
  • Okay, insofern besteht natürlich ein Zusammenhang, aber es soll im Prinzip nur von Ihrer Fähigkeit abhängen.
  • Das ist die Denkweise.
  • Und der vierte Punkt, um das zu ergänzen, heißt Stichprobenunabhängigkeit der Parameterschätzungen, auch genannt Separierbarkeit der Parameter.
  • Und der besagt, Item-Parameter können unabhängig von der Kenntnis der Personenparameter und Personenparameter unabhängig von Item-Parametern geschätzt werden.
  • Und das ist jetzt eher ein Vorteil auf theoretischer Ebene.
  • Und dies hat nämlich den Vorteil, dass man keine Verteilungsannahmen über unbekannte Parameter machen muss.
  • Also, auch das funktioniert.
  • Man kann Item-Schwierigkeiten unabhängig schätzen von der Kenntnis der Personenparameter und umgekehrt.
  • Also, hier deutet sich an, wenn Sie die vier Punkte mal Revue passieren lassen, die wir gerade angeschaut haben, hier scheint es wirklich so etwas zu geben wie eine überprüfbare Stichprobenunabhängigkeit.
  • Und Sie erinnern sich, beim letzten Mal hatten wir gesagt, ja, Stichprobenabhängigkeit ist genau ein Problem der klassischen Testtheorie und scheinbar hat die probabilistische Testtheorie hier einen Vorteil.
  • Ein weiterer Vorteil hat sich scheinbar oder hat das dichotome RASCH-Modell, aber auch generell die probabilistische Testtheorie. Man kann empirische Modelltests drauf loslassen, ob Modellkonformität wirklich gegeben ist, indem man schaut, ob die oben angeführten Eigenschaften des RASCH-Modells auch wirklich zutreffen.
  • Das heißt, ich bin hier auch weg von dieser Denk-Axiomatik wie in der klassischen Testtheorie, sondern hier kann ich überprüfen, ob Annahmen, die ich mache, auch zutreffen. Und wenn die zutreffen, dann ist es in logischer Konsequenz möglich, diese Schlüsse vorzunehmen, die wir gerade besprochen haben.
  • Wohingegen ich zunächst mal an die Axiomatik glauben muss.
  • Die Folie können wir überspringen, sie ist jetzt im Detail nicht so wichtig.
  • Aber was jetzt noch dran kommt, ist die praktische Vorgehensweise. Wir haben einen Einblick in die grobe Denkweise der probabilistischen Testtheorie am Beispiel des dichotomen Raschmodells erhalten.
  • Nun stellt sich natürlich die Frage, wie man den Test konstruiert.

Wie überprüfe ich, ob Items beispielsweise modellkonform zu diesem dichotomen Raschmodell sind?

Und wie konstruiere ich dann einen solchen Test?

  • Und das ist ein Punkt, den ich hier in dieser Veranstaltung eigentlich nicht vertiefend besprechen möchte.
  • Deshalb gibt es hier nur ein, zwei Überblicksfolien dazu.
  • Da man hat jetzt das Problem, man will also Itemschwierigkeit und Personenparameter ja dir herausfinden und zu Beginn der Testkonstruktion hat man beide noch nicht.
  • Das heißt, man muss sich da behelfen und das macht man mit diesen Schritten.
  • Zum Vorgehen bei einer Raschskalierung möchte ich lieber überspringen als das, was Sie jetzt anreißen.
  • Da müsste man sich eigentlich mehrere Stunden diesem Thema widmen und das dann auch am besten mit Software hier demonstrieren.
  • Die Zeit haben wir in dieser Vorlesung nicht.
  • Deshalb möchte ich Sie darauf auf eine weiterführende Veranstaltung vertrösten.
  • Es gibt dieses Angebot, wie mein Kollege mir versichert hat, für Interessierte.
  • Springen wir also über die praktische Gestaltung da weg.
  • Aber wir wollen die Praxis ja nicht außen vor lassen, denn der Punkt, weshalb wir uns damit auseinandergesetzt haben, der muss noch ganz klar herausgearbeitet werden.
  • Und der Punkt ist neben den Schwächen der klassischen Testtheorie ein weiterer Vorteil der probabilistischen Testtheorie.
  • Das geht einher mit dem adaptiven Testen, dem wollen wir uns jetzt noch widmen.
  • Jetzt kommt der Punkt. Jetzt löse ich das Versprechen ein oder die Frage, welche Möglichkeit es eigentlich gibt, Maßgeschneidertes zu testen.
  • Kurze Wiederholung: Die Differenzierungsfähigkeit, will sagen auch die Trennschärfe von Items, ist dort am größten, wo die logistische Funktion beziehungsweise die Lösungswahrscheinlichkeit die stärkste Steigung aufweist.
  • Also hier bei diesen Items, in diesem mittleren Bereich, dort, wo die Steigung am größten ist.
  • Das nennt man auch Maximum der Item-Informationsfunktion.
  • Hier kann super differenziert werden, zwischen den Leuten, die ungefähr in diesem Fähigkeitsspektrum sind.
  • zwischen den Leuten, die ungefähr in diesem Fähigkeitsspektrum sind.
  • Nehmen wir hier das rechte Item. Also Leute, die in diesem Fähigkeitsspektrum sind, so um die stärkste Steigung herum bei dem Item 3, also ganz rechts. Da ist die Informationsfunktion, die das Item diagnostisch liefert, am größten.
  • Das heißt, das Item ist dafür am wertvollsten.
  • Die stärkste Steigung liegt am Wendepunkt vor. Also dort, wo Item- und Personenparameter identisch sind, die Lösungswahrscheinlichkeit also 50 Prozent beträgt. Haben wir eben auch schon darüber gesprochen.
  • Das heißt, das ökonomischste Testlängen-Informationsgewinn-Verhältnis würde sich nach der Item-Response-Theorie jedoch dann ergeben, wenn Schwierigkeit und Fähigkeit identisch sind, also man einer Person nur Items vorlegen würde, deren Schwierigkeit dem Personenparameter möglichst nahe sein sollte.

So rum wird jetzt ein Schuh draus.

  • Wir haben eben schon gesprochen, aber jetzt führen wir es zusammen.
  • Und das ist nichts anderes als die Idee des adaptiven Testens, wobei angepasste Items anhand von Verzweigungen vorgelegt werden, meist per Computer.
  • Und das Ganze wird möglich durch, also das heißt, die Personen bearbeiten hier nicht, wie bei der klassischen Testtheorie, wie wir schon gesagt haben, alle Items, müssen sie auch nicht, sondern sie bearbeiten nur eine Teilmenge von Items und trotzdem kann man den Personenparameter der Person diagnostizieren.
  • Und das ist möglich aufgrund, also diese selektive Item-Auswahl ist möglich aufgrund der erschöpfenden Statistiken, die wir besprochen haben, und der spezifischen Objektivität der Vergleiche.

Das heißt, das adaptive Testen kann untergliedert werden in zwei Unterpunkte.

  • Zunächst mal, der erste Punkt ist das Tailored Testing.
  • Tailor ist der Maßschneider, also maßgeschneidertes Testen, welches meist computergestützt durchgeführt wird und bei dem jedes Item in Abhängigkeit von der Beantwortung vorheriger Items ermittelt wird, ob es voraussichtlich optimal passt.
  • Das heißt, über den Fähigkeitsparameter optimal informiert.
  • Das ist im Prinzip so. Sie können sich das vorstellen.
  • Grob gesagt, Sie machen eine Intelligenztestung, jetzt im Modus Taylor Testing nach der probabilistischen Testtheorie.
  • Sie wissen jetzt über die Person gar nichts am Anfang.
  • Beispielsweise, also im Hochbegabungsbeispiel, was ich gerade genannt hatte, deutete sich ja an, dass bereits Vorwissen vorhanden ist, wie die Intelligenz des Schülers ausgeprägt ist.
  • Jetzt kommt jedoch jemand zu Ihnen, und Sie wissen überhaupt nichts.

Was wäre dann vermutlich am besten? Welche Art von Item in Bezug auf die Schwierigkeit würden Sie dann als erstes vorgeben?

Bitte?

  • Das erste Item wird mit mittlerer Schwierigkeit vorgegeben.
  • Die Person löst es.

Was macht der Computer, wenn er adaptiv denkt?

  • Er gibt zunächst ein etwas schwierigeres Item vor.
  • Das ist jetzt gut, wenn das der Computer macht. Der kriegt sofort die Auswertung, ob das erste mittelschwere Intelligenz-Item gelöst wurde oder nicht.
  • Wenn es gelöst wurde, gibt er gleich in Abhängigkeit von der Beantwortung der ersten Frage das nächstschwerere Item vor.
  • Und so versucht er dann, sich immer stärkere Items vorzugeben, die wahrscheinlich dort liegen, wo euer Fähigkeitswert auch liegt, weil sie die höchste diagnostische Information enthalten.
  • Wenn die Person das erste Item nicht lösen würde, würde er leichtere Items vorgeben.

Okay?

  • Also immer maßgeschneidert auf das Antwortverhalten und hoffentlich maßgeschneidert auf das ungefähre Spektrum des Dispersionparameters der Person.
  • Das heißt hier Tailor-Testing.
  • Bitte.

Eine Sache stört mich gerade, und zwar wenn Fähigkeiten und Schwierigkeiten identisch sind, ist die Wahrscheinlichkeit, dass das Item. Gehe ich davon aus, dass wenn ich einen Bereich habe, wo die Schwierigkeit ähnlich ist und 50 Prozent davon gelöst wird, dass dann die Fähigkeit dort anzusiedeln ist?

  • Ja, ich denke, das kann man so bejahen, was Sie gefragt haben.
  • Also, sozusagen, dass man etwas vermutet oder eine Fähigkeit ansetzt, unter anderem auch auf Basis dessen, was nicht gelöst wird.
  • Verwandt ist es sozusagen ein bisschen frustrierend, wenn ich in meinen Fähigkeitsbereichen nur die Hälfte lösen kann.
  • Ja, okay, ein bisschen frustrierend.
  • Also, ich meine, Sie haben ja immerhin noch 50 Prozent Erfolgserlebnisse.
  • Das ist ja zum Beispiel…
  • Also, ich kann Ihnen ein Beispiel nennen, auch von einem anderen Intelligenztest, der nach der klassischen Testtheorie funktioniert und HAWI heißt, Hamburg Wechselintelligenztest.
  • Der funktioniert so, man lässt die Leute so lange Items, man gibt den Leuten so lange Items vor, bis sie vier- oder fünfmal scheitern.
  • Das ist ja weit frustrierender im Zweifel, als wenn sie noch eine Lösungswahrscheinlichkeit von 50 Prozent haben.
  • Und man versucht auf diese Art und Weise, sich ihrem Personenparameter zu nähern.
  • Also es gibt keine wirklich gute Alternative, glaube ich, zu dem Vorgehen.
  • Wie frustrierend ist es zum Beispiel für jemanden, der hochbegabt ist, diese ganzen superleichten Intelligenzaufgaben zu lösen.
  • Das müsste er im Rahmen der klassischen Testtheorie nämlich, er oder sie.
  • Da denken wir auch, das ist ja langweilig oder so.

Was soll das?

Wollen die mich hier auf den Arm nehmen?

  • Ich denke, wenn sie optimal gefordert werden, und das ist in diesem Bereich, wo sie zur Hälfte die Items schaffen und zur Hälfte nicht mehr, das ist, glaube ich, ein interessanter Bereich.
  • Also sagen wir, zumindest ein erträglicher für den Probanden.
  • Das hier ist also Tailor-Testing, eine tolle Sache. Es ist die Diagnostik der Zukunft, setzt aber voraus, dass natürlich vorher ein Modell - zum Beispiel das Dichotom-Rasch-Modell - auch wirklich überprüft wurde und vorhanden ist. Dann kann man das machen.
  • Und das nächste ist Branch-Testing.
  • Wenn man jetzt nicht nur mit dem Computer arbeiten will, dann kann man das noch machen.
  • Branch heißt verzweigt.
  • Das ist zum Beispiel im AID, das ist das allgemeine adaptive Intelligenzdiagnostikum von Herrn Kubinger, der auch Diagnostikprofessor in Wien ist, und seine Assistentin Frau Wurst realisiert, wo auf Papier ja, ist wirklich so.
  • Wo auf Papier- und Bleistiftbasis, also nicht auf Computerbasis, kleinere Itemgruppen oder Subtests vorgegeben werden und dann in Abhängigkeit der Antworten für diese Itemgruppe oder diesen Subtest die nächste, beste, nächste Itemgruppe ermittelt wird.
  • Das funktioniert dann so, dass Sie jetzt den Computer nicht haben, der automatisch im Hintergrund protokolliert wurde. Das Item wird als gelöst betrachtet. Wenn ja, gebe ich das schwerere Item vor, wenn nein, gebe ich ein leichteres vor.
  • Geben Sie einer Person zunächst mal einen mittelschweren Itempool von ungefähr sechs Items vor.
  • Die Person liefert Ihnen Responses, also Antworten zu diesen Items.
  • Sie machen eine kurze Pause zum Auswerten, gehen zum Beispiel raus, werten das kurz aus und überlegen sich, in Abhängigkeit davon, ob das jetzt gemeistert wurde, ob jetzt eine schwierigere oder eine leichtere Itemgruppe kommt.
  • Dann machen Sie das.
  • Und je nachdem, also das ist dieses verzweigte Testen, Branch Testing, das ist die Idee dahinter.
  • Sie brauchen also, um adaptiv zu testen, nicht notwendigerweise einen Computer, aber wünschenswert wäre es schon, weil der nimmt Ihnen da viel ab.
  • Gut, das heißt, nachdem wir diesen zentralen Vorteil herausgearbeitet haben, den die probabilistische Testtheorie bietet, nehmen wir die nochmal kritisch ins Visier.
  • Und halten zunächst mal auf der Pro, also auf der Haben-Seite fest, was hat sie zu bieten.
  • Ganz allgemein gesprochen liefert sie verbesserte messtheoretische Eigenschaften.
  • Darüber hinaus liefert sie den Punkt empirische Prüfbarkeit der Modelleigenschaften.
  • Die Axiome der klassischen Testtheorie, und das war ja der Konkurrent unter den Testtheorien im Wesentlichen für die probabilistische, können im Gegensatz zu den IAT-Modellen nicht empirisch auf Adäquatheit geprüft werden.
  • Das heißt also positiv formuliert, die IAT-Modelle können empirisch auf Adäquatheit geprüft werden.
  • Es ist also keine Glaubensfrage mehr, wie bei der Axiomatik der klassischen Testtheorie.
  • Darüber hinaus ist auf der Pro-Seite der probabilistischen Testtheorie zu vermerken, es gibt Stichproben-Unabhängigkeit.
  • Während in der klassischen Testtheorie Aussagen über die Fähigkeit von Personen immer auf Basis, immer auf Items und ihre Lösungshäufigkeit in einer bestimmten Stichprobe bezogen werden, das war ja der Stichprobenabhängigkeitspunkt, sind in der IAT beide Parameter als getrennte und während der Konstruktion separierbare Größen konzipiert.
  • Das ist auch ein Riesenvorteil, ja.
  • Außerdem, weiter auf der Pro-Seite, habe ich das Intervallskalenniveau.
  • Das liegt bei der Item-Response-Theorie gesichert vor, während dies bei der klassischen Testtheorie oft fraglich ist.
  • Darüber hinaus den gerade eben besprochenen Punkt.
  • Es gibt die Möglichkeit zum adaptiven Testen.
  • Es ermöglicht die Durchführung ökonomischerer Tests, außerdem vermutlich motiviertere Probanden, weil sie ja einigermaßen maßgeschneiderte Aufgaben gestellt bekommen.
  • Der Hochbegabte bekommt relativ schnell welche, die seinem Fähigkeitsspektrum entsprechen.
  • Und ökonomischerer Test heißt, dass bei der klassischen Testtheorie die ganz leichten Items für jemanden, der hochbegabt ist, ja sozusagen gar keinen diagnostischen Wert für mich haben. Es ist also eigentlich Quatsch, den Personen die Items vorzugeben, wenn sie mir als diagnostische Information kaum etwas liefern.
  • Da sagt sich doch der ökonomische Diagnostiker: Ich nehme gleich die Items, die mir etwas über den Personenparameter der Person sagen können.
  • Und das sind dann diejenigen, die einigermaßen passen.
  • Und die kann man hier halt maßgeschneidert auswählen.
  • Das heißt, neben dem Vorteil, dass die Person motivierter ist, weil sie gleich spürt, ich bin hier einigermaßen adäquat gefordert, ist der Test auch viel kürzer und diagnostisch insofern hochwertiger.
  • Sie wissen ja, Ökonomie ist ein Nebengütekriterium.
  • Also, ich bitte darum.
  • Ich weiß nicht, ich habe mal so einen Intelligenztest gesehen.
  • Da hat der Test bei so einer Aufgabe erst angefangen, ab einer bestimmten Aufgabe und nur wenn man die nicht gelöst hat, wurden leichtere gegeben.
  • Ich dachte mir, es ist nicht bei der klassischen Testtheorie rein theoretisch auch möglich, dass man sagt, gut, das sind Aufgaben, die pro Band ungefähr so einen mittleren IQ-Bereich lösen und wenn jetzt einer die nicht lösen kann, dann fange ich erst an mit den ganz einfachen oder so.
  • Also es ist auch nicht denkbar.
  • In der klassischen Testtheorie ist die Vorgehensweise nicht üblich.
  • Man braucht die Items aus allem Merkmalspektrum, um den Test auswerten zu können.
  • Also mir ist kein Intelligenztest nach der klassischen Testtheorie bekannt, wo man nur Teile bearbeiten könnte und trotzdem eine Diagnose fällt.

Erinnern Sie sich vielleicht an den Namen des Tests?

  • Dann könnten wir vielleicht noch ein bisschen mehr Licht ins Dunkel bringen.
  • Ich glaube, dass es der Harvey war, ja.
  • Im HAWI gibt es das.
  • Meines Wissens wird der Test so lange durchgeführt, bis die Person mehrfach scheitert, und dann bricht man ab und geht zum Nächsten.
  • Bei den Rechenaufgaben ist es so, dass man erst bei der dritten oder vierten Aufgabe anfängt und wenn die nicht gelöst wird, dann die Anfangsaufgaben macht.
  • Okay, das ist also ein Sonderfall.
  • Aber klassisch habe ich es richtig, Sie sind ja die HAWI-Referenten, fällt mir gerade ein, in meinem Seminar gewesen.
  • Das ist aber eine Ausnahme.
  • Der klassische Fall, den habe ich schon richtig wiedergegeben.
  • Ist gut, okay.
  • Also es gibt Ausnahmen, die die Regel bestätigen, aber das ist wirklich eine sehr spezielle Ausnahme.
  • Bitteschön.
  • Ja, und beim KWT ist das auch der Fall.
  • Das war nicht bei der einen Aufgabe, aber beim KWT ist das auch der Fall.

Also ist dieser Ausnahmefall auch realisiert?

  • Bei einem anderen Verfahren gibt es diese Ausnahme wohl auch noch.
  • Das heißt KABC und heißt Kaufmann Assessment Battery for Children, ein Kindertest.
  • Aber Sie können sich trotzdem merken, trotz der Existenz dieser Ausnahmen ist es üblicherweise so, dass man alle Items bearbeiten muss im Rahmen der klassischen Testtheorie.

Also, wie sieht das mit dem Anwendungsgebiet der probabilistischen Testtheorie aus?

  • Erfolgversprechend sind Testkonstruktionen nach der IIT, insbesondere da, wo die Merkmale bereits theoretisch präzise definiert sind und damit die zeitaufwendige Suche nach modellkonformen Items entfällt.
  • Also, Sie sehen schon, allein von dem Eindruck, den Sie gewonnen haben bei der klassischen Testtheorie, können Sie vermuten, dass eine Testkonstruktion, die ich auf Grundlage dieser Testtheorie vornehme, deutlich aufwendiger ist als eine nach der klassischen Testtheorie.
  • Ein weiteres Problem ist, ich finde keine. Ich muss ja zunächst mal sicherstellen, dass, wenn ich ein Modell gewählt habe, der probabilistischen Testtheorie, zum Beispiel das Dichotoma-Rasch-Modell, dass ich dafür auch Items finde, die diese Modellkonformitätskriterien auch erfüllen.
  • Denn erst, wenn das so ist, kann ich ja auch loslegen mit der Diagnose.
  • Jetzt ist es aber so, dass man für noch relativ unerforschte Konstrukte nicht sofort passende Items im Modell findet.
  • Wenn man diese nicht findet, kann man vergessen, nach diesem Modell zu diagnostizieren.
  • Und somit kann ich auch die Vorteile, die damit einhergehen und die wir heute besprochen haben, vergessen.
  • Das bedeutet, alles hängt davon ab, ob ich passende Items im Modell finde und wie hoch der Aufwand dafür ist.
  • Das leitet auch gleich über zum Punkt Kritik des IAT contra.
  • Ich habe einen enormen Testkonstruktionsmehraufwand im Vergleich zur klassischen Testtheorie.
  • Die Art der Testkonstruktion schränkt den Merkmalsbereich ein.
  • Das heißt, es gibt einen schmalen Merkmalsbereich, den ich nur diagnostizieren kann.
  • Das liegt daran, dass die Items von rasch homogenen Skalen einander sehr ähnlich werden können.

Schmale Merkmalsbereiche habe ich üblicherweise auch in gut erforschten Gebieten.

  • Da besteht potenziell die Möglichkeit, dass ich Items finde, die wirklich modellkonform sind.
  • Und in der Regel ist ein Satz von Items, die modellkonform sind, dann aber auch sprachlich relativ ähnlich.
  • Das heißt, es gibt darüber hinaus den Punkt schwierige Reliabilitäts- und Validitätsüberprüfungen.
  • Die Überprüfung der klassischen Testgültigkeitskriterien Objektivität, Reliabilität, Validität bereitet den probabilistischen Tests Schwierigkeiten hinsichtlich der Validität. Droht Gefahr, mit Kanonen auf Spatzen zu schießen.
  • Mit Kanonen auf Spatzen schießen.
  • Ich weiß nicht, ob das hier auch bekannt ist.
  • Da sagt man in Norddeutschland häufig dazu, wenn man ausdrücken will, dass hier mit Unverhältnismäßigkeit der Mittel gearbeitet wird.
  • Also übertragen auf unser Beispiel bedeutet das, dass die Kanone jetzt sozusagen das anspruchsvolle Instrumentarium der probabilistischen Testtheorie ist.
  • Und das lasse ich dann los.

Also ich betreibe einen Riesenaufwand für was eigentlich?

  • Die Validität der Ergebnisse ist auch nicht höher.

Zumindest besteht da die Gefahr.

  • Und da muss man sehen, ob Aufwand und Ertrag dann noch in einem gesunden Verhältnis stehen.
  • Weil die Validität von Tests nach der klassischen Testtheorie, die ja gelegentlich auch nicht schlecht ist.
  • Und der Punkt ist, dass es bislang nur wenige Testkonstruktionen nach der probabilistischen Testtheorie gibt.
  • Tatsächlich sind bislang gemessen an theoretischen Veröffentlichungen und anerkennenden Worten über die IAT nur sehr wenige Tests konstruiert worden, die den Anforderungen der IAT genügen.
  • Das liegt meiner Meinung nach daran, dass es viele Merkmalsbereiche schwierig finden, ein modellkonformes Set von Items zu finden.
  • Außerdem beherrschen nicht so viele Leute die Kunst, Tests wirklich nach der probabilistischen Testtheorie zu konstruieren.
  • Das ist also kein verbreitetes Wissen, sondern nach wie vor Expertenwissen.
  • Die meisten Studierenden haben in ihrem Studium, glaube ich, wenig bis gar keinen Kontakt damit.
  • Selbst Diagnostikprofessoren in der Psychologie, wie zum Beispiel - das habe ich aus Insiderkreisen von einem Assistenten von ihm erfahren - wie Herr Amelang, der jetzt emeritiert ist aus Heidelberg, ein hoch angesehener Fachexperte für Persönlichkeitspsychologie und psychologische Diagnostik, lässt das Kapitel über probabilistische Testtheorie von einem anderen Professoren schreiben, der sich darauf spezialisiert hat, in seinem Lehrbuch.
  • Und er gibt auch zu, dass er dann nicht so besonders vertiefte Kenntnisse hat, nämlich jetzt auch nicht mehr als hier vermittelt wurden, beispielsweise.
  • Das ist also nach wie vor eine recht friedliche Angelegenheit, wenn ich das so flapsig sagen darf.
  • Bitteschön.
  • Ich hätte noch eine Frage, und zwar, bei der klassischen Testtheorie habe ich ja zum Beispiel einen Wert, also einen IQ-Wert oder so, dann bestimme ich, der hat einen Messfehler, dann mache ich zum Beispiel einen Konfidenzintervall und kann dann ungefähr sagen, wo der Wert liegt.

Wenn ich jetzt nach der probabilistischen Testtheorie einen Wert habe, hat der dann in der Theorie gemäß einen Messfehler oder gibt es dann gar keinen Konfidenzintervall oder was mache ich mit dem?

Also geht man dann davon aus, dass der Wert hundertprozentig korrekt ist?

  • Nein, davon geht man auch nicht aus.
  • Aber man behandelt das Problem hier auf eine etwas andere Art und Weise.
  • Wenn Sie möchten, kommen Sie doch nachher vorbei, dann erkläre ich es Ihnen auch im Detail.
  • Ich möchte es jetzt hier nicht in der großen Runde thematisieren, um keine Verwirrung zu stiften.
  • Also, das ist ein wichtiger Punkt.
  • Wenige Konstruktionen bislang.
  • Man fragt sich, okay, es gibt hier viele Vorteile bei der probabilistischen Testtheorie, aber es schlägt sich im Moment noch nicht besonders stark nieder in der diagnostischen Praxis.
  • Meine persönliche Meinung zu dem Thema ist, es gibt noch ein paar Felder, wo man relativ problemlos Tests nach der probabilistischen Testtheorie konstruieren könnte, aber aufgrund des Aufwandes und aufgrund des nicht exzellenten Kenntnisstandes bei vielen Fachexperten wird das in der Regel noch gescheut.
  • Aber der Bedarf danach, wenn das funktioniert, ist wunderbar.
  • Es gibt zum Beispiel den FAIR, der heißt FAIR wie gerecht, das Wort.
  • Frankfurter Adaptive, nein, Frankfurter, ist auf jeden Fall ein Aufmerksamkeitstest.
  • Der kommt auch aus Frankfurt, aber die anderen Buchstaben kann ich jetzt nicht mehr direkt herleiten.
  • Der ist danach konzipiert, ja.
  • Da funktioniert das.
  • Aber das Konstrukt Konzentration, also ich glaube, das ist ein Konzentrationstest, also ein Teil Konzentrationstest, genau.
  • Da funktioniert das, weil das Konstrukt relativ schmal ist, wenn Sie so wollen.
  • Bei Persönlichkeitstests gibt es meines Wissens ein, zwei Testverfahren, die das versucht haben.
  • Weil Persönlichkeit jetzt ein sehr umfassendes Konstrukt ist.
  • Je schmaler das Konstrukt und je besser es bisher untersucht wurde, also je mehr Items es schon nach klassischer Testtheorie gab, desto eher habe ich die Chance, Items zu finden, die auch RASCH-modellkonform sind.
  • Das heißt, noch eine Warnung vielleicht zum Abschluss der Thematik.
  • Probabilistische Testtheorie.
  • Die griechischen Buchstabenkürze, die ich schon verschiedentlich aufgeführt habe, hier für Personenparameter, Itemparameter, Itemdiskriminationsparameter und so weiter, wenn Sie sich weiter einlesen möchten in die Thematik, was ich Ihnen im Prinzip nur empfehlen kann, weil es sehr interessant ist und es wird in der Zukunft sich weiter positiv entwickeln das Feld. Wenn Sie das aber tun, lassen Sie sich bitte nicht verwirren, dass die Autoren unterschiedliche Symbole für die Variablen und Parameter verwenden, sondern achten Sie immer darauf, was der Personenparameter ist, was der Itemparameter ist, was die Lösungswahrscheinlichkeit ist, was der Diskriminationsparameter ist und welches Buchstabenkürzel griechischer Art der Autor dafür verwendet, ist so ein bisschen beliebig.

Okay?

  • Also, das soll Verwirrung vermeiden.
  • Ich habe eine kurze Frage zur Konstruktion von probabilistischen Tests.

Wie wird denn das überhaupt herausgefunden, ob das jetzt geeignet ist, das Item oder nicht?

Ich muss es ja auch einer Stichprobe vorlegen, oder?

  • Ja, Sie kommen ohne Leute natürlich nicht aus.
  • Sie brauchen eine Stichprobe, natürlich, und dann beginnt dieser ganz komplexe Modellkonformitätsüberprüfungsprozess, ob das Item wirklich konform geht mit den Ansprüchen, die da gestellt werden in dem jeweiligen Modell.
  • Also nach Antwortverhalten wahrscheinlich.
  • Nach dem Antwortverhalten, ja.
  • Genau.
  • Okay.
  • Gut, dann haben wir jetzt einen thematischen Cut.
  • Wir haben die probabilistische Testtheorie heute erfolgreich abgeschlossen.
  • Sie können stolz sein, das war einer der schwersten Brocken.
  • Also vielleicht war es sogar der schwerste Brocken in der ganzen Vorlesung.
  • Ich wünsche Ihnen eine schöne Woche und nächste Woche machen wir weiter mit der dritten kleinen Testtheorie.
  • Bis dann.
  • Ja, das ist gut.