This video: Dans cette vidéo : Neste vídeo : 

Persönlichkeits-Psychologie (3)

Key points Points Clés Dicas 

00:00 Persönlichkeits-Psychologie (3)

02:24 Die grundlegende Frage bei den Hauptgütekriterien ist, wie gut wird durch den Test, da erinnern Sie sich an die Ausführungen vom letzten Mal, die wir gemeinsam durchgegangen sind, Wie gut wird durch den Test das empirische Relativ im numerischen Relativ abgebildet?

05:16 Reliabilität heißt, das war die Oberfrage, misst der Test das, was er misst, genau?

08:13 Wie kann man versuchen, unterschiedliches Versuchsleiter-Verhalten als Varianzquelle bei den Testergebnissen der Probanden auszuschließen?

08:35 Wie kann ich ausschließen, dass unterschiedliches Testleiterverhalten da ist und so potenziell Testergebnisse der Probanden beeinflusst?

08:57 Und was ist der Hintergedanke?

10:33 Hier sieht die quantitative Bestimmung so aus.

11:43 Das ist besonders schwierig vermutlich bei welchen Tests?

11:51 Bei projektiven Tests.

12:44 Quantitative Bestimmung, wie versucht man es hier?

13:53 Das ist eine gute Frage.

14:22 Wie können wir sie herstellen?

15:51 Und wenn die gering ist, wie sieht es dann erst mit der Validität aus?

17:42 Wie demzufolge genau, zuverlässig oder präzise erfasst ein Test das, was er erfasst?

19:46 Okay, also Sie gehen auf Sommertolmut, sagt Ihnen noch was?

20:20 Was sagen Sie jetzt als Psychologe oder Psychologin?

21:25 Sie sind gerade so schön in Fahrt, darf ich Sie jetzt unterbrechen?

21:51 Stimmt das oder stimmt das nicht?

22:15 Reliabel sind Sie?

22:37 Wie sieht es mit der Validität aus?

23:11 Was ist die Moral von der Geschichte?

24:08 Erinnern Sie sich?

26:17 Warum ist das potenziell so?

26:33 Das wollten Sie sagen, ne?

26:46 Wenn ich jetzt weniger Varianz da habe, heißt das für, wenn ich Korrelationen berechne, was?

27:02 Nochmal denken, die gehen runter.

28:19 Sagt Ihnen das was?

28:58 Und wenn die Korrelationen in dem Datensatz gering sind, brauche ich dann mehr Faktoren, um die Varianz aufzuklären, oder weniger Faktoren?

30:09 Bitteschön.

30:25 Oder ist das für Sie ein ganz neues Thema?

31:09 Ist das verständlich?

31:34 Bei heterogenen?

31:59 Deshalb wird auch die Reliabilität kleiner, wenn man homogenere Teilpopulationen hernimmt.

32:27 Wie lässt sich die Reliabilität nun erhöhen?

33:51 Ich kann Items mittleren Schwierigkeitsgrads wählen.

35:19 An die erinnern Sie sich?

37:03 Das heißt, welche vier verschiedenen Möglichkeiten gibt es, die Reliabilität zu bestimmen?

37:26 Retestreliabilität, was ist der Sinn dahinter?

37:49 Wann kann man das jetzt sinnvollerweise anwenden?

40:02 Was ist jetzt ein paralleler Test?

40:39 Ja, bestimmt denn das auch die Ergebnisse bei den Tests, dass diese dann auch wieder eine Reliabilität haben, dass die auch wirklich ähnlich sind, oder?

41:20 Okay?

43:11 Gut, wann wende ich das an?

45:00 Wie geht man dabei vor?

45:22 Vorteil, ich habe wirklich nur einen Messzeitpunkt.

45:53 Randomisiert, ne?

48:26 Gut, wann wenden wir das an?

50:32 Was bedeutet das?

52:45 Was hat das mit meinen Ausführungen zu tun?

53:51 Das ist wichtig.

54:07 Ja, ich meine, wen wundert es?

56:26 Was hat Validität mit Religion zu tun?

56:56 Hatte ich es bei Ihnen schon gesagt?

1:01:10 Das sind alles wieder Teilfragen, misst der Test das, was er messen soll?

1:01:41 Okay, dieser Schluss ist erlaubt.

1:02:44 Wie gehen Sie vor bei der Auswahl Ihrer Test-Items?

1:03:41 Okay?

1:04:01 Okay, hier gibt es ein mögliches Problem.

1:06:05 Okay?

1:10:55 Und Target-Variablen?

1:11:13 Jetzt werden Sie denken, was hat das miteinander zu tun?

1:12:09 Ich weiß nicht, haben Sie schon mal ausgefüllt so einen Bogen?

1:17:01 Also schauen wir mal, welches Testverfahren wäre das?

1:17:36 Okay?

1:19:24 Das ist ein Ding, oder?

Persönlichkeits-Psychologie (3)

Persönlichkeits-Psychologie (3)

  • Sie sehen, in meinem Foliensatz habe ich einen kleinen Gag eingebaut.
  • Der funktioniert natürlich nicht, wenn Sie die Antworten schon kennen, wenn Sie es ausgedruckt haben.
  • Deshalb habe ich mich dafür entschieden, den kleinen Gag, der anknüpft an das, was wir beim letzten Mal besprochen haben und es weiterführt, nämlich die Testgüte-Kriterien.
  • Also nichts anderes als die Frage, welche Kriterien können uns dazu dienen, die Qualität eines Testverfahrens einzuschätzen.
  • ein bisschen auf unterhaltsame Art und Weise zu transportieren.
  • Wir wollen jetzt bei diesem zugegebenermaßen einigermaßen grotesken Testverfahren uns anschauen oder daraus lernen, was kann das jetzt heißen für diejenigen unter uns, und da zähle ich uns alle dazu, die es jetzt besser machen wollen und die auf Qualität setzen.
  • Da kommen wir dann zu den Hauptgütekriterien.
  • Und das ist genau der Punkt, an den ich jetzt anknüpfen möchte und wo ich weitermachen möchte.
  • Also, Gütekriterien.
  • Ich sage dazu, das Thema wird von manchen Personen als relativ trocken empfunden.
  • Ich kann diese Wahrnehmung zum Teil nachvollziehen.
  • Ich kann Ihnen allerdings auch sagen, niemand kommt drum herum.
  • Das heißt, wenn Sie das Thema Gütekriterien verinnerlichen, dass Sie es wirklich verstanden haben, ist einerseits sehr wichtig und andererseits aber auch bietet den Riesenvorteil, wenn Sie es verstanden haben, ist es egal, in welcher psychologischen Subdisziplin Sie sich jetzt bewegen, Arbeitsorganisationspsychologie, Entwicklungspsychologie, klinische Psychologie, ist es überall eins zu eins anwendbar, sodass es ein wirklicher Trumpfass ist im Ärmel, wenn Sie dieses methodische Verständnis erwerben und später dann, wie gesagt, vielfältigst anwenden können.
  • Gut, das heißt, wir haben gesprochen über beispielsweise Item-Schwierigkeit, Trennschärfe, Homogenität, also wir haben es interne Konsistenz oder auch Chrombus-Alpha genannt, charakterisieren einen Test von seinen kleinsten Bausteinen her und die kleinsten Bausteine, das hatten wir besprochen, sind nichts anderes als die Items.
  • Wenn wir jetzt den Test als Ganzen charakterisieren wollen hinsichtlich seiner Qualität, dann greifen wir zu anderen.
  • Kriterien, nämlich den Hauptgütekriterien, die leider nicht von mir erfunden wurden.
  • Ich wäre sehr stolz, aber das haben Leute vor mir bewerkstelligt.

Die grundlegende Frage bei den Hauptgütekriterien ist, wie gut wird durch den Test, da erinnern Sie sich an die Ausführungen vom letzten Mal, die wir gemeinsam durchgegangen sind, Wie gut wird durch den Test das empirische Relativ im numerischen Relativ abgebildet?

  • Und idealerweise wäre das ja eins zu eins, die Abbildung, dann hätten wir eine perfekte Messung.
  • Wir sind in der Psychologie häufig noch ein ganzes Stück weit davon entfernt, aber man kann ja zumindest versuchen, sich dem anzunehmen.
  • Das heißt, bei der Beurteilung einer spezifischen diagnostischen Methode, wie zum Beispiel einem Persönlichkeits- und Intelligenztest, kommt es daher auch auf die Umstände, Bedingungen und Zielsetzungen an, was zu einer unterschiedlichen Gewichtung der Kriterien führen kann.
  • Wir schauen uns gleich ein Menü an von Hauptgütekriterien und Nebengütekriterien und je nach Testsituation sind die, insbesondere die Nebengütekriterien, verschiedentlich zu gewichten.
  • Die Hauptgütekriterien kennen Sie, Objektivität, Reliabilität und Validität.
  • An denen kommt niemand vorbei, bei keiner Testung, egal in welchem Anwendungskontext.
  • Und die Nebengütekriterien, da gehört zum Beispiel Normierung rein oder Testfairness oder auch Ökonomie, wie wir gleich in der folgenden Abbildung sehen werden.
  • Hier ist es schön dargestellt.
  • Sie sehen hier jeweils die Hauptgütekriterien, Nebengütekriterien und die Unterformen, mit denen wir Sie messen können.
  • Das ist für Sie insofern eine überblicksartige Darstellung, als dass wir nachher noch ein bisschen, also im laufenden Verlauf dieser Sitzung noch ein bisschen in die Details einsteigen werden, was diese Unteräste angeht.
  • Also Hauptgütekriterien, Objektivität, Reliabilität, Validität, Objektivität der Durchführung, Auswertung und Interpretation.
  • Reliabilität, interne Konsistenz und Stabilität sind zwei wichtige.
  • Für die Stabilität kennen Sie wahrscheinlich auch noch einen anderen Begriff oder mehrere andere Begriffe.
  • Zum Beispiel…
  • Also jetzt nicht gerade Stability nennen, bitte.
  • Aber eine bedeutungsgleiche Bezeichnung.
  • Bitte schön.
  • Retest Reliabilität, wenn Sie es auf Deutsch sagen wollen, können Sie auch Testwiederholungs Reliabilität sagen.
  • Das steckt hinter dem Stabilitätsaspekt, genau.
  • Innere Konsistenz oder man nennt es manchmal auch interne Konsistenz, ist wieder der Indikator Chromas Alpha mit gemeint.
  • Unter Validität schließlich finden wir die drei Validitätsaspekte Inhaltskonstrukt und Kriteriumsvalidität vor.
  • Also, das ist noch wichtig zu wissen.
  • Was die Hauptgüterkriterien erfassen, haben wir ja besprochen.
  • Wichtig ist, dass Sie sich nicht verwirren lassen.
  • Objektivität heißt nichts anderes als nicht abhängig vom subjektiven Urteiler, von subjektiven Auswertungseinflüssen.

Reliabilität heißt, das war die Oberfrage, misst der Test das, was er misst, genau?

  • Und das kann ich in verschiedenen Unterfacetten abprüfen.
  • Und Validität war die Oberfrage, misst der Test das, was er messen soll oder was er vorgibt zu messen.
  • Ja, das sind die unterschiedlichen Fragestellungen, die den hauptgültigen Kriterien zugrunde liegen und die jeweiligen Facetten, Inhaltskonstrukt und Kriteriumsvalidität widmen sich alle dieser Oberfrage, aber in in einer anderen Betrachtungsweise, aber es geht immer um die Oberfragen, die wir eben gerade noch mal wiederholend besprochen haben.
  • Gut, die nebengüte Kriterien, Normierung, ganz wichtig, die Leute, die bei mir in dem Seminar Persönlichkeits- und Intelligenztest sitzen, wissen das, das wird häufig kritisiert, wenn die Normierung nichts taugt oder, sagen wir mal, suboptimal ausgefallen ist, dann ist das ein Test, ein am Test zu kritisierender Punkt.
  • Vergleichbarkeit können wir übergehen, ist hier jetzt nicht so wichtig für unsere Zwecke.
  • Ökonomie ist ein wichtiger Punkt.
  • Sie erinnern sich an den Grundsatz, wir wollen mit möglichst wenig Aufwand möglichst aussagekräftige diagnostische Informationen bekommen.
  • Das ist so ein bisschen die Quadratur des Kreises, also der Persönlichkeitstest soll kurz sein und gleichzeitig umfassend.
  • Irgendwo kann man nicht beides haben, da muss es irgendwo ein Trade-off geben und den zu finden haben sich schon viele bemüht.
  • Und die Nützlichkeit natürlich mit der Information, dass wir auch was anfangen können.
  • Das ist auch wichtig.
  • Gut, also das ist sozusagen ein Grobüberblick.
  • Genau, die Folie hatten wir gerade schon.
  • Jetzt schauen wir uns noch die Objektivität und die Unterfacetten, insbesondere für diejenigen unter Ihnen, Die im Nebenfach studieren ist es wahrscheinlich Neuland, für die Hauptfächer ist es vermutlich Wiederholung, aber ich nehme das gerne in Kauf, aufgrund dessen, dass ich denke, das sind Inhalte, die es sich lohnt zu verinnerlichen.
  • Also schauen wir uns an die Objektivität.
  • Bezeichnet das Ausmaß, in dem die Ergebnisse eines Tests unabhängig vom Testleiter sind.
  • Also insofern eine Nichtsubjektivität gegeben ist.
  • Drei Objektivitätsarten, der Durchführung, der Auswertung und der Interpretation.
  • Und die schauen wir uns im Einzelnen an.
  • Jetzt gehen wir bei der Durchführung fangen wir an.
  • Wie gesagt, es sind immer Unterfacetten zu den Oberfragen, die wir gerade nochmal besprochen haben.
  • Eine Testdurchführung erfolgt dann objektiv, wenn keine Testergebnisvarianz aufgrund von Testbedingungen und Versuchsleiterverhalten entsteht.
  • Also Testbedingungen wäre beispielsweise bei der einen Kohorte ist nebenbei eine Baustelle mit Presslufthämmern.
  • Das verzerrt bei der einen Gruppe vermutlich die Testergebnisse.
  • Versuchsleiter können einen Einfluss haben, einen ganz großen.
  • Da gibt es ja sogar einen eigenen Effekt, der heißt Versuchsleiter-Effekt, den Sie kennen.

Wie kann man versuchen, unterschiedliches Versuchsleiter-Verhalten als Varianzquelle bei den Testergebnissen der Probanden auszuschließen?

  • Das ist vermutlich der Ansatz, den man nimmt.

Wer weiß es?

Darf ich das als Wortmeldung interpretieren, hier vorne?

  • Nicht, okay.

Wie kann ich ausschließen, dass unterschiedliches Testleiterverhalten da ist und so potenziell Testergebnisse der Probanden beeinflusst?

  • Bitte schön, ja.
  • Man hat zum Beispiel schriftliche Instruktionen gegeben.
  • Schriftliche Instruktionen geben, sehr richtig.

Und was ist der Hintergedanke?

  • Dass der Versuchsleiter nichts sagen muss.
  • Genau, der Versuchsleiter sagt nichts, was da nicht steht.
  • Und das dient, ja super, dient ganz einfach der Standardisierung.
  • Genau.
  • Stellen Sie sich vor, wir machen einen größeren Versuch und ich bin beispielsweise Versuchsleiter Nummer zwei und Sie sind Versuchsleiterin Nummer eins und wir müssen jeweils die Gruppen und ich kann nicht alle selber übernehmen, Sie können nicht alle selber übernehmen.
  • Das heißt, wir haben zwei verschiedene Versuchsleiter und wir wollen aber das konstant halten, wie die Instruktion durch den Versuchsleiter gegeben wird.
  • Na, dann machen wir es, könnten wir es so machen, dass wir sagen, wir standardisieren.
  • Sie liest einen Text vor und ich lese einen Text vor und so versuchen wir möglichst dieselben Informationen in der gleichen Art und Weise zu unseren Probanden zu transportieren, um zu vermeiden, dass beispielsweise Ihre Versuchspersonen besser abschneiden als meine, nur weil sie freundlicher war oder es besser erklärt hat.
  • Okay, also Standardisierung ist da das Mittel der Wahl.
  • Sie sehen es hier, maximale Standardisierung der Testsituation, standardisierte Instruktionen, Testmaterialien, Zeitvorgaben, möglichst so, dass die Vorgaben so stark korsettieren, standardisieren, dass man annähernd plausibel annehmen kann, hier wird gleichartig gearbeitet von verschiedenen Versuchsleitern und auch von einem Versuchsleiter über die Zeit hinweg, wenn der mehrere Gruppen hintereinander macht beispielsweise.
  • Gut, wir haben immer gerne quantitative Indizes dafür, wie groß zum Beispiel die Durchführungsobjektivität ist.
  • Deswegen schauen wir uns an, welche gibt es, wenn es welche gibt und wie können die wenn aussehen.

Hier sieht die quantitative Bestimmung so aus.

  • Theoretisch müsste man eine Versuchsperson mehrmals unter denselben Bedingungen testen und dann einen Mittelwert bestimmen.
  • Das ist jedoch aufgrund der Reaktivität der Messung nicht möglich, weil die Versuchsperson in der Regel ja, wenn sie eine Testung zum Beispiel im Intelligenztest durchführt, dabei was lernt und beim nächsten Mal dann besser abschneidet.
  • Reaktivität der Messung heißt, während ich etwas messe, verändert sich der zu messende Gegenstand selber.
  • Zum Beispiel bei kniffligen Rätselaufgaben, wenn Sie die Lösung wissen, dann funktioniert das, das können Sie dann nicht mehr wiederholen, weil Sie beim ersten Mal, wo Sie vielleicht nicht gleich auf die Lösung gekommen sind, was gelernt haben.
  • Das heißt, die Messung oder Testung war reaktiv, hat etwas verändert bei Ihnen.
  • Okay, das heißt, wir springen zur Auswertungsobjektivität, wir halten fest, die Durchführungsobjektivität, es gibt kein quantitatives Maß dafür.
  • Also keine Zahl.
  • Wir würden, wie gesagt, gerne quantifizieren, aber es geht nicht bei allen Punkten.
  • Auswertungsobjektivität liegt vor, wenn die Vergabe von Testpunkten für bestimmte Testantworten der Versuchsperson unbeeinflusst von der Person des Auswerters ist.

Das ist besonders schwierig vermutlich bei welchen Tests?

Welcher Testklasse?

Bei projektiven Tests.

  • Wir hatten ja gesagt, Rohrschlachttest, TAT, diese Verfahren, da ist es besonders schwierig.
  • Wir hatten das Beispiel mit dem Tintenklecks, den manche interpretiert haben, wie diesen Werner als Motor, diese Comicfigur als Motorradfahrer und diese Späße.
  • Es ist besonders schwer, Auswertungsobjektivität da reinzubekommen.
  • Das heißt, die liegt dann vor, wenn die Richtigkeit der Antwort mit einem Lösungsschlüssel, zum Beispiel Schablone oder per Computer bestimmt werden kann, Das ist auch der Klassiker, so versucht man das sicherzustellen.
  • Und bei offenen Antwortformaten oder bei Tests, wo mehrere Lösungen richtig sein können oder auch teilweise richtig sein können oder gar bei projektiven Verfahren, wie genannt, hängt die Auswertungsobjektivität davon ab, wie detailliert die Auswertungskategorien im Testmanual beschrieben und eingegrenzt sind.
  • Das erfordert allerdings ein hohes Auswertertraining und sorgt immer noch nicht für perfekte Auswertungsobjektivität.

Quantitative Bestimmung, wie versucht man es hier?

  • Indem mehrere Gutachter unabhängig voneinander das in einer Stichprobe erhobene Merkmal auswerten und den Grad der Übereinstimmung kann man dann als Korrelationskoeffizienten ermitteln.
  • Also da gibt es ein Beispiel dazu.
  • Psychiaterurteile gelten häufig als schon, also gelten nicht als valide, reliabel auch nicht und noch nicht mal als objektiv.
  • Dahingehend, wenn sie beispielsweise ein diagnostisches Gespräch eines Psychiaters mit einer Klientin videografieren, also aufzeichnen, wie beispielsweise hier.
  • Und Sie zeigen das dann später mehreren Psychiatern und lassen die auf Grundlage dieses Gesprächs und der Testergebnisse, die vorliegen von der Klientin, eine Diagnose fällen.
  • Dann werden Sie feststellen, die überlappen häufig nicht besonders stark.
  • Da ist schon die Auswertungsobjektivität gefährdet.
  • Bitte schön.

Was ist dein Unterschied zur Interrater Relevabilität?

  • Weil da machen sie es draus, sodass man verschiedene Auswertungen hat und dann schaut, wie viel man einstellt.
  • Das ist etwas sehr ähnliches.
  • Das ist nicht gut trennscharf zu betrachten.

Das ist eine gute Frage.

  • Das ist dieselbe Denke wie bei der Interrater Relevabilität, ja.
  • Gehen wir zur Interpretationsobjektivität.
  • Sie liegt dann vor, wenn die Schlussfolgerungen unabhängig von der Person des Auswerters gezogen werden.
  • Also hier geht es jetzt um Schlussfolgerungen auf Grundlage von Testergebnissen.

Das Psychiaterbeispiel würde auch hier funktionieren.

Wie können wir sie herstellen?

  • Hoch ist die Interpretationsobjektivität in der Regel, wenn wie in der statistischen Vorgehensweise üblich die entsprechenden Normwerte, deshalb war Normierung auch ein Nebengüterkriterium, was wichtig ist, aus einer Tabelle im Testmanual abgelesen werden können.
  • Und im projektiven Verfahren ist die Interpretationsobjektivität dagegen wieder meist gering, da subjektive Einschätzungen der Auswerter in die Interpretation ganz häufig mit eingehen und man das kaum vermeiden kann.
  • Schauen wir uns in einem Überblick an, wie bei verschiedenen Verfahren Objektivität einzuschätzen ist.
  • Sie sehen hier, was man früher zur Personalauswahl gemacht hat, waren häufig unstandardisierte Interviews.
  • Dass man sagt, ja wir laden den oder diejenige mal ein und dann fühlen wir den ein bisschen am Zahn.
  • So und dann so nach dem Nasenfaktor und Sympathie.
  • wird dann die Entscheidung getroffen, passt oder passt nicht hier.
  • Sie sehen hier, Objektivität der Durchführung, Auswertung und Interpretation ist vergleichsweise gering.
  • Und Sie wissen ja, diese Hauptgüterkriterien hängen zusammen.
  • Objektivität ist eine notwendige, aber nicht hinreichende Voraussetzung für Reliabilität und Reliabilität wiederum ist eine notwendige, aber nicht hinreichende Voraussetzung für Validität.

Das heißt, das ist ein kleiner Vorgriff, wenn die Objektivität schon strauchelt, wie sieht es dann erst mit der Reliabilität aus?

Und wenn die gering ist, wie sieht es dann erst mit der Validität aus?

  • Das heißt, wenn ich schon ein Verfahren wähle zur Personalauswahl, wie ein unstandardisiertes Interview, so ein bisschen Larifari aus dem Bauch heraus, und ich habe schon ein Objektivitätsproblem, dann dürfen Sie plausiblerweise annehmen, ich habe nachher ein gigantisches Validitätsproblem.
  • Und exakt das kommt auch in der empirischen Forschung aus.
  • Also Sie sehen schon, wenn hier schon die erste Hürde auf dem Weg zur Validität gerissen wird, dann ist bei der Validität nicht mehr viel zu erwarten.
  • Und das ist hier beim unstandardisierten Interview hier schön dargestellt.
  • Hier haben wir potenziellen Problem.
  • Ein gutes psychologisches Testverfahren hat eine hohe Objektivität, ein standardisierter Fragebogen, auch Dokumentenanalyse, das nutzt man jetzt relativ selten mehr heutzutage, Assessment Center, kommt darauf an, wie gut es gemacht ist.
  • Hier ist es ganz stark davon abhängig, wie sinnvoll das Konstrukt ist.
  • Gut, schauen wir an, wir kommen von der Objektivität, gehen wir zur Reliabilität.
  • Bezeichnet also den Grad der Genauigkeit oder auch die Messpräzision.
  • Oder wenn Sie so wollen, und der Wortursprung bedeutet ja Zuverlässigkeit, mit der ein Test ein bestimmtes Persönlichkeits- oder Verhaltensmerkmal misst.
  • Und wichtig, diese Frage ist zunächst zu differenzieren, auch wenn die Gütekriterien zusammenhängen in der Art und Weise, wie ich es gerade genannt habe, notwendig, aber nicht hinreichende Voraussetzung für die jeweils nächste, ist zunächst die Eingrenzung dessen, was Reliabilität ist, also die Definition ist unabhängig von der Validität, die ja den Aspekt abbildet, ob der Test das misst, was er messen soll.
  • Das ist etwas anderes.

Eine Veranschaulichung.

Wie demzufolge genau, zuverlässig oder präzise erfasst ein Test das, was er erfasst?

  • Das ist ja die Reliabilitätsgrundfrage.
  • Das ist ein Waldhorn, das ist ein Instrument.
  • Man hat versucht, das jetzt mal zu veranschaulichen, um das ein bisschen greifbarer zu machen.
  • Physiker haben sich überlegt, wenn ich eine annähernd perfekte Abbildung dieses Waldhorns habe, dann hätte ich eine Reliabilität, also eine Wiedergabegenauigkeit, sozusagen eine Messpräzision, der Vergleich hinkt etwas, aber zur Veranschaulichung ist er in Ordnung, von 1,0 und Sie sehen das Waldhorn sehr scharf in der rechten Abbildung.
  • Also wenn wir reliable Messergebnisse haben, haben wir sehr präzise Abbildungen des Gegenstandes, den wir messtechnisch ins Auge gefasst haben.
  • Wenn wir nicht so genau messen können, also nicht so präzise, dann wären wir vielleicht bei Reliabilität von Punkt 80 zunächst mal, dann erkennt man zwar noch einen Waldhorn, aber es fängt schon ziemlich an zu rauschen und unser Messverfahren bildet den Messgegenstand schon nicht mehr so sauber ab.
  • Und das wird natürlich umso schlechter, je geringer die Reliabilität wird, der Grad des Rauschens, der Ungenauigkeit wird immer größer und demzufolge das Bild immer unschärfer.
  • Und so ist die Analogie zu verstehen, beispielsweise das Bild der Intelligenz vom Probanden, das wir gerne möglichst scharf hätten, wird bei einem unreliablen Test so ein bisschen wie Sie sich selber sehen in einem beschlagenen Badezimmerspiegel.
  • Und wenn Sie die Zahlen jetzt mal zuordnen, dann sehen Sie 1,0, da träumen wir von.
  • Bei Intelligenztests kann man sagen, so Punkt 90 ist eine tolle Reliabilität.
  • Das heißt, irgendwo zwischen den beiden her ist das Bild der Intelligenz, die diese Person aufweist, noch einigermaßen scharf mit einem guten Test.
  • Wenn der Test eine geringere Reliabilität aufweist, sehen Sie es hier ganz schön, wird es immer unschärfer.
  • Gut, da gibt es ein Haarbeispiel.

Habe ich Ihnen das schon erzählt?

  • Das Beispiel von dem Tollwutgaukler.

Okay, also Sie gehen auf Sommertolmut, sagt Ihnen noch was?

  • Und da ist so ein findiger Gaukler und der sagt, ich habe einen seriösen Test entwickelt, der heißt folgendermaßen, ich kann beweisen, dass bei Frauen die Haarlänge mit Intelligenz korreliert.

Also ich kann anhand, ich formuliere nochmal neu, anhand der Haarlänge Kann man bei Frauen die Intelligenz bestimmen?

  • Sagt er.
  • Also ich habe einen Haarlängen-Intelligenztest.
  • Gut.

Was sagen Sie jetzt als Psychologe oder Psychologin?

  • Sagen Sie mal, was Sie sagen.
  • Aber bitte fundiert antworten, nicht emotional.
  • Jetzt geht es zunächst um eine fundierte Antwort.
  • Also ich möchte, dass Sie jetzt mit mir gemeinsam den Beweis führen, dass das irgendwo nicht funktionieren kann.
  • Aber ich möchte genau wissen, weshalb nicht.
  • Bitte schön.
  • Ich denke, dass es mit der Zeit zusammenhängt, weil Intelligenz nicht in kurzen Zeiträumen zu verändern ist.
  • Aber wenn man jetzt zum Friseur geht, sind innerhalb von Sekunden die Haare weg.
  • Okay, das stimmt sowieso.
  • Richtig.
  • Ich dachte, Klar, Volltreffer, was Sie sagen, stimmt hundertprozentig.
  • Ich wollte nur Sie dazu animieren, jetzt mit den Hauptgütekriterien zu argumentieren.
  • Weil wir die ja gerade gemacht haben.
  • Also versuchen Sie es bitte mal, sich mit den Hauptgütekriterien diesem Haarlängen-Intelligenztest des Tollwut-Gauglers anzunähern.
  • Fangen Sie einfach da an, wo man normalerweise anfängt.

Wo macht man das bei der Überprüfung?

  • Bitte schön.

Sie sind gerade so schön in Fahrt, darf ich Sie jetzt unterbrechen?

  • Weil ich möchte es nochmal für alle sagen, weil das ist wichtig.
  • Das heißt, Ihre Kommilitonin hat gerade gesagt, dieser Haarlängen-Intelligenztest ist objektiv.
  • Sie hat auch gesagt, dieser Haarlängen-Intelligenztest ist reliabel.

Was löst das in Ihnen aus?

Stimmt das oder stimmt das nicht?

  • Ich sehe ein zustimmendes Nicken von Ihnen.
  • Der nimmt hier so ein Zollstock her.
  • Ist objektiv, okay.

Damit sind Sie einverstanden?

Reliabel sind Sie?

  • sind sie auch einverstanden.
  • Okay, das heißt, wir stellen fest, ein Scharlatan behauptet Blödsinn und Sie überprüfen mit den Hauptkriterien und stellen fest, ups, der Test von dem ist objektiv und der Test von dem ist auch reliabel und offensichtlich ist es trotzdem Blödsinn.
  • Das heißt, jetzt möchte ich Sie wieder gerne hören, weil Sie den Punkt gebracht haben.

Wie sieht es mit der Validität aus?

  • Ja, also da weiß man eigentlich, oder beziehungsweise es ist eigentlich das Konstrukt der Älteren.
  • Offensichtlich misst Haarlänge eben nicht das, was, also der Haarlänge-Intelligenztest postuliert ja, er misst die Intelligenz jetzt vom weiblichen Geschlecht auch noch.
  • Das vermag er offensichtlich nicht zu tun, man kann das widerlegen in der Art und Weise, wie Sie es gesagt haben.
  • Aber offensichtlich hat dieser Scharlatan, hat es geschafft, zumindest einen objektiven und einen reliablen Test auf den Markt zu werfen.
  • der aber trotzdem nichts taugt.

Was ist die Moral von der Geschichte?

  • Ich habe Ihnen das deshalb genannt, weil ich Ihnen noch mal verdeutlichen möchte, Objektivität und Reliabilität an sich sind schön und gut, aber wenn Validität nicht gegeben ist, können Sie den Test getrost in die Ablage P werfen.
  • Also Papierkorb.
  • Und das andere ist, im wissenschaftlichen Bereich wird häufig mit hohen Reliabilitäten geprotzt.
  • Unsere Reliabilität bei dem Test war Punkt 90 im Persönlichkeitsbereich und wir sind furchtbar stolz darauf und hoffen, dass wir diese Erkenntnisse hochrangig publizieren können.
  • Das ist der Klassiker in der Wissenschaft.
  • Und ich möchte Sie dazu animieren, okay, die Reliabilität ist vielleicht die halbe Wegstrecke, aber wenn die Validität nicht gegeben ist, dann ist es alles Banane.

Okay?

  • Das heißt, man kann mit relativ bescheidenen Mitteln recht hohe Reliabilität erzielen.

Aber Sie erinnern sich an die Validität, wenn Testtheorie eine Religion wäre?

Erinnern Sie sich?

  • Wenn nicht, dann sage ich es Ihnen später nochmal.
  • Aber diejenigen unter Ihnen, die darauf kommen, die erinnern sich.
  • Gut.
  • Okay.
  • Reliabilität in der klassischen Testtheorie, der hatten wir uns ja auch schon angenähert.
  • In der klassischen Testtheorie wird die Annahme gemacht, dass sich der wahre Wert T zwischen zwei Messungen nicht verändert.
  • Allgemein wird unter der Reliabilität der Anteil der wahren Varianz an der beobachteten, das heißt also Gesamtvarianz, verstanden.
  • Die beobachtete Varianz und die Gesamtvarianz ist das Gleiche.
  • Das ist noch wichtig, damit Sie den Bruch verstehen.
  • Wahre Varianz durch Gesamtvarianz.
  • Ein guter Test im Persönlichkeitsbereich sollte eine Reliabilität über Punkt 80 aufweisen, das heißt nichts anderes als 80 Prozent der Merkmalsvarianz lassen sich auf den wahren Wert zurückführen.
  • Im Intelligenzbereich hätte man gerne Reliabilität von Punkt 90.
  • Sie erinnern sich ja, Intelligenz war sozusagen eine andere Baustelle, das ist der Leistungsbereich.
  • zu unterscheiden von Persönlichkeitsbereich im engeren Sinne und Reliabilität über Punkt 90 gelten als hoch im Persönlichkeitsbereich als eher als Wunschkriterium im Leistungsbereich.
  • Das ist noch wichtig, Reliabilität ist stichprobenabhängig in der klassischen Testtheorie.
  • Also wenn sie Wenn Sie eine andere Stichprobe hernehmen oder zum Beispiel eine nicht repräsentative Stichprobe ziehen, um Ihren Persönlichkeitstest zu normieren, dann bekommen Sie potenziell andere Reliabilitätsindizes raus, wenn Sie es mit SPSS berechnen, als wenn Sie eine andere Stichprobe genommen hätten.
  • Das liegt daran, dass die Ergebnisse, das heißt auch die Gütekriterien, nach der klassischen Testtheorie Populations-, also Stichproben, abhängig sind.
  • Jetzt ist ein Punkt, der ein bisschen schwierig zu verstehen ist.
  • Vielleicht, vielleicht, wir werden es überprüfen.
  • Bei homogeneren Teilpopulationen wird die Reliabilität kleiner.

Worauf ist das zurückzuführen?

Können Sie diese Argumentationskette versuchen?

Warum ist das potenziell so?

  • Bitte schön.
  • Vielleicht, weil ähnliche Verwerte angeprüft werden.
  • Okay, ja, ist richtig.
  • Versuchen wir es noch ein bisschen aufzudröseln.
  • Homogenere Teilpopulationen heißt nichts anderes, als dass die Leute sich ähnlicher sind.

Das wollten Sie sagen, ne?

Wenn die Leute ähnlicher sind, sinkt welcher diskreptiv-statistische Wert?

Ja, Sie?

  • Die Varianz sinkt, genau.
  • Varianz sinkt, Spannweite sinkt, genau, alles richtig.

Wenn ich jetzt weniger Varianz da habe, heißt das für, wenn ich Korrelationen berechne, was?

Wenn die Varianz kleiner wird, was passiert mit den Korrelationen?

Gehen die runter oder rauf?

Nochmal denken, die gehen runter.

  • Wenn die Varianz kleiner wird, sinken die Korrelationen.
  • Ich sage Ihnen ein Beispiel, das ist ein wichtiger Zusammenhang, der hat auch mit Faktorenanalysen zu tun.
  • Es gab einen Intelligenzforscher, der hieß Guilford und der war noch angestellter Forscher bei der US-Armee.
  • Er hat gewirkt vor ungefähr 30, 40 Jahren.
  • Und der Guilford hat es dann so gemacht, das ist ja ein Traum, wenn Sie bei der Armee arbeiten und die Unterstützung von den oberen Führungskräften haben, dann können Sie nämlich Versuchspersonen abkommandieren lassen und sagen, hier Jungs, füllt das mal aus hier.
  • Ich habe mir einen schönen Fragebogen überlegt, ihr macht das jetzt mal.
  • Das heißt, das ist traumhaft, sonst müssen Sie immer um Versuchspersonen betteln oder denen was zahlen und der sagt, einer stellt sich mit dem General gut und dann kommen die mal einen Tag und füllen seine Bögen aus.
  • Die Soldaten, die Soldaten der US-Armee dann.
  • Also man darf davon ausgehen, Soldaten der US-Armee sind eine homogenere Teilpopulation als die amerikanische Durchschnittsbevölkerung.
  • Insbesondere wenn Sie jetzt noch sagen, das sind Mannschaftsdienstgrade.
  • Also Mannschaftsdienstgrade sind so die Leute, die nicht viel zu sagen haben in der Armee.

Sagt Ihnen das was?

  • Also es gibt Mannschaftsdienstgrade Unteroffiziere, Offiziere.
  • Und Offiziere sind in der Regel dann natürlich besser gebildet als die anderen Laufbahnschichten.
  • Aber sagen wir, das sind Mannschaftsdienst gerade gewesen.
  • Also ganz normale, einfache Leute.
  • Wenn Sie die also abkommandieren, lassen die Intelligenztest machen.
  • Die sind sich ähnlicher, das heißt, die haben weniger Varianz in den Daten.
  • Aufgrund dessen, dass sie weniger Varianz in den Daten haben, haben sie geringere Korrelationen, weil Korrelationen sind immer varianzabhängig.
  • haben Sie geringere Korrelationen.
  • Und wenn Sie dann mit den Daten eine Faktorenanalyse machen, kommen dann mehr oder weniger Faktoren raus.

Und wenn die Korrelationen in dem Datensatz gering sind, brauche ich dann mehr Faktoren, um die Varianz aufzuklären, oder weniger Faktoren?

  • Sie brauchen mehr Faktoren, exakt.
  • Und siehe da, die Intelligenzmodelle, die Herr Gilford herausgefunden hat, weisen die meisten Faktoren auf, in der ganzen Intelligenzforschungsgeschichte.
  • Da sehen Sie, das ist ein Beispiel, Ergebnisse, Forschungsergebnisse und damit auch manchmal theoretische Modelle, die darauf fußen, sind stichprobenabhängig.
  • Okay, wir können, machen wir nochmal den Umkehrschluss, weil diese Argumentationskette mir wichtig ist.
  • Sie haben eine heterogene Population, das heißt, die Leute unterscheiden sich sehr stark, das heißt, es ist viel Varianz in den Daten, das heißt, die Korrelationen zwischen den Daten sind hoch, Und wenn ich dann eine Faktorenanalyse drüber laufen lasse, brauche ich weniger Faktoren, um die Varianz aufzuklären, als wenn ich eine heterogene Population hätte, eine homogene Population hätte.
  • Also homogene Population heißt, die Leute sind sich ähnlich, heißt, ich brauche viele Faktoren, um die Varianz aufzuklären.
  • Heterogene Population heißt, die Leute sind sehr verschieden, es ist viel Varianz im Datensatz, das heißt, ich brauche eher weniger Faktoren, um die Varianz aufzuklären.

Bitteschön.

  • Ja, bitte.

Was die Faktoranalyse prinzipiell macht, ist Ihnen geläufig?

Oder ist das für Sie ein ganz neues Thema?

  • Die Faktoranalyse versucht, Datenreduktion zu betreiben.
  • Das heißt, große Mengen von Daten verdichtend auf die wesentlichen Dimensionen zu reduzieren.
  • Und das geht dann besser, wenn in den Daten Zusammenhänge drin sind.
  • Wenn hohe Korrelationen in den Daten drin sind, fällt es der Faktorenanalyse leichter, diese zusammenhängenden Merkmale auf einen Faktor zu packen.
  • Dann brauchen Sie mehr Faktoren, um die gleiche Varianz aufzuklären.
  • Genau das ist der Punkt.
  • Wenn empirische Zusammenhänge in dem Datensatz drinstecken, ist es für die Faktorenanalyse leicht, die rauszuziehen.
  • Und wenn wenige Zusammenhänge drin sind, dann braucht man mehr Faktoren, um die gleiche Varianz aufzuklären.

Ist das verständlich?

  • So, okay.
  • Bitteschön.
  • Korrelationen sind varianzabhängig und das Potenzial ist, wenn eine heterogene Stichprobe gegeben ist, ist viel Varianz drin und viel Varianz ist eine notwendige Voraussetzung dafür, dass hohe Korrelationen worden sind.

Bei heterogenen?

  • Wenn die heterogen sind, unterscheiden sie sich stark.
  • Und stark unterschiedlich heißt, viel Varianz.
  • Okay, wir müssen es jetzt nicht bis zum Hauptstudiumsmethodenniveau treiben, aber ich glaube, die meisten von Ihnen haben zum jetzigen Zeitpunkt schon verinnerlicht, dass es diese Kette gibt.
  • Und die anderen möchte ich bitten, lasst es nochmal sacken und fragen gegebenenfalls in der nächsten Stunde nochmal nach, wenn Sie schon eine spezifische Frage dazu haben.

Deshalb wird auch die Reliabilität kleiner, wenn man homogenere Teilpopulationen hernimmt.

  • Ich habe das eben noch um den Punkt Faktorenanalyse erweitert, um den Brückenschlag zur US-Army und dem Intelligenzforschungsmodell vom Herrn Gill vorzubringen.
  • Das heißt, die Reliabilität gibt an, wie gut ein Test in einer Bezugspopulation, er ist ja stichprobenabhängig, deswegen in einer Bezugspopulation zu differenzieren vermag.
  • Und das ist eine der beliebtesten Folien bei mir in der Vorlesung Testtheorie gewesen, weil das so eine Art Kochrezept darstellt.

Wie lässt sich die Reliabilität nun erhöhen?

  • Weil danach streben wir ja.
  • Und da gibt es im Wesentlichen vier Wege, die Sie beschreiten können, um die Reliabilität eines Tests zu erhöhen.
  • Sie können die Testlänge erhöhen.
  • Da erinnern Sie sich an die Spearman-Brown-Prophecy-Formel, die Ihnen gesagt hat, wenn ich meinen Test um die Zahl X oder mit dem Faktor X erweitere oder verkürze, was wird vermutlich mit der Reliabilität passieren.
  • Darüber haben wir letztes Mal gesprochen.
  • Ich kann den Test sehr stark verlängern.
  • In der Regel führt das zu einem Zuwachs an Reliabilität üblicherweise, aber wenn ich es zu weit treibe, kommt es zu Durchführungseinschränkungen und die Testökonomie als Nebengüte-Kriterium ist bedroht und die Zumutbarkeit, also die subjektive Neigung ihrer Versuchspersonen, sich das gefallen zu lassen, wird auch abhängen.
  • Also auch da gibt es wieder einen Trade-Off.
  • Wir müssen häufig in der Diagnostik mit diesen Trade-Offs leben.
  • Versuchen, gute Kompromisse zu finden zwischen Testlänge und Ökonomie zum Beispiel.
  • Ich kann homogenere Test-Items verwenden, das ist der nächste Weg.
  • Damit reduzieren sich aber auch die Aspekte, wenn der Test erfasst.
  • Das heißt, ich kann das Konstrukt kleiner machen.
  • Dann brauche ich weniger Items, um das kleine Konstrukt reliabel zu messen, aber ich habe natürlich auch ein kleineres Konstrukt.

Ich kann Items mittleren Schwierigkeitsgrads wählen.

  • Wir hatten ja gesagt, es gibt Item-Schwierigkeiten, die variieren zwischen 0 und 1.
  • Und üblicherweise, das hat sich gezeigt, das ist eigentlich ein sehr robuster Befund, Items mit mittlerer Schwierigkeit, also einer Schwierigkeit von ungefähr Punkt 50, differenzieren am besten.
  • Und dadurch erhöht sich auch die Trendschärfe, über die wir beim letzten Mal auch gesprochen haben.
  • Der Nachteil dabei ist, wenn ich nur Items mittlerer Schwierigkeit habe, das heißt zum Beispiel, dann hätte ich nur Intelligenztestaufgaben, die differenzieren im IQ-Bereich um 100 herum.
  • Die können dann nur sagen, ist derjenige vermutlich über 100 oder unter 100, aber die können nicht mehr differenzieren im 80-90-Bereich und die können nicht differenzieren im 110er-120er-Bereich.
  • Das heißt, um das breite Spektrum an kognitiver Leistungsfähigkeit abzutesten, brauche ich Items unterschiedlichster Schwierigkeiten.
  • Leichte Items, mittelschwere und schwere.
  • Aber, und das ist der Punkt hier, wenn Sie mittelschwere nehmen, erhöht das in der Regel die Reliabilität.
  • Trotzdem dürfen Sie das auch wieder nicht zu weit treiben, weil Sie dann nicht differenzieren können an den niedrigen und hohen Leistungsbereichen.
  • Also auch da wieder ein Trade-off, wieder eine weise Entscheidung, Kompromiss ist gefordert.
  • Und was ich natürlich sowieso machen kann, ist die Objektivität steigern, falls das noch geht.
  • Das sind vier klassische Wege zu höherer Reliabilität.
  • So, die Folie möchte ich überspringen.

An die erinnern Sie sich?

  • Die haben wir schon besprochen beim letzten Mal.
  • Die Berechnung der Spearman-Brown-Formel schauen wir uns auch nicht in Detail an.
  • Das ist im Moment für Sie nice to know.
  • aber nicht essentiell.
  • Das heißt, wir sind so frei und schauen uns jetzt die verschiedenen Formen der Reliabilitätsschätzung an.
  • Wir sind also auf Folie 73 gelandet.
  • Ich habe übrigens mit Erschrecken festgestellt, dass wir gar nicht mehr so viele inhaltliche Sitzungen haben werden.
  • Aufgrund dessen, dass zwei Termine feiertagsbedingt ausgefallen sind und die Klausur der Nebenfächer vorgezogen wird, haben wir nur noch fünf oder sechs inhaltliche Sitzungen.
  • Das heißt, ich werde versuchen, das Allerwesentlichste in dieser Vorlesung unterzubringen, aber wir werden vermutlich nicht das ganze Spektrum des Asenbauchs schaffen.
  • Das ist aus zeitlichen Gründen.
  • Ich denke, das Buch bietet so viel Stoff, dass man locker zwei Semester damit füllen kann.
  • Gut.
  • Aber das Wesentliche werden wir hier besprechen.
  • Ich möchte, dass Sie am Ende, wenn Sie die Klausur hinter sich haben, dass Sie das Gefühl haben, Mensch, Persönlichkeitspsychologie, da habe ich ein gesichertes Grundwissen, mit dem ich arbeiten kann.
  • Und das ist eine gute Grundlage fürs Hauptstudium.
  • Das werden wir in dieser Vorlesung erreichen.
  • Darauf werde ich hinarbeiten mit Ihnen.
  • Gut, wir haben bisher immer von der Reliabilität gesprochen, aber die Reliabilität in dieser Form gibt es nicht.
  • Es gibt verschiedene Möglichkeiten der Reliabilitätsschätzung.
  • Das sind ja wieder Schätzungen, die innerhalb der klassischen Testtheorie wiederum populations- und stichprobenabhängig sind.

Das heißt, welche vier verschiedenen Möglichkeiten gibt es, die Reliabilität zu bestimmen?

  • Naja gut, ich kann den Test wiederholen lassen.
  • Wenn ich es englisch ausdrücken will, würde ich sagen Retestmethode.
  • Es gibt die Paralleltestmethode, die Testhalbierungsmethode und die Konsistenzanalyse.
  • Wir haben über die Testwiederholungsmethode schon gesprochen, noch mal kurz.

Retestreliabilität, was ist der Sinn dahinter?

  • Vorgehen zwei gleiche Tests werden denselben Versuchspersonen, das ist wichtig, denselben Versuchspersonen natürlich, sonst funktioniert es nicht, zu mindestens zwei verschiedenen Zeitpunkten vorgegeben und dann wird die Retest-Reliabilität einfach durch die Korrelation zwischen erster und zweiter Messung bei den Testergebnissen der Probanden bestimmt.
  • Okay, soweit so gut.

Wann kann man das jetzt sinnvollerweise anwenden?

  • Wenn Wiederholungseffekte nicht zu erwarten sind, Also Problemeinsicht würde das zum Beispiel ausschließen, hatten wir schon darüber gesprochen.
  • Wenn zwischen beiden Messungen ein größeres Zeitintervall liegt, dass man Erinnerungseffekte möglichst ausschließen kann.
  • Und wenn der Test beansprucht, zeitlich stabile Merkmale zu erfassen.
  • Also ein Retest Reliabilität würde sich nicht anbieten, wenn Sie im Testkonzipieren der Stimmungen messen sollen.
  • Ist klar, Stimmungen sind ein flüchtiges Phänomen.
  • Da wäre das keine sinnvolle Art und Weise, die Reliabilität Ihres Stimmungstests zu konzipieren.
  • Das Ganze hat wie fast alles auf der Welt Vorteile und Nachteile.
  • Die Nachteile sind folgendermaßen.
  • Überschätzung der Reliabilität, wenn die Lösungen erinnert werden, weil das ja eine höhere Ähnlichkeit erzeugt, wenn Erinnerungen da sind.
  • Klar, keine Anwendung bei instabilen Merkmalen.
  • Ist ein relativ großer untersuchungstechnischer Aufwand.
  • Das heißt, wenn Sie eine Diplomarbeit machen, ist es bei den meisten Studierenden äußerst unbeliebt, wenn man eine Messwiederholung machen muss.
  • weil die Personen, die sie zum ersten Mal hatten, in der Regel nicht vollzählig wieder zum zweiten Messzeitpunkt wiederkommen und sie die dann für die Messung verlieren.
  • Also das ist ja im Prinzip längsschnittliche Denke und über die hatten wir auch schon gesprochen, über die vielen Vorteile, die damit einhergehen, aber auch die pragmatischen Probleme, das zu bewerkstelligen.
  • Gut, das heißt, die Reliabilität nach der Re-Test-Reliabilitätsart berechnet sich hier als Korrelation zweier Testdurchgänge mit den gleichen Personen.
  • Einfach so dargestellt, die Reliabilität ist nichts anderes als die Korrelation klein r von x1 und x2 und die stehen halt für die Messwerte einer Person bei der ersten und zweiten Messung.
  • Sehen Sie, da kommt das wieder rein, dass ich gesagt habe, mit der Korrelation sollten Sie sich anfreunden, weil die in der Persönlichkeitspsychologie, Testtheorie, Testdiagnostik ist es der Klassiker.
  • Es kommt so, so häufig Also ein gesichertes Verständnis von dem, was eine Korrelation ist, bringt Sie sehr viel weiter.
  • Paralleltest-Reliabilität.
  • Vorgehen hier ist offensichtlich ein anderes.
  • In derselben Stichprobe werden nach einer kurzen Intervallzeit zwei streng äquivalente Formen eines Tests nacheinander durchgeführt.

Was ist jetzt ein paralleler Test?

  • Ein paralleler Test ist gegeben, wenn Mittelwerte und Standardabweichungen des Tests, also der beiden Testformen, die nennt man dann häufig Form A und B, wenn die Mittelwerte und Standardabweichungen identisch sind, sowie die Korrelationen zwischen der Testform A und der Testform B hoch sind.
  • Wenn das nämlich gegeben ist, erfassen beide Tests mit hoher Wahrscheinlichkeit ein und dasselbe Konstrukt.
  • Je höher die Ergebnisse beider Tests miteinander korrelieren, umso weniger Fehlereffekte liegen vor.
  • Die ermittelten Koeffizienten liegen meist unter denen der Re-Test Reliabilität.

Ja?

Ja, bestimmt denn das auch die Ergebnisse bei den Tests, dass diese dann auch wieder eine Reliabilität haben, dass die auch wirklich ähnlich sind, oder?

  • Sie dürfen davon ausgehen, wenn Sie Paralleltestformen entwickeln wollen, Und Sie schaffen das, diese Kriterien zu erfüllen, ähnliche Mittelwerte und Standardabweichungen sowie eine hohe Korrelation zwischen Testform A und B, dann messen die dasselbe.
  • Das ist durch die Korrelation impliziert.
  • Nur ist es…
  • Also Sie müssen ja irgendwo mal anfangen und Sie stellen sich vor, Sie wollen, also warum man gelegentlich Parallelformen nutzt, ist damit die Leute nicht abschreiben.

Okay?

  • Das kennen Sie schon von Klausuren her, ist im Prinzip dieselbe Idee.
  • Jetzt gibt es Pseudoparallelformen.
  • Eine Pseudoparallelform ist einfach, wenn ich dieselben Klausuraufgaben an Sie, zum Beispiel, also angenommen es gäbe eine Klausurform A und eine Klausurform B und ich möchte nicht, dass Sie ein voneinander abschreiben können, weil wir nicht genug Platz haben, alle Leute auseinanderzusetzen.
  • Okay, das wäre ein Beispiel.
  • Dann würde ich, wenn ich eine Pseudoparallelklausurform hätte, dann hätte ich dieselben Fragen in der Form A und B, nur in einer anderen Reihenfolge.
  • Das heißt, es sieht nur so aus, als wären das verschiedene Tests.
  • Aber es ist zum Beispiel nicht möglich zu gucken, mein Nachbar, was hat der bei Aufgabe 1, weil bei Aufgabe 1 ist bei Ihnen Aufgabe 5 zum Beispiel.
  • Das wären Pseudoparallelformen.
  • Pseudo deshalb, weil eine Parallelform im Prinzip aussagt, ich habe zwei verschiedene Klausuraufgaben oder zwei verschiedene Persönlichkeitstests, also mit verschiedenen Items, die aber trotzdem dasselbe messen.
  • Und wenn Sie jetzt anfangen und sowas konstruieren, dann müssen Sie ja erstmal eine ganze Menge Items sammeln.
  • Also um ein Konstrukt der Persönlichkeit, zum Beispiel einen Big Five Faktor, einigermaßen reliabel zu messen, brauchen Sie 10 bis 13 Items.
  • Und wenn Sie das für Form A und Form B haben wollen, dann brauchen Sie ja 26 Items, um zum Beispiel extra Versionen zu messen.
  • Und die müssen alle gleich gut sein.
  • Das heißt, dann haben Sie 2 mal 13 und dann können Sie gucken, ob die entsprechend korrespondieren.
  • Okay, das ist die Idee eines Paralleltests.
  • Also verschiedene Items oder verschiedene Aufgaben in der Klausur, die aber trotzdem dasselbe messen.
  • Und das zu finden ist gar nicht so leicht.
  • Deswegen ist die Paralleltest-Reliabilität in der Regel niedriger als die Retest-Reliabilität, wo ich ja auf dasselbe Item-Material zu einem späteren Zeitpunkt nochmal zurückgreife.

Gut, wann wende ich das an?

  • Bei instabilen Merkmalen, ich kann die ja hintereinander machen, die Tests, ganz kurz, weil es gibt ja keine Erinnerungseffekte, weil die Items ja verschieden sind.
  • Das war ja der Gag.
  • Und wenn ohnehin zwei Testversionen entwickelt werden sollen, zum Beispiel bei Gruppentestungen wegen der Abschreibegefahr.
  • Vorteil, das Ganze wird als der Königsweg der Reliabilitätsbestimmung bezeichnet, weil ein Test auf diese Art und Weise praktisch mit sich selbst verglichen werden kann, ohne dass Erinnerungseffekte auftreten.
  • Ein besonders eleganter Nebeneffekt.
  • Der Trick dabei ist also, dass man eine Quasi-Messwiederholung hat, ohne Transfereffekte.
  • Transfer gibt es deshalb nicht, weil die Items ja verschieden sind in Form A und B.
  • Probleme dabei, hoher Konstruktionsaufwand, klar, müssen Sie erstmal schaffen, verschiedene Items zu finden, die wirklich exakt dasselbe messen.
  • Manchmal gibt es auch Items, die nicht parallelisiert werden können, das ist schwierig.
  • Voraussetzungen für Parallelität im strengen Sinne Mittelwerte und Standarderweichungen sind identisch in Form A und B und die Korrelation zwischen Form A und Form B ist annähernd 1.
  • Sehr schwer zu erzielen.
  • Gut, RETEST Entschuldigung, Paralleltest Reliabilität wird also folgendermaßen bestimmt.
  • Als Korrelation der Messwerte der jeweils gleichen Person in beiden Paralleltests Also Ulf und Uschi füllen beide Paralleltests Form A und Form B aus und die Ergebnisse werden dann korreliert.
  • Ich denke, das spricht für sich, wie das hier, das ist einfach zu verstehen.
  • Einfacher können Gleichungen ja kaum sein.
  • Gut.
  • Testhaltierung ist ein anderer Weg, um Reliabilität zu schätzen.

Wie geht man dabei vor?

  • Sie hatten sowohl bei Retest als bei Paralleltest immer die Erfordernis von zwei Testungen.
  • Bei Testhalbierung brauchen Sie nur einmal testen.
  • Hier ist das Vorgehen also folgendermaßen.
  • Ein Test wird nur einmal vorgegeben und danach in zwei gleichwertige Hälften aufgeteilt.

Vorteil, ich habe wirklich nur einen Messzeitpunkt.

  • Jetzt kann man sich natürlich darum streiten, wie man den bestehenden Test dann in zwei Hälften aufteilt, nach welcher Methode.
  • Da gibt es zum Beispiel die odd-even Methode, das heißt nichts anderes als gerade und ungerade.
  • Die geraden Items innerhalb der Nummerierung in die eine Testhälfte, die ungeradzahligen Items in die andere Testhälfte.
  • Und schon habe ich eine Methode, um den Test zu halbieren.
  • Es gibt andere Aufteilungsmöglichkeiten, zum Beispiel die Halbierung in erste und zweite Testhälfte.
  • Geht auch.
  • Auswahl per Zufall.
  • Geht auch.

Randomisiert, ne?

  • oder Trennung auf der Basis von Analysedaten unter Berücksichtigung der Itemschwierigkeiten und der Trennschärfen der Items.
  • Die letzte ist die eleganteste.
  • Also das sind die vier gängigen Möglichkeiten, wie ich den Test halbieren kann.
  • Das brauche ich ja hierzu, um diese Testhalbierungsreliabilität bestimmen zu können.
  • Dann wird, wenn ich die beiden Hälften künstlich erstellt habe, jede Hälfte als quasi-paralleler Teiltest zur anderen Hälfte aufgefasst.
  • Und auch wiederum werden dann die Ergebnisse der beiden Testhälften, die die Probanden da jeweils erzielt haben, miteinander korreliert.
  • Und so komme ich auf den Testhalbierungskoeffizienten.
  • Und der ist jetzt, und da ist eine Brücke zur Spearman-Brown-Formel, über die wir gesprochen haben, also über diese Prophecy-Formel, der Testhalbierungskoeffizient unterschätzt jetzt die Reliabilität.
  • Und das liegt daran, da die Reliabilität mit der Anzahl der Items zunimmt und Sie haben sich ja gerade erlaubt, den Test zu halbieren.
  • Und wenn Sie eine Testhalbierung vornehmen, dann dürfen Sie davon ausgehen, dass die Reliabilität stark sinkt.
  • Und aufgrund der schönen Spearman-Brown-Prophecy-Formel können Sie es aber jetzt wieder hochrechnen.
  • Wozu sagen, was Sie jetzt unterschätzen an Reliabilität aufgrund dessen, dass Sie den Test halbiert haben, das können Sie korrigieren mit der Spearman-Brown-Formel und so mit der Spearman-Brown-Formel den Test auf die Gesamtlänge hochrechnen.
  • Wichtig auch für die Klausur, da dies oft vergessen wird, das bezieht sich jetzt nicht auf Ihre Klausur, sondern das ist der klassische Fehler, der gemacht wird, wenn es dann darum geht, in der Testtheorie das zu berechnen, dass man einfach den Test halbiert, die Korrelation berechnet und denkt, ja, Korrelation Punkt 50, also Testhalbierungsreliabilität Punkt 50 ist grottenschlecht, aber wenn man es nicht verstanden hat, dann vergisst man das aufzuwerten.
  • mit Spearman Brown.
  • Das ist nicht nur ein Flüchtigkeitsfehler, sondern das ist dann so eine geringe Reliabilität, dass derjenige aufmerksam werden müsste und denkt, oh, hier kann was nicht stimmen.
  • Das ist ein Beispiel dafür, dass man sehr davon profitiert, wenn man die Inhalte verstanden hat, dann fallen einem diese Dinge auf.
  • Es gibt Personen, ich hoffe nicht unter Ihnen, die das so nach Schema F auswendig lernen und die kommen dann da nicht drauf.
  • Das ist schade.
  • Das heißt, konkret wird dann folgendermaßen vorgegangen.
  • Man berechnet die Korrelation, wertet das dann mit dieser Spearman-Brown-Formel auf und erhält dann eine vernünftige Schätzung der Reliabilität nach der Testhalbierungsmethode.

Gut, wann wenden wir das an?

  • Wenn die obigen Reliabilitätsbestimmungen nicht durchgeführt werden können, d.h.
  • wenn Testwiederholungen und Paralleltests nicht infrage kommen, z.B.
  • deshalb, dass ich nur eine einzige Messung habe, dann ist das eine Methode, die ich hier anwenden kann, Testhalbierung.
  • Vorteile, geringer untersuchungstechnischer Aufwand, wie gesagt nur ein Messzeitpunkt.
  • Motivationsstimmungs- und Aufmerksamkeitsschwankungen können als Varianzquelle praktisch ausgeschlossen werden, sodass die instrumentelle Messgenauigkeit hier am besten bestimmt werden kann.
  • Gut.
  • Kommen wir zur internen Konsistenz als nächste Methode.
  • Also Sie erinnern sich, es synonym zu betrachten mit Kronbachs Alpha oder mit innerer Konsistenz oder Konsistenzanalyse.
  • Verschiedene Begriffe für einen dasselbe.
  • Das Ganze ist jetzt, das ist noch ein bisschen komplizierter zu verstehen als die anderen Methoden, über die wir gesprochen haben.
  • Hier wird folgendermaßen vorgegangen, das heißt, es ist eine logische Erweiterung oder Allgemeinerung der Testhalbierungsmethode, wobei hier jedes Item als ein Paralleltest behandelt wird.
  • Das heißt, hier wird der Test nicht in zwei Hälften geteilt, also die Extraversionsskala mit 20 Items wird nicht in zwei mal zehn Item-Skalen geteilt, sondern hier wird die Testskala geteilt in so viele Teile, wie sie Items hat.
  • Das heißt, beispielsweise die 13-Items-umfassende Extraversionsskala wird in 13 Teile gesplittet.
  • Jedes Item für sich.
  • Und die Analyse erfolgt analog zur Bestimmung der Split-Half-Variabilität, das ist das englische Fremdwort für Test-Halbierungs-Variabilität.
  • Nur, dass hier der Test nicht in zwei Teile, sondern in so viele Teile, wie der Test-Items hat, zerlegt wird.
  • Die Analyse liefert dann einen mittleren Split-Half-Koeffizienten.
  • Das ist die Idee bei Chromas Alpha.
  • Wie man es jetzt berechnet, überspringen wir hier.
  • Wichtig ist, bei heterogenen Tests unterschätzt Cronbachs Alpha jedoch die Reliabilität und wird daher auch als Homogenitätsindex bezeichnet.

Was bedeutet das?

  • Es gibt Testverfahren, die nicht darauf getrimmt sind, homogen mit einem Satz von Items ein Konstrukt zu messen.
  • Das ist eine Ausnahme.
  • Die Testverfahren, die Sie zum Beispiel in meinem Seminar kennenlernen, falls Sie das besuchen, sind fast ausnahmslos homogene Tests, wo man versucht für ein Konstrukt, zum Beispiel extra Version 10 bis 13, gute, charakteristische, homogene Items zu finden.
  • Wenn ich das machen möchte, ist Chrombachs Alpha, da es ja ein Homogenitätsindex ist, wie Sie gerade erfahren haben, geeignet.
  • Wenn die Items aber heterogen sind, also aufgrund von nicht näher bezeichneten Merkmalen zu einer Skala zusammengefasst werden.
  • Ich nenne Ihnen gleich ein Gagbeispiel aus der Psychiatrie der 50er Jahre.
  • Dann funktioniert das nicht.
  • Also, die Testkonstruktionsverfahren, die Sie kennen, basieren auf homogenen Items.
  • Bei Extraversion zum Beispiel, ich gehe gerne unter Leute, ich gehe gerne auf Partys.
  • Ich bin grundsätzlich guter Laune.
  • Diese Items messen homogen das Konstrukt Extraversion.
  • Man kann aber auch Items zu Skalen kombinieren.
  • Wie gesagt, es ist eine Ausnahme, ist nice to know, aber ich möchte es Ihnen sagen deshalb, weil es im Hauptstudium garantiert wieder kommt.
  • Es gab früher eine Frage in einem bekannten amerikanischen klinischen Persönlichkeitstest, der heißt Minnesota Multiphysic Personality Inventory, abgekürzt MMPI.
  • Da kann man nur mit Ja oder Nein antworten in dem Test.
  • Da lautete die Frage, ich trage gerne gelbe Jacken.
  • Ich wiederhole gerne, weil ich in ungläubige Gesichter schaue, ich trage gerne gelbe Jacken, Ja oder Nein.
  • ist ein Item.
  • Man hat herausgefunden, in US-Amerika, bei der Stichprobe, wo man das damals erhoben hat, war es so, dass Schizophrene signifikant häufiger gerne gelbe Jacken tragen als Nichtschizophrene.
  • Ja, also wenn Sie da damals angekreuzt hätten, Sie tragen gerne gelbe Jacken, hätten Sie sich schon mal zumindest einen Verdachtsmoment zugezogen.

Was ist der Sinn dieser Sache?

Was hat das mit meinen Ausführungen zu tun?

  • Da zur Schizophrenie-Verdachtsdiagnose in diesem Test in der damaligen Form, die heutige Version, enthält dieses Item nicht mehr.
  • wurden diese Items herangezogen, ich trage gerne gelbe Jacken oder ich denke, ich wäre eine andere Person.
  • Auf jeden Fall werden Items hergenommen, die scheinbar nichts miteinander zu tun haben und die auch nicht korrelieren und trotzdem in irgendeiner Form was potenziell mit Schizophrenie zu tun haben.
  • Das heißt, diese Items, nach der Logik des MMPI, wären eine heterogene Skala.
  • Und bei einer heterogenen Skala kann ich eben zur Reliabilitätsschätzung nicht gut Cronbachs Alpha hernehmen, weil es ja ein Homogenitätsindex ist.
  • Aber der Klassiker, mit dem wir arbeiten, sind homogene Skalen.
  • Es geht ja bei der Darstellung der Reliabilitätsschätzungsarten mir darum, Ihnen zu zeigen, zunächst welche gibt es und in welchen Fällen sind die vorteilhaft anwendbar, damit Sie ein Menü haben wie in der Mensa beispielsweise und sagen, okay, in dem Fall nehme ich das.

Das ist wichtig.

  • Und hier muss man eine ganz klare Einschränkung geben.
  • Bei Heterogen-Skalen ist Chrom-Bas-Alpha nicht der Hit.
  • Das Dumme ist, und deshalb wurde der MMPI in der damaligen Version kritisiert, die haben dann natürlich über Heterogen-Skalen das Chrom-Bas-Alpha berechnet.
  • Das war dann bei Punkt 30.

Ja, ich meine, wen wundert es?

  • Sie wissen jetzt warum.
  • Vorteil der inneren Konsistenz, es führt zu stabileren Schätzungen als die Testhalbierungsmethode.
  • Und dies ist quasi eine Verallgemeinerung der Halbierungsmethode.
  • Rein theoretisch wird hier die Testskala nur in zwei Hälften zerlegt, sondern in so viele Hälften oder Teile, wie Items vorhanden sind.
  • Berechnung schenken wir uns hier.
  • Das schenken wir uns nicht, weil das ist wichtig, eine grafische Veranschaulichung.
  • Wir haben hier acht Items in einer Testskala.
  • Wenn ich die Reliabilität schätze nach der Form der inneren Konsistenz, unter Zuhilfenahme von Chrom-Mass-Alpha, stelle ich zwischen allen Items Verbindungen her und stelle fest, wie stark dieser Verbund von Items homogen ist, wie stark die Items zusammenhängen.
  • Also Sie teilen bei Chromas Alpha den Test in so viele Teile wie Ihr Items hat und berechnen die Zusammenhänge von allen Teilen untereinander und das sieht grafisch dann eben so aus.
  • Bei der Split Half Reliabilität nehmen Sie den ursprünglich acht Items umfassenden Test und teilen den in irgendeiner Form in zwei Hälften.
  • Über die möglichen Formen haben wir gesprochen.
  • Bei der Retest Reliabilität nehmen Sie einen und denselben Test her, der acht Items umfasst, geben ihn heute beispielsweise vor und in zwei Wochen denselben Test nochmal.
  • Das finde ich eine sehr schöne grafische Veranschaulichung der Grundgedanken dieser drei Reliabilitätsformen.
  • Aber wie wir gerade an dem H-Beispiel gesehen haben, sind Objektivität und Reliabilität schön, gut und wichtig, aber ohne Validität noch nicht viel wert.
  • Deswegen schauen wir uns jetzt natürlich noch die Validität an.
  • Unter Validität versteht man den Grad der Genauigkeit, mit dem ein Test was er zu messen vorgibt oder messen soll.
  • Ist die Validität hoch, kann von Testergebnissen auf Verhalten außerhalb der Testsituation generalisiert werden.
  • Sie erinnern sich, wir können nicht mit dem Röntgenblick in den Kopf schauen, wir müssen aufgrund des Testsverhaltens, der Testergebnisse, die die Personen produzieren, rückschließen auf Merkmalsausprägungen innerhalb der Person.
  • Und das geht nur dann, wenn Validität gegeben ist.

Was hat Validität mit Religion zu tun?

  • Ich glaube, ich habe es hier schon einfließen lassen.
  • Ich bin mir nicht sicher, weil ich solche Art Veranstaltungen jetzt schon häufig gehalten habe und auch vor verschiedenen Auditorien.
  • Das heißt, ich sage es nochmal, damit es auf jeden Fall da ist.
  • Wenn, das ist ein bisschen unwissenschaftlich von mir formuliert soll, aber verdeutlichen, wie hoch der Stellenwert der Validität ist.
  • Aber wenn die Testtheorie oder wenn die Testtheorie eine Religion wäre, dann wäre die Validität das Allerheiligste.

Hatte ich es bei Ihnen schon gesagt?

  • Noch nicht, okay.
  • Also vielleicht ist es, dann ist es gut.
  • Das ist mir wichtig zu wissen.
  • Lassen Sie sich nicht von tollen Reliabilitätszahlen blenden.
  • Auch in hochrangiger Forschung ist es auch vorhanden.
  • Fragen Sie ganz kritisch, legen Sie den Finger in die Wunde und fragen Sie nach der Validität und welche Untersuchungen man da vorgenommen hat.
  • Wenn Sie ein Testverfahren konstruieren, werden Sie feststellen, an die Validitätsindizes ist es am schwierigsten zu kommen.
  • Es macht den größten Aufwand.
  • Und häufig wird dann da bei den Testautoren gespart.
  • Gut, das heißt, es ist das wichtigste Gütekriterium.
  • Denn, wie Sie wissen, ein Test kann trotz hoher Objektivität und hoher Reliabilität unbrauchbar sein, wenn er nicht das misst, was er messen soll.
  • Sie erinnern sich an das Tollwood-Beispiel.
  • Wenn wir ein nicht ganz so absurdes Beispiel nehmen wie das von Tollwood.
  • Es ist dahingehend nicht absurd, dass viele populärwissenschaftliche Tests genauso schwach sind wie dieses Gaukler-Beispiel.
  • Aber wir nehmen jetzt ein Beispiel aus der Verkehrspsychologie.
  • Zum Beispiel können Reaktionszeitmessungen am Computer in einer verkehrspsychologischen Testbatterie hochreliabel sein, aber nichts über Reaktionen im Straßenverkehr aussagen.
  • Ich weiß nicht, ob Sie sich jemals mit der medizinisch-psychologischen Untersuchung, also umgangssprachlichen Idiotentest auseinandergesetzt haben.
  • Sie wissen, dass der von Psychologen auch gemacht wird.
  • Und da geht's…
  • Also das ist eine Fahrtauglichkeitsprüfung, heißt es auch.
  • So könnte man es schlicht formulieren.
  • Und wenn Sie jetzt eine verkehrspsychologische Testsituation herstellen, indem Sie eine Person vor einen PC setzen mit so einem Lenkrad, und dann irgendwie so ein paar Straßen durchfahren, lassen das ja heute nicht mehr schwierig.
  • Heute gibt es ja noch viel aufwendigere grafische Spiele.
  • Und sie wollen testen, ob derjenige noch schnell genug reagieren kann, wenn da irgendwie ein Kind auf die Straße schießt oder es fliegt ein Ball irgendwie über eine Hecke, ob derjenige dann rechtzeitig bremst, weil wahrscheinlich das Kind dann gleich hinterhergeflitzt kommt.
  • Wenn sie das simulieren, Dann können Sie die Reaktionen, die die Person zeigt, in diesem Computerexperiment natürlich wieder objektiv und reliabel erfassen.
  • Klar, Sie können im Hintergrund eine Uhr mitlaufen lassen, im Computer.
  • Man sieht genau, wie stark der bremst, wann der bremst und so weiter.
  • Das funktioniert.
  • Aber dieser Test ist nicht aussagekräftig, wenn er nicht mit dem Verhalten der Person im Straßenverkehr, also außerhalb der Testsituation, korrespondiert.
  • Das wäre wiederum die Frage nach der Validität.
  • sind die Messergebnisse, die ich in der Testsituation am Computer habe, wirklich generalisierbar auf das wahre Leben.
  • Wenn das gegeben ist, ist die Validität ihrer verkehrspsychologischen Testbatterie gegeben und Sie können sich freuen.
  • Häufig ist das natürlich auch wieder ein Problem, genau wie bei anderen Testverfahren auch.
  • Objektivität, Reliabilität passt gerade noch so, Validität wird wieder schwierig.
  • Bitte.
  • Sie machen es so, genau nach derselben Logik, wie Sie Validierung generell machen.
  • Sie suchen ein Außenkriterium.
  • Sie messen die Person im Labor und messen sie dann im wahren Straßenverkehr, zum Beispiel mit einer präparierten Strecke.
  • Und dann schauen Sie, wie korrelieren die Testergebnisse.
  • Sie brauchen, um die Validität zu erfassen, immer Außenkriterien.
  • Und Sie erinnern sich, bei Intelligenztestverfahren war es schwierig, ein gutes Außenkriterium zu finden.
  • Dann nimmt man Schulnoten, obwohl man weiß, dass die nicht nur von Intelligenz abhängen.
  • Die Denke haben Sie verinnerlicht, okay.
  • Gut.
  • Jetzt schauen wir uns an, in Mindmap-Form, die Validitätsaspekte, da gibt es ja auch wieder verschiedene, und wie die sich unterscheiden.
  • Also wir haben hier Inhaltsvalidität, Kriteriums- und Konstruktvalidität.
  • Die sind hier farblich hervorgehoben, weil ich damit klar machen möchte, das was hier rot markiert ist, ist gleich auf der anderen Seite auch rot markiert.
  • Das soll Ihnen die Orientierung erleichtern.
  • Diese drei haben wir.
  • Gehen wir sie durch.
  • Die Inhaltsvalidität.

Inwiefern repräsentiert das Messverfahren das zu messende Unmittelbar?

Das sind alles wieder Teilfragen, misst der Test das, was er messen soll?

  • Unterfacette, Inhaltsvalidität stellt diese Subfragestellung.
  • Wir hätten wieder gerne einen numerischen Kennwert, wir haben hier aber keinen.
  • Das heißt, für diese Validitätsart, nämlich Inhaltsvalidität, existiert kein mathematisch-numerischer Kennwert.

Was möchte ich machen?

  • Auf Grundlage der Inhaltsvalidität kann ich einen Schluss auf Verhalten außerhalb des Tests machen, das dem Verhalten im Test ähnlich ist.

Okay, dieser Schluss ist erlaubt.

  • Sie wissen, bei Validität geht es immer um Schluss auf Verhalten außerhalb der Testsituation, um die Generalisierungsmöglichkeit.
  • Und hier geht es um die Facette der Generalisierungsmöglichkeit, Schlussaufverhalten außerhalb des Tests, also im wahren Leben, das dem Verhalten im Test ähnlich ist.
  • Das heißt, Inhaltsvalidität liegt vor, wenn der Inhalt der Testeitems das zu messende Konstrukt in seinen wichtigsten Aspekten erschöpfend erfasst.
  • oder wenn die Aufgaben eines Tests repräsentative Stichproben aus dem zu erfassenden Zielmerkmal selbst darstellen.
  • Das heißt, wir machen hier nichts anderes auf Grundlage der Inhaltsvalidität als den Repräsentationsschluss von Testsituation auf Realsituation.
  • Die Inhaltsvalidität ist maximal, wenn Testsituation und Kriterium vollständig und augenfällig übereinstimmen.
  • Beispiel englischer Wortschatz.
  • Ihre Aufgabe als Lehrerin ist es, den englischen Wortschatz von fünf Klässlern zu testen.

Wie gehen Sie vor bei der Auswahl Ihrer Test-Items?

  • Ich denke, es wäre ein maximal inhaltsvaliden Englisch-Test für Ihre Fünftklässler, wenn Sie alle Worte, die die Kinder bisher gelernt haben, abfragen würden.
  • Das macht natürlich keiner, weil das ein Riesenaufwand ist.
  • Das wäre aber maximal inhaltsvalide, die Note, die dann rauskommt.
  • Weil sie haben ja auf Grundlage einer Vollerhebung dann ihre Note vergeben, die das Kind dann bekommt.
  • Da das natürlich viel zu aufwendig ist, nehmen sie lieber eine repräsentative Auswahl an Wörtern, die die Kinder beispielsweise in den letzten zwei Wochen oder so gelernt haben.
  • Okay, wichtig ist aber, dass sie eine repräsentative Auswahl aus den neu zu lernenden Vokabeln rausnehmen, damit die Note, die die Kinder in dem Testverfahren kriegen, auch wirklich mit ihrer Leistungsfähigkeit hinsichtlich englischer Wortschatzkenntnisse korrespondiert.

Okay?

  • Eigentlich intuitiv klar, aber wahrscheinlich haben Sie in der systematischen Art und Weise bisher noch nicht darüber nachgedacht.
  • Kriteriumsvalidität.
  • Die gute Nachricht hier ist, es gibt einen numerischen Kennwert zur Abschätzung der Kriteriumsvalidität.
  • Und zwar so viele, wie es sinnvolle Kriterien gibt.

Okay, hier gibt es ein mögliches Problem.

  • Diese Validitätsart ist eine sehr wichtige.
  • Ich habe Ihnen auch Beispiele mitgebracht, wie die aussieht für gängige Fragestellungen in der Organisationspsychologie.
  • Diese Validitätsart kann nicht unabhängig von den Reliabilitäten von Test und Kriterium ermittelt werden.
  • Also es gibt hier, sagen wir mal noch, methodische Hürden zu überwinden, die wir hier im Rahmen dieser Vorlesung nicht vertiefen brauchen.
  • Das ist auch Hauptstudiumswissen.
  • Aber Sie nehmen Sie bitte zur Kenntnis, Kriteriumsvalidität ist praktisch extrem wichtig und es gibt numerische Kennwerte dafür.
  • Das heißt, wir können sie quantifizieren und das erlaubt uns die Einschätzung auf eine übersichtliche Art und Weise.
  • Denn die Kriteriumsvalidität ist besonders bedeutsam für praktische Anwendungen.
  • Möglichkeit zur Vorhersage, zum Beispiel der Vorhersage des Berufserfolgs als Verkäufer auf Grundlage der Kenntnis der Extraversion einer Person.
  • Das heißt, Sie können, wenn Ihr Test kriteriumsvalide ist, können Sie auf Grundlage des Tests Vorhersagen treffen, wie eine Person außerhalb der Testsituation sich verhalten wird.
  • Zum Beispiel nichts anderes wird gemacht bei der Studierendenauswahl.
  • Prädiktor, Abinote und so weiter.
  • Ich meine, wahrscheinlich hassen Sie Studierendenauswahl, aber andererseits sind Sie ja diejenigen, die es geschafft haben.
  • Ich weiß nicht, wahrscheinlich so ein bisschen ambivalent.
  • Aber das ist nichts anderes, als dass man hergeht und einen Test konzipiert, der hoffentlich kriteriumsvalide ist, dahingehend erfolgreicher Abschluss des Studiums.
  • Der Medizinertest, den es damals gab und den Sie jetzt, glaube ich, in unterschiedlicher Form wieder eingeführt haben, dient genau dem.
  • Er soll Ihnen ein Testergebnis vermitteln, das hoffentlich prädiktiv, damit es gemeint Kriteriumsvalide ist, dahingehend, ob Sie Ihr Studium erfolgreich abschließen werden, damit die knappe Ressource Medizinstudium möglichst dem Gemeinwohl dienlich ökonomisch eingesetzt werden kann.

Okay?

  • Das steckt hinter dem Auswahlverfahren.
  • Das ist die, denke ich, Kriteriumsvalidität.
  • Gut, also die Kriteriumsvalidität lässt sich ermitteln, indem ganz einfach die Korrelation, wieder haben wir eine Korrelation, zwischen dem Testergebnis und einem Kriterium berechnet wird.
  • Man nennt ein solches Kriterium hier Außenkriterium, da es von Binnenkriterien abzugrenzen ist.
  • Beispiele, Medizinertest, der heißt glaube ich, heute gibt es ihn nicht mehr in dieser Form, früher gab es ihn noch.
  • Fremdbeurteilung bei Persönlichkeitstest ist also ein Quasikriterium und Schulleistungstest Das ist ja jetzt in Zeiten von PISA auch der Klassiker, einen Schulleistungstest laufen zu lassen.
  • Und als Außenkriterium kann ich dann noch gucken, wie korrespondiert ein Lehrerurteil, also ein Urteil des Lehrers über den Schüler, den er gut kennt, mit dem Testergebnis.
  • Man kann, wie wir besprochen haben, auch Tests mit Tests validieren.
  • Das macht man häufig aus der Not heraus.
  • Hierbei handelt es sich jedoch nicht um echte Kriterien, sondern um Quasi-Kriterien, da der Test, der validiert wird, selber der Validierung bedarf.
  • Das ist so ein bisschen die Problematik an der Sache, aber es ist aus der Not heraus geworden.
  • Die Berechnung der Kriteriumsvalidität ist auch technisch wiederum sehr einfach.
  • Man korreliert einfach Test und Kriterium und Sie sehen dann einfach, die Validität ist nichts anderes.
  • Also hier die Kriteriumsvalidität, genauer gesagt, ist nichts anderes als die Korrelation von Testergebnis und Außenkriterium.
  • Gut, das heißt, wir schauen uns wieder grafisch an, um es zu verdeutlichen.
  • Wir haben das Merkmal, das tatsächlich gemessen wird und wir haben hier gestrichelt gekennzeichnet und wir haben hier als durchgängiger Kreis gezeichnet das Merkmal, das tatsächlich gemessen werden soll.
  • Im annähernden Idealfall in der Psychologie überlappt das Merkmal, das gemessen wird mit dem Merkmal, das gemessen werden soll, fast perfekt und wir haben eine Validität dann ungefähr von Punkt 90.
  • Das wäre zum Beispiel der Fall bei einem guten Intelligenztest.
  • Und Sie sehen, je geringer die Validität ist, desto weniger überlappen die beiden Kreise des Merkmals, das gemessen wird und das gemessen werden soll.
  • Im schlimmsten Fall haben die gar nichts miteinander zu tun.
  • Das wäre mit ganz hoher Wahrscheinlichkeit bei dem H-Längen-Intelligenztest des Teufel-Glaucklers der Fall gewesen.
  • Und so sieht die Sache grafisch aus.
  • Man kann das dann noch differenzierter betrachten, aber dadurch dürfen Sie sich im Hauptstudium freuen.
  • Von der Grunddenke her ist aber das Wesentliche hier in dieser Grafik abgebildet.
  • Probleme gibt es auch bei der Auskriteriumsvalidität.
  • Oft ist kein adäquates Außenkriterium vorhanden, wie z.B.
  • bei Intelligenz, hat ich schon gesagt, häufig mit Schulnoten dann gemacht, aber ist auch nur ein Behelf.
  • Oder bei Zukunftsängsten, was nehmen Sie, wenn Sie das Konstrukt Zukunftsängste mit einem Test diagnostizieren wollen, was nehmen Sie dann her als Außenkriterium, ist auch schwierig.
  • Mangelnde Korrelationen mit unbrauchbaren Kriterien würden eher gegen die Validität des Kriteriums als gegen die des Tests sprechen.
  • Also wenn Sie jetzt einen Persönlichkeitstest hernehmen und Sie wollen den validieren, zum Beispiel an der Anzahl der Punkte der Verkehrshünderkartei in Flensburg, dann werden Sie da keine besonders gute Korrelation finden.
  • Das spricht dann aber nicht gegen Ihren Test notwendigerweise, sondern einfach, dass vielleicht diese Verkehrshünderkartei in Flensburg kein besonders gutes Außenkriterium für Ihren Persönlichkeitstest ist.
  • Das misst ja offensichtlich etwas anderes.
  • Bei Außenkriteriumsvalidität geht es also um außerhalb des Tests liegende Messungen, die die Überprüfung der Testergebnisse ermöglichen sollen.
  • Und es gibt jetzt verschiedene Arten von Kriterien, nämlich echte Quasi-Kriterien und sogar nur Target-Variablen.
  • Das hier ist das Beste, das ist Mittelgut und das ist eigentlich das schwächste Außenkriterium, was es gibt.
  • Echte Kriterien sind Kriterien, die semantische und theoretische Ähnlichkeit zum Test aufweisen und zusätzlich von höherem Status sind.
  • Zum Beispiel können Sie einen Aggressivitätsfragebogen entwickeln zur Selbsteinschätzung und als Außenkriterium echte Gewalttätigkeit, zum Beispiel das polizeiliche Eintragung in Ihrem, wie heißt dieses Ding, Im Führungszeugnis überprüfen, ob derjenige zum Beispiel als Gewalttäter aufgefallen ist.
  • Dann hätten Sie ein sehr gutes Außenkriterium, was hervorragend mit Ihrer Selbsteinschätzungsskala zur Aggressivitätsmessung korrespondiert.
  • Das wäre ein echtes Kriterium, das wäre toll, wenn es das gäbe.
  • Wenn es das nicht gibt, versucht man es mit Quasikriterien.
  • Die sind auch semantisch und theoretisch ähnlich, allerdings nicht von höherem Status als der Test.
  • Das ist zum Beispiel, wenn ich Aggressionsfragebogen A als Kriterium für Aggressivität nehme, die mit dem Aggressionsfragebogen B erhoben wurde.
  • Das heißt, ich validiere hier Test mit Test.
  • Sind nur Quasi-Kriterien.

Und Target-Variablen?

  • sind jetzt noch schlappere Kriterien.
  • Das sind Kriterien, die weder semantisch noch theoretisch Ähnlichkeit zu den Test-Items haben, sondern einfach nur irgendwie im Sinne von Effektivität vorhergesagt werden sollen.
  • Das ist zum Beispiel Unfallwahrscheinlichkeit als Kriterium, Körpergröße als Fragebogen-Item.

Jetzt werden Sie denken, was hat das miteinander zu tun?

  • Das hat Folgendes miteinander zu tun.
  • Versicherer haben herausgefunden, dass größere Leute häufig Schusseligkeitsunfälle haben.
  • Fragen Sie mich nicht warum.
  • Also vielleicht stoßen die sich irgendwie den Kopf an oder…
  • Man weiß nicht warum.
  • Aber es ist halt aufgefallen.
  • Und ein Versicherer interessiert sich deshalb auch für die Körpergröße der Person.
  • Weil ein Versicherer möchte ja nach Möglichkeit gerne ihre Beträge kassieren, aber vermeiden, dass sie von ihm Versicherungszahlungen bekommen.
  • Das heißt, die machen eine Risikoabschätzung.
  • Zum Beispiel, wenn sie eine Risikolebensversicherung abschließen.
  • Idealerweise sind sie jung, gesund und hatten noch nie irgendwelche Probleme.
  • Dann ist es mit ganz geringer Wahrscheinlichkeit so, dass der Versicherer irgendwann davon…
  • Also sie rauchen natürlich auch nicht.
  • Sie machen natürlich kein Bungee-Jumping und so was.
  • Und so Free-Climbing oder solche Dinge.
  • Das wird ja alles…

Ich weiß nicht, haben Sie schon mal ausgefüllt so einen Bogen?

  • Man möchte relativ detailliert wissen, auch wie ist der Body-Mass-Index und so.
  • Um sicherzustellen, man möchte natürlich idealerweise topgesunde Leute versichern, weil man da mit hoher Wahrscheinlichkeit davon ausgehen kann, dass die nicht frühzeitig versterben werden und dann macht die Versicherung Profit.
  • Das sind so Target-Variablen.
  • Eine davon ist auch Körpergröße, weil man herausgefunden hat, aus welchen Gründen auch immer, größere Leute haben mehr so Schusseligkeitsunfälle.
  • Okay.
  • Gut, jetzt bringe ich Ihnen ein paar Beispiele für Kriteriumsvaliditäten aus sehr renommierten Studien.
  • Es geht hier um das Fünf-Faktoren-Modell der Persönlichkeitsbeschreibung.
  • Das ist nichts anderes als die Big Five.
  • Und es wurde jetzt geguckt, inwiefern hängt das zusammen mit Berufserfolg.
  • Also das Außenkriterium ist Berufserfolg.
  • Und da gibt es jetzt drei Studien.
  • eigentlich weltbekannte Studien, die kommen teilweise zu unterschiedlichen Ergebnissen, aber schauen wir mal.
  • Neurothezismus ist unisono negativ korreliert mit Berufserfolg bei allen Studien.
  • Extraversion ist unisono bei allen Studien positiv korreliert mit Berufserfolg.
  • Offenheit für Erfahrungen, zu null bis relativ hoch, auf jeden Fall tendenziell positiv.
  • Verträglichkeit, tendenziell positiv.
  • Gewissenhaftigkeit, durchweg positiv.
  • Also Sie sehen, die Big Five hat man versucht jetzt halt zu validieren mit Berufserfolg als Außenkriterium.
  • Berufserfolg kann man jetzt verschiedentlich einschätzen.
  • Man kann sagen über Einkommen, über Führungsspanne, Zugehörigkeit zur Hierarchie, Beurteilung, also Höhe der Hierarchie im Unternehmen.
  • Vorgesetztenbeurteilung, all das kann man hernehmen, um zu versuchen, den Berufserfolg einer Person als Außenkriterium zu messen.
  • Und dann hat man es korreliert.
  • Das sind Meta-Analysen, das heißt, diese Studien fassen Tausende von Probanden zusammen, teilweise aus verschiedenen Studien, um zu einem gesicherten Erkenntnisstand zu kommen.
  • Und das sind die Ergebnisse von diesen drei Meta-Analysen.
  • Und Sie sehen die Tendenzen.
  • Man hätte es ungefähr so erwartet, wenn man sich die Konstruktdefinition anschaut.
  • Okay, aber das sind Beispiele für Kriteriumsvaliditäten.
  • Noch detaillierter wird es, wenn wir uns das anschauen.
  • Sie sind beispielsweise Personalauswählerin in einem Münchner Großunternehmen und diese Tabelle ist sehr unübersichtlich.
  • Ich zeige Ihnen gleich, wie es einen leicht verständlichen Weg gibt, durch diese Tabelle durchzusteigen.
  • Und Sie fragen sich, welche Personalauswahlverfahren also welche Testverfahren beispielsweise, sind besonders gut dazu geeignet, späteren Berufserfolg in dieser Stelle vorherzusagen.
  • Das heißt, Sie stellen nichts anderes hier als die Frage nach der Kriteriumsvalidität eines Personalauswahlverfahrens.
  • Das sind alles Beispiele für Kriteriumsvaliditäten, die ich Ihnen jetzt zeige.
  • Die letzte Folie auch schon und die hier ist jetzt noch detaillierter, weil sie zeigt Ihnen Folgendes.
  • Es gibt hier als Prädiktoren Testverfahren unterschiedlicher Art und Weise.
  • Üblicherweise sind Testergebnisse Prädiktoren für etwas anderes.
  • Ich kann hernehmen, allgemeine kognitive Fähigkeitstests, das heißt Intelligenztests, kann ich hernehmen, um Personalauswahl zu betreiben.
  • Ich kann Arbeitsproben hernehmen, also denjenigen, Arbeitsproben ist selbsterklärend.
  • Integrity-Tests, ist aus US-Amerika, da ist auch die Studie her, sind berufsbezogene Gewissenhaftigkeitstests.
  • Also inwiefern neigt derjenige dazu, mal so ein bisschen Büromaterial zu klauen für private Zwecke oder die ein oder andere Kleinigkeit zu veruntreuen oder mit geheimen Informationen nicht so vertrauensvoll umzugehen, wie das sich eigentlich gehört, zum Beispiel wenn sie Entwicklungsingenieur sind.
  • Da sind so Geheimnisse, also Forschungsergebnisse in der Industrie sind sehr heiß umkämpft.
  • Das wären Integrity-Tests.
  • Dann gibt es Gewissenhaftigkeitstests, wie Sie es kennen von den Big Five.
  • Es gibt das strukturierte Einstellungsgespräch, das unstrukturierte Einstellungsgespräch, Fachkenntnistests, es gibt die Probezeit, biografische Daten, das heißt, Sie schauen in die Vergangenheit der Person und versuchen daraus Ableitungen zu finden, wie die Person sich in Zukunft wohl verhalten wird.
  • Interessentests, Assessment Center und Graphologie sogar.
  • So, und Sie sehen jetzt hier abgezeichnet die Validität des Verfahrens, also die Kriteriumsvalidität des Verfahrens, wenn man es alleine als einzigen Prediktor hernimmt.
  • Dann finden Sie, der beste Prediktor als Einzelprediktor wären die Arbeitsproben.
  • Das ist jetzt kein richtiger Test im engeren psychologischen Sinne.

Also schauen wir mal, welches Testverfahren wäre das?

  • Na gut, die Intelligenztest.
  • Intelligenz ist der beste Einzelprädiktor mit einer Kriteriumsqualität von Punkt 51, was ein sehr hoher Wert ist.
  • Oder auch das strukturierte Einstellungsgespräch ist auch besonders gut.
  • mit Punkt 51 an anbleiben, alle darunter, grottenschlechte Skraphologie, Assessment Center Punkt 37 erreicht ist, auch nur, wenn es sehr gut gemacht ist.
  • Die meisten Assessment Center sind nicht gut gemacht, haben also eine noch geringere Kriteriumsvalidität.
  • Und je geringer die Kriteriumsvalidität, desto schwerer ist es möglich, eine gute Vorhersage zu treffen.

Okay?

  • Das heißt, Sie sehen hier, das unstrukturierte Einstellungsgespräch ist auch nicht besonders gut.
  • So jetzt, die Tabelle besteht ja jetzt nicht nur aus einer Spalte, sondern die sagt jetzt, was kann ich hinzugewinnen an Kriteriumsvalidität, also an Vorhersagepower, wenn Sie so wollen, wenn ich den besten Einzelprädiktor im Testbereich nehme, nämlich einen Intelligenztest plus ein zusätzliches Verfahren.
  • Sie müssen ja nicht nur, Sie können ja auch mehrere Prädiktoren wählen und das sagt Ihnen diese Tabelle, was Sie gewinnen können.
  • Also es ist eine weltbekannte Studie hier, deswegen möchte ich auf die auch in dieser Art und Weise eingehen, weil die eine ganz hervorragende Erkenntnis zutage gefördert hat.
  • Sie nehmen also her, nicht nur den Intelligenztest, sondern Sie fügen hinzu beispielsweise zu dem Intelligenztest ein strukturiertes Einstellungsgespräch und dann sind Sie in dieser Zeile.
  • Das ist dann die neue Kriteriumsvalidität, die Sie erhalten durch Kombination der beiden.
  • Das heißt, der Intelligenztest alleine hat eine Kriteriumsvalidität von Punkt 51.
  • Durch Hinzunahme eines strukturierten Einstellungsgesprächs habe ich eine inkrementelle Validität von Punkt 12, nämlich Punkt 51 plus Punkt 12 macht in Summe Punkt 63 und einen prozentualen Zuwachs an Validität durchhin Zunahme des strukturierten Einstellungsgesprächs gegenüber dem Intelligenztest von 24 Prozent.
  • Das heißt, Sie haben um 24 Prozent höhere Validität Ihrer Vorhersage, weil Sie zu dem Intelligenztest noch das strukturierte Einstellungsgespräch dazugenommen haben.

Das ist ein Ding, oder?

  • Das hat sich gelohnt.
  • Sie sehen aber auch zum Beispiel, wenn Sie zum Intelligenztest noch den trashigen Graphologietester zunehmen, haben sie eine inkrementelle Validität von original Null und deshalb durch die Kombination beider Werte dieselbe Validität, wie wenn sie den Test alleine gemacht hätten.
  • Das heißt, sie können sich die Graphologie glatt sparen.
  • Ich gehe nicht davon aus, dass sie darüber überrascht sind, aber so können sie kombinieren.
  • Was man häufig macht, ist, dass man sagt, okay, ein Intelligenztest ist sehr ökonomisch durchzuführen, ist ein sehr guter Einzelprädiktor.
  • Und dann möchte ich ja noch die Person kennenlernen, im Gespräch beispielsweise.
  • Und dann bietet sich ein strukturiertes Einstellungsgespräch als Ergänzung an.
  • Und wenn Sie hier schauen, durch Kombination Das höchste, was ich erreichen kann, ist der Wert Punkt 63.
  • Ne, der ist sogar Punkt 65.
  • Aber 63, 65 und 63 sind die höchsten Werte.
  • Es bietet sich also an, einen Intelligenztest zu kombinieren mit einer Arbeitsprobe, mit einem berufsbezogenen Gewissenhaftigkeitstest, also einem Integrity-Test oder mit einem strukturierten Einstellungsgespräch.
  • Da haben Sie eine sehr gute Vorhersage.
  • Und das beendet die Vorlesung für heute.
  • Ich wünsche Ihnen eine schöne Woche.