This video: Dans cette vidéo : Neste vídeo : 

Testtheorien, Testkonstruktion und Psychologische Diagnostik (7)

Key points Points Clés Dicas 

00:00 Testtheorien, Testkonstruktion und Psychologische Diagnostik (7)

01:05 Geht das per E-Mail?

01:21 Keine?

02:06 Aber wie gelangt man überhaupt zu einem großen Satz, zu einem großen Pool von Items?

02:32 Heute nähern wir uns bereits dieser Einleitung zu Kapitel 10, können vielleicht schon über das erste Gütekriterium sprechen, aber zunächst, was machen wir zuerst?

02:45 Worum geht es also bei den kriterienorientierten Tests oder der kriterienorientierten Leistungsmessung?

04:48 Also die Normen, die hier eine Rolle spielen.

05:16 Was nimmt man vor?

05:33 Wie würden Sie intuitiv vorgehen?

05:54 Also, Sie dürfen sagen, was soll derjenige dann Ihnen zeigen?

07:55 Wie kann man es schaffen, diese Inhaltsvalidität zu sichern?

08:42 Würde das heißen, bei der Führerscheinprüfung wird alles bei der Realnorm abgefragt?

09:44 Einen Zusammenhang mit der Führerscheinübung?

10:06 Was würde das jetzt in einem Wäre das dann eine Störvariante?

10:23 Hat es hier so einen Bestand?

10:48 Wie soll man groß Einparken üben oder wie soll man repräsentativ Einparken abfragen, wenn die Wege von den Schneepflügen zugeschneit sind?

11:20 Ist das in Ordnung?

12:56 Das heißt also, sachgerecht muss das Kriterium sein. Kann ich zum Beispiel über Expertenbefragungen herausfinden, ob eine Norm sachgerecht ist und realitätsangemessen?

14:14 Zum Beispiel jetzt wieder bei der Führerscheinprüfung: Wie viele und wie schwere Fehler darf man sich erlauben, um gerade noch zu bestehen, also um den Cut-Off-Wert zu überspringen?

15:23 Wie sieht es aus mit Testgütekriterien bei der kriteriumsorientierten Leistungsmessung?

15:49 Was würde das bedeuten?

19:06 Das heißt, die Item-Analyse kennen Sie bereits, wie gerade besprochen.

20:29 Also, man braucht zunächst mal das Vorliegen einer Theorie.

22:16 Bitte?

23:46 Das könnte ja sein.

24:17 Genau, gute und schlechte Piloten.

25:48 Sie lachen, ich lache auch immer wieder.

26:33 Okay, also Großkopfhalten, meinen Sie damit sozusagen das Establishment?

28:26 Müssen Sie immer wieder neu schauen, was denn in diesem Jahr beispielsweise die diskriminierenden Variablen sind?

28:57 Funktioniert es jetzt also nicht mehr?

30:53 Also, die Items sollen. Haben Sie ein praktisches Beispiel?

31:23 Ist nicht falsch, aber kann man noch ein bisschen präzisieren?

34:01 Nachher nicht immer den lexikalischen Ansatz, oder?

34:37 Sie kennen ja den Unterschied zum deduktiven Ansatz, nicht wahr?

37:40 Das heißt, wie geht man vor?

39:05 Weshalb heißt der so?

39:34 Wie kann man da vorgehen?

40:06 Wie kommen Sie jetzt da ran?

40:48 Okay, also Ihre Versuchsperson denkt an den Nachbarn, der so aggressiv ist und überlegt sich jetzt, was sind eigentlich die Verhaltensweisen, die dieser aggressive Nachbar zeigt?

46:53 Ist es dann nicht eher kritisch zu sehen, einen Test für Selbstbeurteilung zu kreieren, jetzt wie bei dem prototypischen Ansatz, mit Items, die durch Fremdbeurteilung kreiert wurden?

47:04 Ja, okay.

47:51 Sind Sie selbst darauf gekommen oder haben Sie es irgendwo gelesen?

48:12 Oder zunächst einmal, was kann man im Vergleich machen?

48:38 Was müssen wir beachten bei interner Konsistenz und Reliabilität?

49:31 Okay?

50:10 Ein weiterer Punkt ist die Stichprobenanfälligkeit.

51:22 Wie sieht es mit Validitäten aus?

52:22 Also die übergeordnete Frage war, wie komme ich überhaupt zu Items?

52:47 Wie komme ich beim induktiv-faktorenanalytischen Ansatz zu meinen Items?

53:15 Ist das wirklich besonders prototypisch für Aggressivität?

53:45 Keine Fragen?

54:13 Sehen Sie, genau das sollte man jetzt nicht machen.

55:08 Also, Sie schauen so, als wüssten Sie es.

55:45 Ihre Lösungsansätze bitte wieder für sich behalten.

55:58 Was hat das Ganze jetzt neben dem Fun-Aspekt nicht mit Persönlichkeit zu tun, sondern mit Testtheorien zu tun?

56:25 Und die große Frage, die man sich jetzt unter Gütekriterien-Gesichtspunkten stellt, hinsichtlich dieses kleinen Fun-Tests, schafft er das, diese Messintention einigermaßen abzubilden, will sagen, wird hier gemessen, was gemessen werden soll, und das ist nichts anderes als die Frage, ist dieser Test valide?

56:45 Gut, das leitet uns über zum Thema Gütekriterien.

57:10 Wissen Sie, wie Sie an den Pool von Items gelangen?

57:47 Wissen Sie das schon?

1:01:35 Wie gut fühlen Sie sich schon informiert über diese Thematik?

1:02:20 Alle enthalten?

1:04:13 Möchten Sie sich da noch eintragen?

1:05:18 Quantitativ?

1:05:53 Wissen Sie noch eine Testverfahrensklasse, die hier eine besonders hohe Problematik aufwies?

1:06:11 Wie kann ich die herstellen?

1:07:01 Gut, wie kann man die quantitativ bestimmen?

1:07:50 Wie stelle ich das her?

1:09:41 Bitte?

1:09:55 Gut, gehen wir schon zum nächsten Gütekriterium, Hauptgütekriterium seines Zeichens, Reliabilität.

1:10:38 Die Grundfrage der Reliabilität lautet also, wie genau, zuverlässig und präzise erfasst ein Test das, was er erfasst?

1:12:25 Oder würden Sie es anders bezeichnen?

1:13:01 Wie gehen Sie jetzt vor, wenn Sie argumentieren müssten mit dem Herrn Gaukler?

1:13:20 Anhand welcher Kriterien wird das genau bestimmt, zum Beispiel Haarlänge, Haarsicke oder sonst was?

1:13:37 Und wenn ich dann zum Friseur gehe und mir komplett die Haare abschneiden lasse, bin ich dann automatisch schlechter?

1:14:11 Ist Haarlänge objektiv messbar?

1:14:29 Wie kann ich zum Beispiel die Reliabilität jetzt im Vorgriff auf das, was wir noch besprechen, wie kann ich die feststellen?

1:14:45 Was könnte ich machen?

1:15:01 Und jetzt?

1:15:35 Da werden Reliabilitätsindizes berichtet, von 90, 95, meinetwegen, und ich denke dann immer: Ja, schön Leute, aber wo sind die Validitätsbelege?

1:16:59 Wie sieht es aus mit der Reliabilität in der klassischen Testtheorie?

1:17:47 Bei der klassischen Testtheorie war die Reliabilität populationsabhängig, also stichprobenabhängig.

1:18:09 War niemand?

1:18:26 Erinnern Sie sich an diese Kette?

1:18:38 Ja, die Kette kann ich nochmal wiederholen.

1:21:28 Ist das wirklich so?

1:21:42 Die Korrelation der Extraversionsfacetten, zum Beispiel im NEO-PI-R.

Testtheorien, Testkonstruktion und Psychologische Diagnostik (7)

Testtheorien, Testkonstruktion und Psychologische Diagnostik (7)

  • Nach den Pfingstferien, ich hoffe in alter Frische.
  • Wie Sie das von mir kennen, möchte ich Sie bitten, die Lautstärke in diesem Hörsaal auf einen angenehmen Pegel runter zu pegeln.
  • Dankeschön.
  • Ich möchte vorab, Sie wissen das Organisatorische bei mir immer gerne vorab. Die Klausuranmeldungen für den 16.
  • Juli habe ich schon mehrfach pausieren lassen.
  • Ich möchte heute das noch mal tun und den letzten Personen, die sich noch nicht eingetragen haben, dazu die Gelegenheit geben.
  • Ich gebe das heute Nachmittag oder morgen früh ins Prüfungsamt, damit es dann verwaltet wird.
  • Also nehmen Sie bitte hier die letzte mögliche Chance, sich noch einzutragen.
  • Ich lasse es gleich hier vorne herumgehen.
  • Die Personen unter Ihnen, die nach der alten Prüfungs- und Studienordnung vorgehen, melden sich bitte im Sekretariat von Herrn Schneewind an.
  • Das wird von Frau Laux betreut, und dort werden sie dann in die Liste aufgenommen.
  • Gut, Fragen Ihrerseits, bitte.

Geht das per E-Mail?

  • Ich glaube, Sie müssen unterschreiben.
  • Ja, das ist ja nicht wirklich weit.
  • Sie gehen drei Stockwerke hoch und…
  • Sie werden einen Weg finden, ich bin sehr sicher.

Weitere organisatorische Fragen?

Keine?

  • Gut, dann fangen wir gleich an.
  • Wir sind zum aktuellen Zeitpunkt an diesem Punkt angekommen, beim Hinterort Kapitel 8.
  • Kriteriumsorientierte Tests, das werden wir uns heute anschauen.
  • Das ist eine weitere kleine ergänzende Art von Testtheorien.
  • Die klassische und die probabilistische haben wir ja schon kennengelernt.
  • Diese addiert sich nun dazu.
  • Das wird relativ schnell gehen.
  • Dann werden wir schon zu diesem wichtigen Teil der Vorlesung übergehen, zu den Testkonstruktionsansätzen.

Da werden wir uns mit Fragen beschäftigen: Wie kann man eigentlich Tests konstruieren, sodass man weiß, wie Items aussehen müssen, damit sie etwas taugen?

Aber wie gelangt man überhaupt zu einem großen Satz, zu einem großen Pool von Items?

  • Das werden wir hier behandeln.
  • Auch das wird nicht allzu lange dauern, und dann kommen wir vielleicht zum wichtigsten Teil der gesamten Vorlesung.
  • Das ist die Einleitung zum Kapitel 10, überschrieben mit Kriterien zur Bewertung von Tests, nämlich Gütekriterien.
  • Und spätestens dann werden wir mit den Berechnungen beginnen.

Heute nähern wir uns bereits dieser Einleitung zu Kapitel 10, können vielleicht schon über das erste Gütekriterium sprechen, aber zunächst, was machen wir zuerst?

  • Es geht um kriterienorientierte Tests, Testkonstruktionsansätze und dann setzen wir fort.

Worum geht es also bei den kriterienorientierten Tests oder der kriterienorientierten Leistungsmessung?

  • Die Fragestellung unterscheidet sich von den anderen beiden Testtheorien und hat daher einen eigenen Ansatz.
  • Schauen wir uns das zusammen an.
  • Das heißt schon kriterienorientiert, das heißt in irgendeiner Form muss ein Kriterium eine Rolle spielen, sonst wäre der Name nicht passend.
  • Leistungen der Probanden werden mit inhaltlich definierten Zielen verglichen, zum Beispiel einem Lehr- oder einem Therapieziel.
  • Beispiele dafür sind, ob der Schüler oder die Schülerin eine bestimmte Rechenleistung erreicht hat, also ein bestimmtes Level an Fähigkeiten, ein bestimmtes Zielkriterium erreicht hat oder was die Krankenkasse interessieren könnte oder ob als Evaluationsforscherin ein bestimmtes Therapieziel erreicht wurde, ein zuvor definiertes Ziel.
  • Könnte Sie interessieren, wenn Sie zum Beispiel Therapieforscherin sind.
  • Oder ein ganz praktisches Beispiel, das Sie alle kennen: Hat der Fahrschüler bereits einen bestimmten Umfang an Fähigkeiten erworben, um im Straßenverkehr ein Auto zu steuern.
  • Das heißt, Leistungen von Probanden werden nicht verglichen mit Normwerten einer Eichstichprobe, wie das in den anderen beiden Testtheorien der Fall ist, sondern hier werden sie verglichen mit vordefinierten Zielen und daraus kann man gut die Kontrastierung von Norm- und Kriterienorientierung ableiten.
  • Schauen wir uns das an.
  • Also das Kriterium zunächst mal.
  • Das Namensgebende für diese Leistungsmessung ist ein Leerziel, das man erreichen kann oder auch nicht.
  • Also ich kann es schaffen oder nicht.
  • Auch in diesem binären Modus kann das gehandhabt werden.
  • Top oder Flop, wenn Sie so wollen.
  • Und ein Leistungskontinuum, auf dem man unterschiedliche Positionen einnehmen kann.
  • Aber in diesem Leistungskontinuum, beispielsweise Intelligenz, wäre jetzt ein Leistungskontinuum. Da kann man einen Cut-off-Wert setzen und die Personen entsprechend einfach zuordnen zu den Leuten, die über dem Cut-off-Wert liegen, und welche, die dann darunter liegen.

Also die Normen, die hier eine Rolle spielen.

  • Es gibt zunächst einmal eine Realnorm und es gibt eine Idealnorm.
  • Die Realnorm bezeichnet Kennwerte einer Bezugsgruppe, wie in der klassischen Testtheorie, und die Idealnorm spiegelt wieder einen repräsentativen Kanon von Anforderungen.
  • Die kriterienorientierten Tests sind dabei ideal normiert.

Was ist damit gemeint?

Was nimmt man vor?

  • Bei kriterienorientierten Tests ist die Logik ein Repräsentationsschluss.
  • Stellen Sie sich vor, Sie müssen unter psychologischen Gesichtspunkten eine möglichst aussagekräftige Fahrprüfung konzipieren, auf praktische Art.

Wie würden Sie intuitiv vorgehen?

  • Stellen Sie sich vor, Sie wären jetzt der Fahrlehrer oder die Fahrlehrerin, die immer hinten sitzt und alles kritisch beäugt.
  • Und stellen Sie sich vor, diese praktische Fahrprüfung wäre jetzt ein psychologischer Test.

Wie bekommen Sie den einigermaßen ideal normiert?

Oder wie können Sie einigermaßen eine Idealnorm erstellen?

Also, Sie dürfen sagen, was soll derjenige dann Ihnen zeigen?

  • Wenn wir jetzt Prüflinge.
  • Bitte.
  • Er soll halt mal Autobahn fahren, er soll mal Berg anfahren, er soll mal einparken.
  • Also wirklich alle verschiedenen Situationen, die ihr so kommen könnt, da durchprüfen.
  • Einverstanden, ja genau.
  • Falls Sie es akustisch nicht verstanden haben, wiederhole ich es nochmal gerne.
  • Ihre Kommilitonin weist darauf hin, möglichst repräsentativ auszuwählen aus den Fähigkeiten, die man im Straßenverkehr braucht.
  • Also Autobahn fahren, Stadt fahren, Berg anfahren, einparken und so weiter und so fort.
  • Wenn ich das denjenigen machen lasse, der jetzt der gestresste Prüfling ist in dieser Fahrprobe oder Fahrprüfung, schaue ich mir das etwa eine halbe Stunde lang an.
  • So lange dauert es meines Wissens.
  • Und dann können Sie einen Repräsentationsschluss unternehmen.
  • Sie könnten sagen, okay, die Person hat es geschafft, in dieser halben Stunde diese unterschiedlichen Facetten, die man braucht, um kompetent im Straßenverkehr zu agieren, zu zeigen.
  • Und daraus ziehen Sie den Schluss und sagen, okay, derjenige hat es in der Prüfung geschafft, dann wird er es auch außerhalb der Prüfung schaffen.
  • Das liegt über dem Level, also über dem Cut-Off-Wert, also hat er das Kriterium erreicht, demzufolge herzlichen Glückwunsch zum Führerschein.
  • Wichtig ist es, dass Sie aber, um zur Diagnose zu kommen, ob derjenige über oder unter dem Strich liegt mit seiner Leistung, dass Sie auch wirklich anhand von repräsentativen Aufgaben das ermitteln.
  • Denjenigen jetzt nur in der Stadt fahren zu lassen, nur auf der Autobahn eine halbe Stunde, wäre natürlich offensichtlich auch intuitiv plausibel ziemlich sinnlos.
  • Deshalb ist es wichtig, dass man für kriteriumsorientierte Tests auch einen repräsentativen Kanon von Anforderungen definiert, anhand dessen man dann die Diagnose Top oder Flop fällt.
  • Demzufolge, was wir gerade angesprochen haben, ist die Inhaltsvalidität bei diesem Test höchstes Ziel, da die Aufgaben Stichproben des Zielkriteriumsverhaltens sein sollen.
  • Also, wie Ihre Kommilitonin gesagt hat.
  • Möglichst alle Facetten stichprobenartig mit abtesten.
  • Und auf dieser Grundlage die Entscheidung fällen, ob das Kriterium erreicht ist, ja oder nein.

Wie kann man es schaffen, diese Inhaltsvalidität zu sichern?

  • Man kann sich verschiedener Methoden bedienen, zum Beispiel Expertenbefragungen, in denen man sagt: 'Na gut, wer hat davon Ahnung?' Fahrlehrer sollten davon Ahnung haben, also fragen wir mal fünf andere Fahrlehrer, wie sie das sehen.
  • Das wäre dann eine repräsentative Prüfung.
  • Auch theoretische Ableitungen kann man heranziehen.
  • Zum Beispiel könnte man sich im Fahrzeugbereich mit der Straßenverkehrsordnung befassen, da sind die wichtigsten Regeln.
  • In der theoretischen Führerscheinprüfung sind die wichtigsten Fehler, die man machen kann oder die schlimmsten Fehler, Vorfahrtsfehler.
  • Die geben besonders viele Maluspunkte, und ich glaube, man kann sich nur einen Vorfahrtsfehler erlauben, sonst fällt man durch die theoretische Prüfung.
  • Das ist auch aufgrund von Expertenwägungen so gewichtet.
  • Die Abgrenzung von Idealnorm und Realnorm ist mir jetzt noch nicht ganz klar.

Würde das heißen, bei der Führerscheinprüfung wird alles bei der Realnorm abgefragt?

  • Nein, es würde nicht alles abgefragt.
  • Ne.
  • Gehen wir nochmal zurück.
  • Die Realnorm bezieht sich darauf, dass ich die Leute untereinander vergleiche.
  • Die Realnorm, wie soll ich sagen, im Intelligenzbeispiel wäre es so, dass die Realnorm auf das schaut, was da ist, und meistens sind das ja normal verteilte Größen.
  • Die ergeben sich, wenn Sie sozusagen schauen, wie die Ausprägungen der Fahrleistungen bei Personen sind, beispielsweise.
  • So sieht es halt aus.
  • Und bei der Idealnorm definieren Sie, wie Sie es gerne hätten.
  • Das ist ein Unterschied.
  • Und wie Sie es gerne hätten, leiten Sie ab aus den Expertenbefragungen und den theoretischen Ableitungen.
  • Oder man müsste sagen, wie Sie es mindestens gerne hätten, sodass da der Cut-off drin ist.
  • sodass da der Cut-off drin ist.
  • Da fehlt jetzt wirklich gerade etwas Konkretes.

Einen Zusammenhang mit der Führerscheinübung?

  • Also, mein Sohn hat die Übung gemacht im Winter, wo es sehr verschneit war.
  • Er konnte zum Beispiel bestimmte Sachen nicht machen, nicht zeitlich einparken, weil keine Parkplätze frei waren.
  • Durchgezogene Mittellinien waren gar nicht sichtbar.
  • Also, weder die Ideallinie noch eigentlich die Ideallinie waren erreichbar oder machbar.

Was würde das jetzt in einem Wäre das dann eine Störvariante?

Was wäre die Analogie zu einem Test, wenn es gar nicht so machbar ist, wie es der Mindeststandard sein sollte?

Hat es hier so einen Bestand?

  • Okay, schön.
  • Hat die Story ein Happy End gehabt.
  • Also, wenn jetzt in dieser Fahrprüfung dieses Extrembeispiel genannt wird, mit extremen Wetterbedingungen, und die Fahrprüfung dann stattfindet, werden die Fahrprüfer in der Regel die Idealnorm oder den Cut-Off-Wert, um genau zu sein, der erreicht werden muss, aufgrund dieser extrem erschwerten Bedingungen etwas herabsetzen.

Wie soll man groß Einparken üben oder wie soll man repräsentativ Einparken abfragen, wenn die Wege von den Schneepflügen zugeschneit sind?

  • Dann werden sie das intuitiv schon gemacht haben, und das ist dann auch richtig.
  • Die Führerscheinprüfung zielt darauf ab, dass man unter normalen Verkehrssituationen diesen Cut-off-Wert erreichen kann.
  • Ein Experiment ist ja ein bisschen eine andere Schiene als diese, denke ich hier.
  • Ein Experiment ist eine andere Methode, um an Daten zu gelangen.
  • Also sind wir hier nicht in einem experimentellem Setting.

Ist das in Ordnung?

  • Gut, also bedeutet das, dass die wichtige Aufgabe, wenn ich einen kriterienorientierten Leistungstest konstruieren möchte, die Generierung von inhaltlich validen Itemmengen ist, also Items, die das Kriteriumsverhalten repräsentieren.
  • Wenn sie repräsentativ sind, spricht man von inhaltlich validen Item-Mengen.
  • Diese liegen dann vor, wenn sie entweder die Gesamtheit der Kriteriumsleistungen umfassen. Das ist natürlich ziemlich uneconomisch. Also, zum Beispiel, wenn Sie Englischlehrerin sind und den Wortschatz Ihrer Schüler diagnostizieren möchten, könnten Sie das idealerweise machen, zumindest jetzt in der Theorie, indem Sie alle Vokabeln abfragen.
  • Das macht natürlich kein Mensch.
  • Aber das wäre natürlich von der Inhaltsvalidität her maximal.
  • Oder aber, und das ist die deutlich praktischere Herangehensweise, Sie nehmen eine repräsentative Auswahl, zum Beispiel am besten eine Zufallsauswahl der Kriteriumsausgaben.
  • Wichtig ist darüber hinaus, die Setzung von angemessenen Normen. Idealnormen müssen sachgerecht und realitätsangemessen sein. Sachgerecht heißt, wenn sie nachweislich notwendig für das Erreichen nachfolgender Kriterien sind, zum Beispiel Vorfahrtsregeln für die Führerscheinprüfung.
  • Also, eine sachgerechte Norm ist wahrscheinlich schon die, dass man in einer theoretischen Führerscheinprüfung maximal einen Vorfahrtsfehler machen darf, um zu bestehen, weil Vorfahrtsregeln ziemlich wichtig sind und lebensbedrohlich sein können, wenn derjenige sie nicht kennt und demzufolge nicht anwenden kann.

Das heißt also, sachgerecht muss das Kriterium sein. Kann ich zum Beispiel über Expertenbefragungen herausfinden, ob eine Norm sachgerecht ist und realitätsangemessen?

  • Nämlich, wenn die Schwierigkeiten der Normen angemessen gewählt wurden. Zum Beispiel muss ein Fahranfänger seinen Pkw nicht mit traumwandlerischer Sicherheit beherrschen.
  • Das wäre nicht realitätsangemessen.
  • Es gibt häufig hier bei Ihnen - das wird Ihnen vertraut vorkommen - hinsichtlich der Bewertung von Studienleistungen unterschiedliche Ansichten, was sachgerechte und realitätsangemessene Normen sind.
  • Ja, da kann man diskutieren.
  • Sie haben sicherlich eine intuitive Nähe zu diesem Problem.
  • Wird in der Regel gelöst über Expertenbefragungen, Vergleiche mit anderen. Zum Beispiel angenommen, hier würde jetzt deutlich strenger benotet werden bei uns, als es an anderen Fakultäten für Psychologie wäre, und sie hätten jetzt deutlich schlechtere Durchschnittsnoten, obwohl sie keine schlechteren Abischnitte beispielsweise hatten, dann hätte man hier eine strengere Notenvergabepraxis als woanders.
  • Dann könnte man diskutieren, ist das gerechtfertigt, bringt Ihnen das etwas oder benachteiligt Sie das und so weiter und so fort.
  • So, was wir noch machen müssen, haben wir eben schon erwähnt. Wir brauchen die Bestimmung eines kritischen Punktwertes, also den Cut-Off-Point.

Zum Beispiel jetzt wieder bei der Führerscheinprüfung: Wie viele und wie schwere Fehler darf man sich erlauben, um gerade noch zu bestehen, also um den Cut-Off-Wert zu überspringen?

  • Und diese Rechtfertigung des Cut-Off-Points muss vorgenommen, begründet und deshalb sinnvoll gewählt werden.
  • Beispielsweise gibt es Dozenten, die sagen: 'Na ja, wenn nicht ein Drittel der Leute in der Klausur durchfällt, dann kann es ja nichts gewesen sein.'
  • Also, es gibt Leute, die sagen, bei normorientierter Diagnostik, also verteilungsorientierter Diagnostik, fallen sowieso schon mal ein Drittel durch.
  • Es kommt darauf an, wie man die Normen setzt.
  • Und das wäre verteilungsorientierte Notenvergabepraxis.
  • Das ist in der Psychologie häufig nicht der Fall.
  • Aber in so großen Massenfächern, wo es auch explizit oder hinter vorgehaltener Hand darum geht, Leute rauszuprüfen, weil man zu viele Studienbewerber hat, findet man häufig diese Vorgehensweise.
  • Dass man unabhängig von Realitätsangemessenheitskriterien sagt, dass 30 Prozent der Leute durchfallen.
  • Also, es wäre ein rein verteilungsorientiertes Kriterium.
  • Das ist dann das Motto: Die Letzten beißen die Hunde.

Wie sieht es aus mit Testgütekriterien bei der kriteriumsorientierten Leistungsmessung?

  • Das gestaltet sich jetzt ein bisschen anders als bei den anderen Ansätzen.
  • Es sind zunächst mal grundsätzlich dieselben wie in der klassischen Testtheorie auch, aber wir haben ein Problem, zumindest potenziell, hier bei der kriteriumsorientierten Leistungsmessung.

Was ist hier zum Beispiel die Reliabilität?

Was macht man zum Beispiel, wenn alle Probanden das Kriterium erreichen?

  • Stellen Sie sich die glückliche Situation vor, dass alle Führerscheinprüflinge es schaffen würden.

Was würde das bedeuten?

  • Das heißt, es gäbe keine Varianz.
  • Wenn alle Leute dieselben Ausprägungen haben, nämlich geschafft, gibt es keine Varianz in den Daten.
  • Sie wissen, die Reliabilitätsdefinition, die über die Varianz lief.
  • Wenn keine Varianz vorhanden ist, wird es schwierig.
  • Dann sind die Formeln aus der klassischen Testtheorie nicht mehr definiert.
  • Also haben sich findige Methodiker daran gemacht und alternative Reliabilitätsschätzungsformen überlegt, und einer davon ist der Übereinstimmungs- oder auch abgekürzt Ü-Koeffizient von Herrn Fricke.
  • Auf den möchte ich jetzt nicht im Detail eingehen.
  • Für den Fall, dass Sie sich noch intensiver mit dieser kriteriumsorientierten Leistungsmessung beschäftigen werden, kann ich Ihnen den aber empfehlen, den Herrn Fricke.
  • Und darüber hinaus funktioniert die Konfidenzintervallschätzung auch nicht, wenn keine Varianz mehr vorhanden ist, weil zufällig alle Leute bestanden oder nicht bestanden haben.
  • So kann man sagen, dass der Standardmessfehler aufgrund der potenziellen Nullvarianz nicht verwendet werden sollte.
  • Auch ohne Varianz funktioniert das nicht.
  • Es gibt hier wieder Rettungsmöglichkeiten, zum Beispiel Schätzungen nach dem Binomialmodell.
  • Das muss jetzt auch nicht sein, darauf werden wir auch im Detail eingehen.
  • Wir können festhalten, dass wichtige Punkte zur kriteriumsorientierten Leistungsmessung vorliegen.
  • Kriteriumsorientierte Tests sind ideal anstelle von real normorientierten.
  • Auch Kriterien werden stichprobenbezogen festgelegt, wenn auch mit einem anderen Akzent.
  • Kriteriums- und normorientierte Tests lassen sich ineinander umwandeln.
  • Ganz besonders leicht ist es, einen normorientierten Test in den kriteriumsorientierten Test umzuwandeln.
  • Also, wenn Sie Intelligenzskala-Niveau haben, zum Beispiel bei einem Intelligenztest, und Sie sagen, okay, bei 100 ist von mir aus der Cut-off, beispielsweise in einer Personalauswahl-Situation, dann können Sie das natürlich ganz einfach festlegen.
  • Bei weitergehendem Interesse empfehle ich die Lektüre folgender Kollegen.
  • Das ist für unsere Vorlesung jetzt aber nicht weiter relevant, jedoch für darüber hinaus Interessierte.
  • Gut, nächster Schritt, nächstes Thema, nächste Mindmap-Wolke.
  • Testkonstruktionsansätze. Da möchte ich jetzt mit Ihnen etwas mehr Zeit reinvestieren, weil das für Ihre Praxis und für Ihr Wissen noch wichtiger ist als die kriteriumsorientierten Tests.
  • Wie eingangs gesagt bei der Vorstellung: Sie wissen, wie man Items auswählen kann.
  • Sie haben gelernt, nach sprachlichen Gesichtspunkten, nach psychometrischen Gesichtspunkten, unter anderem Schwierigkeit, Streuung, Trennschärfe.
  • Sie können also gute Items von schlechten unterscheiden und demzufolge die guten auswählen.
  • Wir beschäftigen uns jetzt hier mit der Frage, wie komme ich überhaupt zu einem großen Pool an Items, aus dem ich dann überhaupt mal auswählen kann.
  • Das ist eigentlich ein Schritt vorher anzusiedeln, aber aus didaktischen Gründen habe ich das umgekehrt, sodass jetzt die große Poolgenerierung jetzt erst kommt und darauf können Sie dann das, was Sie eingangs in dieser Vorlesung gelernt haben, dann loslassen.

Das heißt, die Item-Analyse kennen Sie bereits, wie gerade besprochen.

  • Die Frage oben, also wie kommt man überhaupt zu einer Auswahl, einem Pool von Tests, ist hier aber strategischer zu verstehen, denn wie erzeugt man überhaupt einen großen Item-Pool, aus dem man dann die besten Items nach der Art und Weise, wie Sie es kennengelernt haben, auswählt.
  • Dazu wollen wir uns vier Ansätze anschauen, und gleichzeitig sind diese vier Ansätze vier Konstruktionsstrategien, die folgendermaßen heißen.
  • Je nachdem, wer das gerade benennt, haben sie zwei Namen.
  • Deshalb sind sie immer angeführt, wenn es sie gibt.
  • Rational-deduktiver Ansatz, external-kriteriumsbezogener Ansatz, induktiv-faktorenanalytischer Ansatz und der vierte hat nur einen Namen, der heißt prototypisch.
  • Und schauen wir uns jetzt einmal jeden davon an.
  • Gut.
  • Zunächst einmal die rationale Strategie.
  • Eine Testkonstruktion oder Skalenkonstruktion erfolgt dann rational, wenn die Items aufgrund eines theoretisch fundierten und explizit dargelegten Persönlichkeitskonstrukts deduktiv abgeleitet werden.
  • Das Gegenteil davon wäre die intuitive Skalenkonstruktion.
  • Die intuitive Skalenkonstruktion sieht so aus, wenn Items aufgrund ihrer vermuteten Inhaltsvalidität zu einem theoretisch wenig explizierten Konstrukt zusammengestellt werden.
  • Also, es gibt rational versus intuitiv.
  • Schauen wir uns an, wie ist das Vorgehen bei diesem rationalen Ansatz.

Also, man braucht zunächst mal das Vorliegen einer Theorie.

  • Das heißt ja rational-deduktiv.
  • Es wird etwas deduziert.
  • Hier oben schwebt die Theorie.
  • Aus dieser Theorie wird etwas deduziert, abgeleitet.
  • Das heißt, es muss erst einmal eine Theorie vorliegen, zum Beispiel jetzt Cartells Intelligenztheorie, darüber, wie sich Personen hinsichtlich bestimmter Merkmale beschreiben lassen und voneinander unterscheiden.
  • Dann wird eine nähere Spezifizierung und Definition des interessierenden Konstrukts vorgenommen.
  • Zum Beispiel bildet man Subkategorien der Intelligenz wie fluide und kristalline Intelligenz, die sich wiederum aus Unterskalen zusammensetzen.
  • sowie von Verhaltensindikatoren, anhand derer sich diese hypothetischen Konstrukte im Verhalten erkennen lassen.
  • Zum Beispiel eben jetzt im Intelligenzbeispiel das Lösen bestimmter Aufgaben.
  • Also, ich habe a priori ein bestimmtes Intelligenzmodell, das postuliert wird, und versuche daraus deduktiv abzuleiten, wie die Items aussehen müssen, damit ich dieses Modell messen kann.
  • Das heißt, für jeden Bereich werden dann Items in Form von Aufgaben oder Fragen nach möglichen Verhaltensweisen zu Skalen oder Subtests zusammengestellt, die als Indikatoren in Betracht kommen.
  • Und damit ich dann auch überprüfen kann, was ich gemacht habe, ob das stimmt, muss ich natürlich noch eine Validierung der so gefundenen Skala an einem Kriterium vornehmen.
  • Gut.
  • Das war der rational-deduktive Ansatz.
  • Kommen wir schon zum Nächsten.
  • Der externe kriterienbezogene Ansatz geht jetzt anders vor.
  • Eine Skalenkonstruktion erfolgt dann extern, wenn Items aufgrund ihrer Diskriminationsfähigkeit zwischen Mitgliedern verschiedener Gruppen und eben nicht aufgrund ihrer inhaltlichen Bedeutung zusammengestellt werden.
  • Das ist also eine ganz andere Denkweise.

Bitte?

  • Das ist der intuitive Ansatz.
  • Das ist der externe Ansatz.
  • Das Intuitive, die Ansätze sind übrigens keine Gegenteile voneinander, dazu komme ich gleich noch, man kann sie auch kombinieren.
  • Nur das Gegenteil von rational wäre eben das Intuitive gewesen.
  • Aber sonst stehen die vier Ansätze, die nebeneinander stehen, und man kann sie gut kombinieren. Wir kommen, ich schätze, in ungefähr 20 Minuten darauf zu sprechen.
  • Das heißt, hier ist die Denkweise ganz anders, man möchte hier unterscheiden.
  • Unterscheiden ist hier nicht politisch gemeint, sondern einfach nur im Wortsinne.
  • Das heißt, wenn ich zwischen Gruppen unterscheiden muss, dann muss ich, möchte ich, dann brauche ich natürlich erst einmal das Vorliegen von mindestens zwei Gruppen in der sozialen Realität, sonst kann ich nicht unterscheiden.
  • Und zwischen diesen, zwischen denen der zu entwickelnde Test diskriminieren soll, zum Beispiel Haupt- versus Sonderschüler oder psychisch Auffällige versus psychisch Normale.
  • Wiederholend hier, diskriminieren heißt, ist hier nicht politisch gemeint, sondern einfach nur unterscheiden.
  • Und den Mitgliedern der Gruppen wird eine möglichst große und inhaltlich breit gefächerte Zahl von Items vorgelegt, in der Hoffnung, dass sich darunter einige befinden werden, also einige Items, die zwischen den Gruppen empirisch diskriminieren, also unterschiedliche Lösungswahrscheinlichkeiten zeigen.
  • Stellen Sie sich vor, Sie machen für eine große Luftfahrtsgesellschaft Pilotenauswahl.

Das könnte ja sein.

  • Und die Fluggesellschaften fürchten eigentlich nichts mehr, als dass eine ihrer Maschinen nicht sicher zurückkommt.
  • Demzufolge gibt es technische Gründe dafür, aber es gibt auch Gründe, die bei den Piloten oder dem Pilotenteam liegen.
  • Deshalb wird die Personalauswahl dort sehr, sehr intensiv betrieben.
  • Und Sie könnten jetzt hier einen Test konstruieren, der Items herausfiltern soll.
  • Also, Sie wollen unterscheiden zwischen welchen Gruppen.

Genau, gute und schlechte Piloten.

  • Und dazu könnten Sie eine Forschung durchführen und in der Vergangenheit schauen, welche…
  • Sie haben also eine Gruppe, einen Datensatz von Leuten, die gute Piloten sind und Leute, die schlechte Piloten sind.
  • Und Sie könnten so herausfinden, in welchen Variablen sich die Mitarbeiter, also die Piloten in diesen beiden Gruppen, eigentlich unterscheiden.
  • Und diese Variablen, die dabei herauskommen, unterscheiden zwischen guten und schlechten Piloten und sind dann für die Personalauswahl, für Sie, Gold wert.
  • Weil dann nehmen sie die Variablen, die diskriminieren, her und stellen anhand derer fest, wird derjenige, der sich jetzt hier bewirbt, vermutlich eher zu der Gruppe der Guten oder zu der Gruppe der schlechten Piloten gehören.
  • Das ist der Ansatz.
  • Das heißt, es werden dann diejenigen möglicherweise sehr heterogenen Items delegiert und zu inhaltlich nicht interpretierbaren Skalen zusammengefasst, die zwischen den Gruppen statistisch bedeutsam unterscheiden und bei denen diese Diskrimination in einer Kreuzvalidierung bei anderen Personen standhält.
  • Da gibt es einen Running-Gag in der psychologischen Diagnostik. In einer Vorversion eines klinischen Tests, der Minnesota Multiphasic Personality Inventory aus den 60ern heißt, gab es ein Item, das lautete: 'Ich trage gerne gelbe Jacken.'
  • Das ist ein Beispiel dafür, dass es absolut inhaltlich unbedeutende Items sein können.
  • Und dieses Item diskriminierte signifikant zwischen Schizophrenen und Nichtschizophrenen.

Sie lachen, ich lache auch immer wieder.

  • Ich finde es scheinbar so absurd, aber in der damaligen Stichprobe kam das heraus.
  • Schizophrene trugen damals gerne Jacken, Nichtschizophrene nicht.
  • Demzufolge hatte dieses Item eine statistisch abgesicherte Diskriminationsmöglichkeit zwischen diesen beiden Gruppen.
  • So, und jetzt Ihre Fragen bitte.
  • Es könnte jetzt hier auch passieren, dass wir zufällig alle, sind es die Großkopfhörner zum Beispiel, die dann die angeblich besseren Flieger waren halt.
  • Also, es könnte auch sein, dass man eine Kredierung eben nimmt, dass eigentlich gar nichts gesagt wird und es sich zufällig so ergeben hat, eigentlich.
  • Obwohl es gar nichts mit der Qualität der Pille zu tun hat.
  • Genau, das kann sein.

Wie kann ich das dann herausbilden?

Okay, also Großkopfhalten, meinen Sie damit sozusagen das Establishment?

  • Ich denke zum Beispiel wirklich, sie haben den Kopfumfang gemessen und zufälligerweise waren alle ein bisschen größer im Kopf.
  • Oder so groß ist das egal.
  • Angenommen, sie hätten jetzt den Kopfumfang der Leute gemessen und sie hätten das in dieser Datenbank, und diese variable Kopfumfang würde differenzieren, dann hätten sie zunächst mal nur diesen Befund.
  • Eine Kausalität impliziert das noch lange nicht.
  • Diese Methode impliziert keine Kausalität.
  • Sie nehmen das zunächst mal zur Kenntnis, da kommen teilweise ganz überraschende Befunde heraus.
  • Sagen wir zum Beispiel jetzt der Kopfumfang bei der Pilotenauswahl.
  • Könnte so einer sein.
  • Da muss man überlegen, ja, hat das in irgendeiner Form. Also zunächst mal sagt man bei dem Ansatz hier, ob das sinnvoll ist oder nicht, ist egal, man testet es dann ab.
  • Weil es geht nur um die Diskriminierung.
  • Das Beispiel mit den gelben Jacken ist auch. Vielleicht war das jetzt zufällig, also vielleicht ist es zufällig zustande gekommen. Vielleicht ist es auch nicht zeitstabil und vielleicht ist es auch nur beschränkt auf eine Stichprobe, die man gerade untersucht.
  • Und um die Stichprobenabhängigkeit dieser Erkenntnis mit den gelben Jacken aus den 60er Jahren zu überprüfen, kann man eine Kreuzvalidierung vornehmen.
  • Man macht eine Studie an einer anderen Stichprobe und schaut, ob es bei den Schizophrenen auch so ist, dass sie gerne die gelben Jacken tragen.
  • Mit signifikant höherer Wahrscheinlichkeit als die Nichtschizophrenen.
  • Wenn das der Fall wäre, dann könnte man sagen, das ist ein einigermaßen stabiler Befund.
  • Problem, intuitiv werden Sie es gleich erkennen, das mag zufällig jetzt daran an einem Modetrend liegen, den es vielleicht im nächsten Frühjahr nicht mehr gibt, weil dann andere Farben in sind.
  • All das muss man dann überprüfen und immer wieder neu schauen, weil Sie hier a theoretisch arbeiten, sondern rein empirisch, rein empirisch schauen, welche Variablen diskriminieren zwischen den beiden Gruppen.
  • Aus welchen Gründen auch immer, nobody knows.

Müssen Sie immer wieder neu schauen, was denn in diesem Jahr beispielsweise die diskriminierenden Variablen sind?

  • Sie haben mehr, viel mehr Sicherheit, wenn Sie im rational-deduktiven Bereich Testdiagnostik betreiben, weil Sie dann auf eine solide Theorie zugreifen können, aus der Sie etwas ableiten können.
  • Und hier ist es eben rein empirisch.
  • Wenn ich gut zwischen Schizophrenie und Nicht-Schizophrenie diskriminiert habe, dann muss es doch auch einen Grund gegeben haben, wieso man diese eigentlich guten Kriterien fallen gelassen hat.

Was war denn der Grund dafür?

Funktioniert es jetzt also nicht mehr?

  • Ich vermute, der Grund ist in irgendeiner Form. Das ist keine Begründung, aber es ist eine Vermutung von meiner Seite, dass aufgrund der Stoffwechselstörung im Gehirn, die es ja bei Schizophrenen gibt, die eine Präferenz für dieses Lichtspektrum haben, was gelb ausmacht.
  • Das wäre ein Grund, dass man sagen müsste, das wäre stabil. Das müsste man heute auch noch machen.
  • Vielleicht waren aber damals auch die Schizophrenie-Praxen oder Flure in den Krankenhäusern und Hospitälern gelb gestrichen.
  • Ich weiß es nicht.
  • Und das ist halt der Nachteil dieses Ansatzes.
  • Also dieses Item ist heute nicht mehr drin.
  • Gut, also Sie erkennen schon so ein bisschen, wie unterhaltsam dieser Einsatz in der Praxis sein kann.
  • Aber gelegentlich kann man, also man kann zumindest von der Grundidee her hier schon arbeiten.
  • Bitte.
  • Bei einem Beispiel zum Kopfumfang und dem Piloten müsste man quasi den Kopfumfang nochmal einer anderen Normgruppe testen und könnte es dann als Kriterium aufnehmen.
  • Bei Piloten einer anderen Airline würde man auch prüfen, ob die Personen mit dem größeren Kopfumfang auch die besseren Piloten sind.
  • Und so könnte man es dann kreuzvalidieren, indem man an einer anderen Stichprobe den Befund überprüft.
  • Schon die nächste Testkonstruktion, nämlich die induktive oder auch faktorenanalytische Konstruktion genannt.
  • Und die funktioniert so. Eine Skalenkonstruktion erfolgt dann induktiv, wenn Items blind analytisch mittels einer Faktorenanalyse zu Skalen gruppiert werden, die empirisch hoch miteinander korrelieren und damit gemeinsam eine Dimension konstituieren.

Also, die Items sollen. Haben Sie ein praktisches Beispiel?

  • Vielleicht aus dem Vorwissen in Persönlichkeitspsychologie, wo das Thema zum Tragen gekommen ist.
  • Bevor ich sage, ich denke, Sie wissen das auch.
  • NeopIR zum Beispiel.
  • NeopIR, ja, der basiert auf dem Ansatz, ein wenig, aber, ja.

Können Sie es noch präzisieren?

Ist nicht falsch, aber kann man noch ein bisschen präzisieren?

  • Ja, die Big Five.
  • Die Big Five, okay.
  • Die Big Five als solche im lexikalischen Ansatz.
  • Kurzer Reminder: lexikalischer Ansatz.
  • Es gab diese Streitereien darüber, wie man Persönlichkeitsstrukturen oder Persönlichkeit beschreiben kann, mit welchen Strukturen.
  • Großes Hickhack in der Persönlichkeitspsychologie über Jahrzehnte.
  • Bis dann die Leute kamen und dachten, okay, Persönlichkeit kann ich beschreiben mit Adjektiven.
  • Diese Adjektive sind sprachspezifisch. Die kann ich den entsprechenden Lexika der sprachlichen Kultur entnehmen.
  • Dann nehme ich zum Beispiel dann noch wertende Adjektive raus, wie gut und böse, oder was Aussehen betreffende Adjektive raus, wie sexy oder hässlich.
  • Und die anderen Adjektive kann ich im Wesentlichen beibehalten.
  • Gut, diese Adjektive gibt man dann Leuten vor. Sie sollen auf einer Ratingskala ausfüllen, wie stark die zutreffen.
  • Für sich selbst.
  • Beispielsweise fünfstufig.
  • Das kann man in der Selbstbeschreibung machen, oder in Fremdbeschreibung machen.
  • Und dann kann ich diese Items verwenden, den Datensatz, den ich so erzeugt habe, und sagen: 'Okay, jetzt schaue ich mal empirisch, welche Strukturen gibt es denn überhaupt zur Persönlichkeitsbeschreibung.'
  • Und genau so ist es im lexikalischen Ansatz gemacht worden, wo die Items nur aus Adjektiven bestehen.
  • Das ist auch eine Kritik, die gelegentlich am lexikalischen Ansatz bei den Big Five geäußert wird.
  • Aber Sie sehen, das erfüllt hier alle Voraussetzungen.
  • Die Items werden bei einer Faktorenanalyse blind analytisch gruppiert, sodass sie empirisch stark miteinander korrelieren und möglichst gering mit den anderen Items einer Skala korrelieren. Es sollte also eine Einfachstruktur vorliegen, und gemeinsam eine Dimension konstituieren.
  • Im Beispiel der Big Five im lexikalischen Ansatz war es natürlich, dass Items, die gesellig sind, genannt werden. Nennen Sie noch ein paar andere, Sie wissen es auch.
  • Offenheit ist jetzt ein anderer Faktor.
  • Aber wenn Sie an Geselligkeit denken, fallen Ihnen bei Neurotizismus ein paar Items ein, wie ängstlich, verspannt, gestresst und so weiter.
  • Diese Items konstituieren einen Faktor: Extraversion, Geselligkeit, Frohsinnigkeit und so weiter. Offenheit, Gebildetheit, Gescheitheit, Intelligenz, Gewissenhaftigkeit, Ordentlichkeit, Zuverlässigkeit, Verträglichkeit. Genau so ist man darauf gekommen.
  • Also, das ist der Induktiv. Die Items im Big-Five-Ansatz unter Punkt lexikalischer Ansatz sind genauso verrechnet worden.
  • Und so sind die Skalen im lexikalischen Ansatz konstruiert worden.
  • So, jetzt Ihre Fragen, bitte.

Aber wo kriege ich die Items her, die ich dann reduziere durch die Faktorenanalyse?

Nachher nicht immer den lexikalischen Ansatz, oder?

  • Nein, den lexikalischen Einsatz machen sie nicht immer, weil das wäre auch viel zu viel Arbeit.
  • Hier, das war ein Beispiel, wo man dann die Items herholen könnte.
  • Sie können sie auch hernehmen, indem sie intuitiv sich brainstormingmäßig Items überlegen, die einigermaßen passen könnten.
  • Das wäre auch induktiv.
  • Blindanalytisch heißt nach rein statistischen Kriterien.
  • Also rein analytisch, basierend auf statistischen Prozeduren.
  • Sie haben hier überhaupt keine…

Sie kennen ja den Unterschied zum deduktiven Ansatz, nicht wahr?

  • Beim deduktiven Ansatz haben Sie eine Theorie vorliegen und deduzieren aus dieser Theorie Items.
  • Beispielsweise suchen Sie nach Items zur Messung der kristallinen Intelligenz und zur Messung der fluiden Intelligenz.
  • Sie deduzieren die Items aus der Theorie.
  • Und hier ist es so, rational deduktiv wäre top-down, das Vorliegen einer Theorie, und daraus deduziere ich, also top-down.
  • Der Ansatz hier ist bottom-up.
  • Sie fangen unten an, induktiv, und schauen, was für Strukturen herauskommen, auf Grundlage der statistischen Analyse, ohne sich vorher Gedanken gemacht zu haben, welche Konstrukte dabei herauskommen oder welche Struktur sich daraus ergeben könnte.
  • Im lexikalischen Ansatz gibt es eigentlich nur theoretische Überlegungen zur Vollständigkeit dieses Adjektivwissens.
  • Wenn man einfach sagen kann, ich schaue mir 20 verschiedene Lexika zu einer Sprache an und ich suche alle Adjektive raus, kann ich davon aus theoretischer Überlegung relativ sicher gehen, dass mindestens 90 Prozent aller möglichen theoretischen Systeme. Okay, der Ansatz.
  • Da sind die Big Five und der lexikalische Ansatz eigentlich ein guter Ansatzpunkt.
  • Man wollte die Persönlichkeitsstruktur jenseits der Querelen, die es im Forschungsfeld gab, möglichst vollumfänglich beschreiben.
  • Deshalb hat man zunächst mal alle Adjektive reingenommen.
  • Und dann, aber dann schon, und da sehen Sie, das war jetzt nicht ganz trennscharf zum rational-deduktiven Ansatz, sich überlegt, dass die Items das Aussehen betreffend, usw.
  • Und bewertende Sachen rausgelassen werden.
  • Das ist eigentlich jetzt schon ein Element aus dem rational-deduktiven.
  • Und das ist sozusagen eine Vorankündigung dessen, dass man diese Testkonstruktionsansätze hervorragend kombinieren kann.
  • Rein, also die reine Lehre rational, induktiv, faktorenanalytisch betrachtet, wäre, man nimmt wirklich alle potenziell persönlichkeitsbeschreibenden Adjektive rein aus den verschiedenen Lexika einer Sprachkultur und entscheidet dann post hoc, welche Faktoren zum Beispiel das Aussehen betreffen, man weglässt.
  • Das wäre die reine Lehre.
  • Aber das haben die damals auch nicht gemacht, weil das natürlich noch viel mehr Arbeit wäre.
  • Und die Listen, die man dann ausfüllen muss, sind noch viel länger.
  • Und deshalb hatte ich eben auch gesagt, Ihr Kommilitone sagt gerade bei Frageitems, also wenn die Items jetzt keine reinen Adjektive sind, sondern in Frageform formuliert sind, wie es ja beim NEO-PI-R der Fall ist, was Sie gerade gesagt haben, dann nennt man das nicht mehr den lexikalischen Ansatz, sondern den Fragebogenansatz.
  • Also, die arbeiten beide mit Fragebögen, aber der lexikalische Ansatz arbeitet nur mit Adjektiven und der Fragebogenansatz arbeitet ja mit ausformulierten Sätzen.
  • Und die sind dann meistens schon gekennzeichnet durch ein Element rational-deduktiven Vorgehens, weil die ja bewusst so formuliert wurden.

Okay?

  • Ja, hier ist er.

Das heißt, wie geht man vor?

  • Nochmal zusammenfassend, wir haben es im Wesentlichen schon gesagt.
  • Ein möglichst umfangreicher und für die Zielkonstrukte repräsentativer Item-Pool wird einer möglichst umfangreichen und für die Zielgruppe repräsentativen Personenstichprobe zur Beantwortung vorgelegt.
  • Mittels einer Faktorenanalyse werden die Items zu gruppenhoch interkorrelierenden Skalen zusammengefasst.
  • Ziel ist eine Einfachstruktur.
  • Einfachstruktur heißt faktorenanalytisch gesprochen, man hätte gerne die optimale Interpretierbarkeit des faktorenanalytischen Ergebnisses.
  • Ein Item sollte möglichst hoch auf einen bestimmten Faktor laden und möglichst niedrig auf allen anderen.
  • Das wäre eine einfache Struktur, die für den Anwender dann am einfachsten zu interpretieren ist.
  • Beispielsweise sollte das Item nur auf den Geselligkeitsfaktor hochladen und möglichst niedrig auf allen anderen vier Big-Five-Faktoren.
  • Die einzelnen Faktoren oder Skalen werden interpretiert, indem man nach einer Gemeinsamkeit aller Items einer Skala sucht.
  • Okay, das ist ja nicht weiter schwierig.
  • Sie wissen ja, bei der Faktorenanalyse, den Namen für den Faktor, den müssen Sie sich selbst überlegen anhand der hochladenden Items.
  • Der wird Ihnen ja von SPSS nicht mitgeliefert.
  • Das kann das Programm nicht.
  • Da müssen Sie selbst tätig werden.
  • Gut, kommen wir schon zum letzten Konstruktionsansatz.
  • Und der funktioniert jetzt nochmal anders als alle anderen.
  • Und der hat auch einen treffenden Namen, nämlich heißt Prototypischer Konstruktionsansatz.

Weshalb heißt der so?

  • Eine Skalenkonstruktion erfolgt dann prototypisch, wenn überwiegend solche Items zu Skalen zusammengefasst werden, die für eine Dimension, die Dimension kann zum Beispiel intelligent, dominant, aggressiv, besonders prototypisch oder zentral sind.
  • Also, es geht darum, Items zu finden, die besonders prototypisch, zentral, repräsentativ sind für eine bestimmte Dimension, zum Beispiel intelligent oder dominant oder so.

Wie kann man da vorgehen?

  • Da gibt es einen Ansatz, den sich der Herr Bass überlegt hat.
  • Der Herr Bass, das ist derselbe, der auch evolutionäre Psychologie auf einem hohen Level betreibt.
  • Der heißt Act Frequency Approach oder deutsch übersetzt Handlungshäufigkeitsansatz.

Wie geht man also vor nach diesem Ansatz?

  • Man wählt zunächst mal diejenige Eigenschaft, für die eine Skala konstruiert werden soll, aus, zum Beispiel Aggressivität.
  • Und Sie möchten ja, so lautet der Ansatz, möglichst prototypische Items finden für diese Dimension Aggressivität.

Wie kommen Sie jetzt da ran?

  • Naja, es funktioniert so.
  • Versuchspersonen, also Sie fragen beispielsweise fünf Freunde von Ihnen, die Ihnen helfen bei Ihrer Diplomarbeitskonstruktion, sogar in Konstruktionen auf dem prototypischen Ansatz.
  • Und diese Versuchspersonen sollen an diejenigen Bekannten aus Ihrem Umfeld denken, bei denen diese Eigenschaft besonders stark ausgeprägt ist.
  • Also zum Beispiel die Freundin von Ihnen, eine von den fünf, sagt dann, ja, da habe ich einen Nachbarn, der ist besonders aggressiv.
  • Okay, also sie denkt an den Nachbarn, ja, auf den trifft das zu.
  • Und jetzt geht es weiter.
  • Die Versuchsperson soll dann konkrete Verhaltensweisen dieser Person nennen, die indikativ für die Eigenschaft sein sollen.

Okay, also Ihre Versuchsperson denkt an den Nachbarn, der so aggressiv ist und überlegt sich jetzt, was sind eigentlich die Verhaltensweisen, die dieser aggressive Nachbar zeigt?

  • Die schreibt sie auf, die Versuchsperson.
  • Dann werden die so erhaltenen Items anderen Versuchspersonen vorgelegt, die sie nach ihrer Prototypizität hinsichtlich des Merkmals einschätzen sollen.
  • Das macht man deshalb. Sie fragen ja die eine Freundin aus ihrem bekannten Kreis. Und sie fragen nach, was sie für typisch, für prototypisch, für aggressive Verhaltensweisen hält.
  • Damit das jetzt aber nicht nur ihre Einzelmeinung ist, sondern auch andere Leute diese Verhaltensweisen, die der aggressive Nachbar zeigt, als aggressiv einstufen, sollen dann auch andere Leute drüber gucken und beurteilen, ob sie das wirklich für prototypische Items für Aggressivität halten.
  • Und das heißt also, diese Beurteiler sollen feststellen, wie prototypisch oder charakteristisch die für die Aggressivität gesammelten Verhaltensweisen oder auch englisch jetzt Acts ihrer Meinung nach sind.
  • Und man wählt dann nachher die Items aus, von denen das Fünfer-Gremium ihrer Versuchspersonen übereinstimmend, hoch übereinstimmend sagt, das sind für uns charakteristische Verhaltensweisen für Aggressivität.
  • Ein wenig.
  • Es ist ein wenig so, ja.
  • Weil die Versuchspersonen zunächst mal quasi theoretisch schauen, was bedeutet für mich Aggressivität und wer zeigt diese Verhaltensweisen.
  • Es ist ein wenig, ein wenig hat es Elemente davon, ja, ist richtig.
  • Das heißt, der Itemsatz, der dann nachher resultiert, ist von dem Gremium, was Sie eingesetzt haben, als besonders prototypisch charakteristisch eingeschätzt worden für die Verhaltensweise des Konstrukts, das Sie messen wollen.
  • Das hat verschiedene Vor- und Nachteile.
  • Vorteile davon sind, mit prototypischen Items lassen sich kürzere Skalen konstruieren, weil Sie besonders trennscharfe Items haben, auf diese Weise.
  • Nach Prototypizitätseinschätzungen konstruierte Skalen zeigen höhere Validitäten bei Fremdeinschätzungen als Kriterium, hat man auch gefunden.
  • Also, das scheint gut zu funktionieren, aber es gibt Nachteile oder mögliche Nachteile, und das liegt genau in dem Punkt begründet, wenn diese Items charakteristisch sind, also diese Verhaltensweisen, die Sie finden, die zu Items werden.
  • Besonders charakteristisch sind für eine Dimension, dann erkennen Sie die als typisch an, ich erkenne die als typisch an, Sie auch.
  • Das heißt, es ist für alle offensichtlich, was diese Items messen.
  • Wenn das aber der Fall ist, dann habe ich eine besonders hohe Verfälschungsmöglichkeit.
  • Das heißt, so produzierte Items sind für die Versuchspersonen extrem durchschaubar.
  • Da sie ja gerade allgemein als prototypisch charakteristisch für zum Beispiel Aggressivität gelten und als solche von fast jedem erkannt werden, sind sie verfälschungsgefährdet.
  • Man denke zum Beispiel an eine Personalausweissituation.
  • Also, wenn Sie jetzt zum Beispiel ein Testverfahren konstruieren wollen, das illoyales Verhalten gegenüber dem Arbeitgeber misst, fragen Sie nach fünf Leuten, und diese denken wieder an Personen, die illoyal gegenüber ihrem Arbeitgeber sind.
  • Da kommt dann raus, Stehlen im Betrieb, Arbeitszeit, Betrug, also Ausstempeln.
  • vergessen auszustempeln und erzählt das schön fürs Lohnkonto und so weiter.
  • Diese Sachen, da kämen solche Verhaltensweisen wahrscheinlich raus.
  • Die sind aber gleichzeitig, wenn sie das abtesten wollen in einem Assessment Center für Trainee-Auswahl oder so etwas, wissen die Leute sofort, was da gemessen wird und werden wahrscheinlich dann sozial erwünscht angeben.
  • Gut, das ist der Preis, den man zahlen muss.
  • Wenn man besonders prototypisch arbeitet, ist man extrem durchschaubar.
  • Bitte.
  • Also ich weiß nicht, wie man das genau formulieren soll, aber ich versuche es mal.
  • Also das auf diese Methode der deduktiven Altenproduktion.
  • Das kommt mir am wissenschaftlichsten vor, in meinem Verständnis, weil die anderen Verfahren ja auch sehr auf die Konstitution der Wirklichkeit gezogen sind, die in einer Gesellschaft vorliegt.
  • Gerade bei den Verfahren, wenn man Leute fragt, dann bezieht sich das auch immer darauf, wie zum Beispiel hierzulande in unserer Gesellschaft bestimmte Dinge definiert werden.
  • Speziell eigentlich für unser Verständnis, denn zum Beispiel von Rassismus und so weiter.
  • Ja, ist absolut kulturabhängig.
  • Einverstanden.
  • Man könnte allerdings auch argumentieren, der rational-deduktive Ansatz ist jetzt deshalb nicht unbedingt besser, weil die Theorien stammen ja üblicherweise auch von Leuten, die in dieser Gesellschaft aufgewachsen sind und hier verwurzelt sind.
  • Demzufolge sind wahrscheinlich die Theorien auch kulturabhängig.
  • Also, insofern, aber im Prinzip den wissenschaftlichsten Touch hat natürlich das Rational-Deduktive, weil man schon auf ein Modell zurückgreifen kann und dann Items daraus ableitet.
  • Aber man kann mit allem anfangen.
  • Es hat auch ein bisschen damit zu tun, in welchem Stadium sich die Disziplin befindet, in der Sie jetzt forschen wollen.
  • Heute braucht beispielsweise jetzt keiner mehr induktiv-faktorenanalytisch im Persönlichkeitsbereich zu arbeiten.
  • Das ist schon geleistet worden.
  • Da gibt es mittlerweile eine Menge Theorien.
  • So stark explorativ braucht man mittlerweile kaum mehr zu arbeiten, weil es schon viel Vorerfahrung gibt.
  • Aber wenn Sie sich gerade von Vorerfahrung losmachen wollen oder bei theoretischen Querelen und Hickhack-Debatten in der Persönlichkeitspsychologie als Disziplin lange gegeben hat, dann ist so ein Ansatz natürlich potenziell eine Brücke zwischen den einzelnen, wenn man so will, Kriegsschauplätzen.
  • Bewusst atheoretisch vorzugehen.
  • Mittlerweile ist das Fünf-Faktor-Modell recht gut etabliert, das hat es geschafft.

Bei Persönlichkeitstests kopieren wir normalerweise, aber es sollte dennoch unterscheidbar sein.

  • Das ist ein ganz wichtiges Kriterium.

Ist es dann nicht eher kritisch zu sehen, einen Test für Selbstbeurteilung zu kreieren, jetzt wie bei dem prototypischen Ansatz, mit Items, die durch Fremdbeurteilung kreiert wurden?

Ja, okay.

  • Die Frage ist interessant.
  • Ich sehe es nicht als kritisch an, weil es zugunsten der Prototypizität und sozusagen der objektiven Einschätzung, dass diese Verhaltensweise, die resultiert, wirklich prototypisch ist, muss sich andere befragen.
  • Gerade in den kritischen Bereichen von Aggressivität und Intelligenz könnte vielleicht eher eine Hürde des Verbands zwischen Fremd- und Selbsteinschätzung vorliegen.
  • Okay, das wäre eine Erweiterung des Ansatzes, ja.
  • Also, wie ich bereits erwähnt habe, war der Frequency Approach meine Herangehensweise, aber es wäre interessant zu erweitern, indem man sagt, okay, bezüglich der Personen, über die man Fantasien hatte, wie zum Beispiel der aggressive Nachbar, könnte man ihn natürlich selbst nach seiner Selbsteinschätzung befragen, ja.
  • Das ist in der Tat eine interessante Erweiterung, ja.
  • Stimmt, das könnte man tun.
  • Gute Idee.

Sind Sie selbst darauf gekommen oder haben Sie es irgendwo gelesen?

  • Ja, das finde ich gut.
  • Die Wissenschaft entwickelt sich ständig weiter, und gute Ideen tragen immer dazu bei, tiefere Erkenntnisse zu gewinnen.
  • Demzufolge bin ich sehr dankbar für solche Anregungen.
  • Gut, jetzt machen wir noch eine Zusammenfassung dieser vier Ansätze.

Oder zunächst einmal, was kann man im Vergleich machen?

  • Also die Kombination verschiedener Ansätze ist möglich, wie ich bereits zu Beginn gesagt habe, denn die verschiedenen Ansätze können hinsichtlich verschiedenster Aspekte miteinander kombiniert werden.
  • Zum Beispiel können Items rational und prototypisch erdacht mittels der Ergebnisse einer Faktorenanalyse bereinigt werden und dann an Extremgruppen überprüft werden.
  • Dann hätten Sie alles drin, alle verschiedenen Ideen von Testkonstruktionsansätzen.

Was müssen wir beachten bei interner Konsistenz und Reliabilität?

  • Da rational und induktiv entwickelte Skalen inhaltlich homogener sind, das heißt, die Items korrelieren höher miteinander als extern konstruierte Skalen, weisen sie auch eine höhere interne Konsistenz und in der Regel eine höhere Reliabilität bei gleicher Testlänge auf.
  • Das muss man natürlich jetzt beachten.
  • Rational und induktiv entwickelte Skalen korrelieren höher, sind also homogener.
  • Wohingegen zum Beispiel der Item-Satz, der aufgrund ihrer Studie resultieren könnte, bei dem externen kriteriumsbezogenen Ansatz, könnte sein, ich trage gerne gelbe Jacken oder ich mag keine Haustiere oder es könnten so Items herauskommen, die diskriminieren zwischen Schizophrenen und Nichtschizophrenen.
  • Diese Items kann man nicht zu einer Skala kombinieren.
  • Deshalb sind sie in der Regel heterogener, messen also nicht dasselbe.

Okay?

  • Das heißt, der bietet sich dann wahrscheinlich nicht an, Chromax Alpha als Reliabilitätsschätzung heranzuziehen, weil Tests, die nach einem externen kriteriumsbezogenen Ansatz konstruiert wurden.
  • Das ist im Übrigen als Vorgriff eine Kritik an dem MMPI.
  • Der MMPI ist so konstruiert worden, dass er Items herausfindet oder dass dort Items aufgeführt werden, die potenziell zwischen psychisch auffälligen Leuten und psychisch, in Anführungszeichen, normalen Leuten unterscheiden.
  • Also das ist eine Umsetzung des extern kriteriumsbezogenen Ansatzes.
  • Trotzdem wurde aber mit Cronbachs Alpha die Reliabilität bestimmt, die häufig nicht besonders gut ist.
  • Kein Wunder.

Ein weiterer Punkt ist die Stichprobenanfälligkeit.

  • Insbesondere induktiv konstruierte Tests sind in ihrer Validität in hohem Maße davon abhängig, inwieweit Untersuchungs- und Anwendungsstichprobe ähnlich zusammengesetzt sind.
  • Das ist klar, weil die induktiv faktorenanalytisch konstruierten Tests sind ja stichprobenabhängig.
  • Unter anderem deswegen hat man in der Big-Five-Forschung nach dem lexikalischen Modell in ganz verschiedenen Sprachkulturen versucht, die Big-Five zu finden und hat es häufig auch geschafft.
  • Wenn das der Fall ist, dann ist die Erkenntnis nicht mehr stichprobenabhängig, und dann kann ich davon ausgehen, dass das ein valides Persönlichkeitsbeschreibungsmodell ist.
  • Der Punkt Verfälschbarkeit durch Testbeantworter ist insbesondere bei extern konstruierten Skalen gering.
  • Das ist das Gute.
  • Ich trage gerne gelbe Jacken.
  • Naja, da komme ich ja im Leben nicht drauf, dass ich dann schizophren bin, wenn ich gelbe Jacken trage.
  • Die sind also absolut undurchsichtig.
  • In dieser Hinsicht für Tests besonders vorteilhaft unter Verfälschbarkeitsgesichtspunkten, da hier die Messintention oft nicht evident ist.
  • Hohe Anfälligkeit für Verfälschungsversuche gibt es natürlich bei Tests, die nach dem Prototypenansatz konstruiert wurden. Das hatten wir gerade schon gesagt.

Wie sieht es mit Validitäten aus?

  • Es zeigt sich keine konsistente Überlegenheit von Konstruktionsstrategien gegenüber anderen hinsichtlich der Validitäten.
  • Also, man kann nicht a priori sagen, eine Methode ist jetzt deutlich besser als eine andere.
  • Am besten ist wahrscheinlich in der Regel sowieso eine Kombination hier.
  • Hinsichtlich der Ökonomie sind rationale Skalen besonders ökonomisch zu entwickeln.
  • Und ihre Testergebnisse sind aufgrund der Verwendung von alltagsnahen Dimensionen leicht kommunizierbar.
  • Insofern ist es unter ökonomischen Gesichtspunkten vorteilhaft, rational vorzugehen.
  • Und das Ganze hier ist so ein kleiner Gag, der überleiten soll zum Thema Gütekriterien, mit denen wir uns jetzt gleich auseinandersetzen werden.
  • Ich habe natürlich jetzt nicht bedacht, dass Sie die Folien schon haben.
  • Dann funktioniert der Gag nicht mehr.
  • Also, bitte schauen Sie mal jetzt nicht in Ihre Folien rein.
  • Das funktioniert nicht.
  • Ich hätte das vielleicht besser rauslöschen sollen.
  • Oder abschließend vielleicht zu den Konstruktionsstrategien.

Gibt es da noch Fragen, die wir jetzt gleich klären sollten?

Also die übergeordnete Frage war, wie komme ich überhaupt zu Items?

  • Die Antwort des rational-deduktiven Ansatzes war, ich schaue mir die Theorie an und leite die Items ab.
  • Der Ansatz beim extern kriteriumsbezogenen Testkonstruktionsansatz war, naja, ich schaue mir mindestens zwei verschiedene Stichproben an und gucke, welche Variablen zwischen den beiden Gruppen diskriminieren.
  • Dann habe ich meine Items, nämlich die diskriminierenden Items, nehme ich dann her.

Wie komme ich beim induktiv-faktorenanalytischen Ansatz zu meinen Items?

  • Zum Beispiel Big Five-mäßig, ich nehme mal alle potenziell relevanten Items her, lasse eine Faktorenanalyse darüber laufen und schaue mir dann die Struktur an.

Und beim prototypischen Ansatz, wie komme ich da zu Items?

  • Zum Beispiel nach dem Act-Frequency-Approach.
  • Ich frage Leute, zum Beispiel denkt an Leute, die besonders aggressiv sind, schreibt die Verhaltensweisen dieser aggressiven Personen auf.
  • Dann schauen noch mal ein paar andere Leute drüber.

Ist das wirklich besonders prototypisch für Aggressivität?

  • Wenn ja, haben Sie ihre Items nämlich zur Messung von Aggressivität so gewonnen.
  • Also, es sind vier verschiedene Möglichkeiten, die man, wie gesagt, kombinieren kann, um an den Item-Pool zu kommen.
  • Und diesen Item-Pool durchforsten Sie dann nach der Art und Weise, wie wir es anfangs in der Vorlesungsreihe Testtheorien kennengelernt haben.
  • Dann schauen Sie wieder auf die Item-Formulierung, dann schauen Sie auf die statistischen Kriterien und suchen sich nachher die allerbesten Items zur Messung Ihrer Zielkonstrukte raus.

Gut?

Keine Fragen?

  • Wunderbar.
  • Dann machen wir weiter.
  • So, das ist ein kleiner Test für Sie, der mit der nachfolgenden Thematik etwas zu tun hat.
  • Also, Sie sehen vier Items, und es geht darum, dass dies ein Personalauswahltest sein soll.
  • Schauen wir uns das mal an.
  • Die erste Frage.
  • Bitte behalten Sie die Antwort für sich.
  • Ich werde Ihnen die Lösung gleich liefern.

Brauchen Sie noch Bedenkzeit?

Sehen Sie, genau das sollte man jetzt nicht machen.

  • Also, Sie werden jetzt unter Assessment-Center-Bedingungen leider disqualifiziert.
  • Also sehen Sie hier, die Antwort finden Sie vor.
  • Und das Ganze, Sie kriegen hier noch eine Erläuterung, was die Messintention dieser Frage war, finden Sie in Gelb.
  • Gut, das war die erste Frage.
  • Derart vorbereitet fühlen Sie sich sicher topfit für die nächste.
  • Wagen wir die Auflösung.
  • Also wahrscheinlich werden nicht alle auf diese Musterlösung gekommen sein, aber die ist auch schon in gewisser Form kreativ und herausfordernd.
  • Wagen wir uns an das dritte Item.

Also, Sie schauen so, als wüssten Sie es.

  • Wir werden mal sehen, ob es stimmt.
  • Man beachte jetzt immer unter testtheoretischen Gesichtspunkten die Messintention, die diese Frage eigentlich hatte, die Ihnen hier in gelber Farbe offenbart wird.
  • So, das ist eine kleine Aufmunterung für Sie.
  • Jetzt kommt die Masterfrage.
  • Die kann Ihre bisherigen potenziell schlechten Leistungen jetzt ausmerzen.

Ihre Lösungsansätze bitte wieder für sich behalten.

  • Die Musterlösung wird Ihnen jetzt präsentiert.
  • Also, Sie sehen, der Test nimmt gelegentlich eine überraschende Wendung, wenn Sie die Antworten sehen.

Was hat das Ganze jetzt neben dem Fun-Aspekt nicht mit Persönlichkeit zu tun, sondern mit Testtheorien zu tun?

  • Sie haben gesehen, dieser Test ist natürlich nie im Leben ernst gemeint gewesen.
  • Hat eine gewisse Messintention, und diese Messintention wurde Ihnen jeweils in Gelb angegeben.
  • Also sollte Ihr Gedächtnis getestet werden, es sollte Ihre Lernfähigkeit getestet werden, es sollte getestet werden, ob Sie Dinge auf überkomplizierte Weise tun.

Und die große Frage, die man sich jetzt unter Gütekriterien-Gesichtspunkten stellt, hinsichtlich dieses kleinen Fun-Tests, schafft er das, diese Messintention einigermaßen abzubilden, will sagen, wird hier gemessen, was gemessen werden soll, und das ist nichts anderes als die Frage, ist dieser Test valide?

Gut, das leitet uns über zum Thema Gütekriterien.

  • Was wir schon wissen, oder was Sie schon wissen, ist, dass Itemschwierigkeit, Trennschärfe und Homogenität einen Test von seinen kleinsten Bausteinen her, nämlich den Items, charakterisieren.
  • Da haben wir viel Mühe und auch einiges an Zeit darauf verwendet, damit Sie beurteilen können, ob Items etwas taugen und welche Items man auswählt.
  • Sie merken jetzt, dass sich die Bausteine langsamer zusammenfügen.

Wissen Sie, wie Sie an den Pool von Items gelangen?

  • Das haben wir gerade vor einer Viertelstunde besprochen.
  • Testkonstruktionsansätze.
  • So haben Sie einen Pool von Items.
  • Dieser Pool von Items wird nach den sprachlichen und statistischen Kriterien verfeinert, die Sie vor einigen Wochen in der Vorlesung kennengelernt haben.
  • Das heißt, Sie können jetzt schon mal einen Test konstruieren.
  • Sie wissen, wie man an Gegenstände gelangt und wie man die gefundenen Gegenstände weiter verfeinert und die besten auswählt.

Jetzt kommen wir zur Frage, wann ein Test eigentlich etwas taugt?

  • Das möchten Sie jetzt überprüfen.
  • Und da sind wir jetzt bei den Gütekriterien genau richtig.

Das heißt, haben wir den ersten Punkt abgehakt?

Wissen Sie das schon?

  • Der nächste Punkt ist vielleicht neu für Sie.
  • Den Test als Ganzes.
  • Bisher haben wir uns auf die Einzelteile konzentriert.
  • Jetzt betrachten wir den Test als Ganzes.
  • Den Test im Ganzen charakterisieren im Rahmen der klassischen Testtheorie die sogenannten Hauptgütekriterien.
  • Und die grundlegende Frage dabei ist, wie gut durch den Test das empirische Relativ, zum Beispiel die zu erfassende Intelligenz, im numerischen Relativ, also zum Beispiel dem IQ, der Zahl, der wir der Intelligenzausprägung einer Person zuordnen, abgebildet.
  • Das heißt, das ist wieder genau die Grundidee der Testtheorie.
  • Wir können den Menschen nicht in den Kopf schauen. Wir haben nicht das Auge Gottes, wie mein Kollege Kreiker gerne sagt. Wir haben nur als Umweg die Item-Responses. Anhand der Item-Responses müssen wir auf die Merkmalsausprägung zurückschließen, und das kann jetzt funktionieren oder auch nicht.
  • In dem kleinen Gag-Test, den wir gerade gemacht haben, funktioniert es wahrscheinlich nicht.
  • Von den Antworten, die die Personen auf die dort gestellten Fragen geben, kann ich vermutlich nicht auf die Konstrukte zurückschließen, die der Test hier postuliert hat, zu messen.
  • Und das ist bei vielen Testverfahren so.
  • Obwohl es nicht ganz so offensichtlich ist, wie hier in dem kleinen Gag.
  • Das heißt, bei der Beurteilung einer spezifischen diagnostischen Methode kommt es daher auch auf die Umstände, Bedingungen und Zielsetzungen an, was zu unterschiedlichen Gewichtungen der Kriterien führen kann.
  • Deshalb gibt es Hauptgütekriterien und auch Nebengütekriterien.
  • Das schauen wir uns jetzt an.
  • Die Hauptgütekriterien sind Objektivität, Reliabilität und Validität.
  • An denen kommt keiner vorbei.
  • Diese sind unter allen Umständen verbindlich.
  • Bei den Nebengütekriterien werden im Weiteren die Normierung, die relativ testnah anzusehen ist, und die Testfairness, die relativ entscheidungsnah anzusiedeln ist, genauer ausgeführt.
  • Darüber hinaus gibt es noch ein paar weitere Nebengütekriterien, die Sie hier in dieser Grafik finden.
  • Also sehen Sie die Hauptgütekriterien.
  • Gütekriterien unterteilen sich in Haupt- und Nebengütekriterien.
  • Hauptgütekriterien haben wir gesagt, sind gerade O, R und V.
  • Und die kann man auf unterschiedliche Arten und Weisen bestimmen.
  • Das werden wir alle kennenlernen.
  • Das werden wir alle berechnen.
  • Oder fast alle berechnen.
  • Bei der Objektivität schauen wir mal her.
  • Es gibt eine Durchführungsobjektivität, eine Ausführungsobjektivität, Auswertungsobjektivität und eine Interpretationsobjektivität.
  • Alle diese messen unterschiedliche Facetten der Objektivität.
  • All das werden wir kennenlernen.
  • Bei der Reliabilität gibt es hier in der Grafik - das ist eine Grafik, die ich von Herrn Bühner entlehnt habe - die interne Konsistenz oder innere Konsistenz und die Stabilität.
  • Bei der Validität haben wir drei unterschiedliche Formen: Inhalts-, Konstrukt- und Kriteriumsvalidität. Auch darüber werden wir sprechen.
  • All das im Laufe dieser Vorlesung und den nächsten beiden.
  • Und bei den Nebengütekriterien führt mein Kollege hier noch auf: die Normierung, die Vergleichbarkeit, die Ökonomie und die Nützlichkeit.
  • Also das sollte man im Auge haben, wenn man einen Test konstruiert oder bewerten möchte.
  • Ja, bitte.
  • Die Testfairness ist jetzt hier bei meinem Kollegen nicht aufgeführt, aber Sie können hier gerne noch, können die da hinschreiben, quasi.
  • Hinsichtlich der Nebengütekriterien sind sich die Experten nicht ganz so einig, wie viele man da hinschreiben sollte.
  • Das findet man nach Autoren getrennt realisiert.
  • So, das heißt, zu den Hauptgütekriterien kann man sagen, bei der Beurteilung einer spezifischen diagnostischen Methode kommt es daher auch…
  • Ups, Entschuldigung, das hatte ich gerade schon gesagt.
  • Next one.
  • Gehen wir sie durch.
  • Die Objektivität zunächst.

Wie gut fühlen Sie sich schon informiert über diese Thematik?

  • Ich kann feststellen, aufgrund von Rückmeldungen, die mir zugegangen sind, dass Sie mittlerweile im Grundstudium bereits mit diesen Sachen vertraut gemacht wurden.
  • Ich sehe zustimmendes Nicken.
  • Nicht immer der Fall im Rahmen der Vorlesung, die ich jetzt seit einigen Jahren mache.
  • Also teilweise war es ein Erstkontakt, den die Studierenden mit diesen Sachen hatten.
  • Wenn Sie mit diesen Begriffen schon vertraut sind, würde ich vorschlagen, wir machen das etwas schneller.
  • Und nutzen die sich ergebende Zeit dann am Ende der Vorlesung, also nicht am Ende dieser Vorlesung, sondern am Ende der Vorlesungsreihe, um dann noch eine richtige Rechensession zu machen.
  • Das ist, glaube ich, eine sinnvoll investierte Zeit.

Zustimmung?

Alle enthalten?

  • Gut, wunderbar.
  • Dann gehen wir das noch durch im zügigen Tempo, und die gesparte Zeit wird anders investiert.
  • Meine Idealvorstellung ist im Moment so, dass Sie keinen Tutor bekommen werden, sondern dass ich das selbst machen werde.
  • Das muss kein Nachteil sein.
  • Idealerweise wäre es nach meinem Dafürhalten so, wenn wir es schaffen würden, vor der Klausur, die am 16.
  • stattfindet, also da ziehe ich dann mal 7 ab, da ist also am 9.
  • Juli, dass wir diese Session, diese Vorlesung nutzen, um Ihre Fragen zu beantworten hinsichtlich der Klausuren, die Sie bitte vorher rechnen.
  • Ich habe ja einige Klausuren für Sie als Download bereitgestellt auf meiner Homepage und jetzt werden die meisten Aufgaben in diesen Klausuren sich auf den Vorlesungsteil beziehen, der jetzt kommt.
  • Also die Berechnung von Reliabilität, aber natürlich auch die Sachen, die wir bisher gemacht haben.
  • Kritische Differenzen berechnen, Itemselektion, Testkonstruktionsstrategien - all das ist in den Klausuren enthalten.
  • Und die sollten Sie sich ungefähr zum jetzigen Zeitpunkt schon mal anschauen, um die Aufgaben en passant zu rechnen, die wir gerade inhaltlich tangiert haben.
  • Und am Ende der Vorlesung, das heißt also in der Woche vor der Klausur, möchte ich Sie bitten, bis dahin die Klausuren gerechnet zu haben, die ich Ihnen zu Übungszwecken herausgegeben habe.
  • Und dann können wir darüber sprechen, wie die Lösungswege sind, wenn Sie unschlüssig sind und so weiter und so fort.
  • Die Ergebnisse teile ich Ihnen dann in dieser Sitzung mit.
  • Das könnten Sie ja dann in der Sitzung machen.
  • Dann ist es nicht zu spät.

Gut, weiter geht's.

  • Die Liste hatte ich eingangs rumgegeben.
  • Ach, die ist schon wieder hier vorne gelandet, okay.

Möchten Sie sich da noch eintragen?

  • Kommen Sie dann gleich runter nach der Vorlesung.
  • Ich habe sie jetzt bei mir.
  • Gut, also die Objektivität machen wir das im Schnelldurchlauf als Reminder.
  • Bezeichnet das Ausmaß, in dem die Ergebnisse eines Tests unabhängig vom Testleiter oder Untersucher sind.
  • Und wir hatten gesagt, es gibt drei Arten von Objektivität, wenn Sie so wollen, drei Facetten der Objektivität.
  • Durchführungsobjektivität, Auswertungs- und Interpretationsobjektivität.
  • Zur Durchführungsobjektivität, gehen wir diese jetzt peu à peu durch.
  • Die Testdurchführung erfolgt dann objektiv, wenn keine Varianz der Testergebnisse aufgrund von Testbedingungen und dem Verhalten des Versuchsleiters entsteht.
  • Also, standardisierte Bedingungen, die die Durchführung standardisieren, werden über den zu Beginn genannten Punkt, die Standardisierung, hergestellt.
  • Das heißt standardisierte Instruktionen, standardisierte Testmaterialien, standardisierte Zeitvorgaben, insbesondere wichtig bei Leistungstests.

Wie kann man die bestimmen?

Quantitativ?

  • Theoretisch müsste man eine Versuchsperson mehrmals unter denselben Bedingungen, also denselben Test, denselben Versuchsleiter usw.
  • Testen und dann einen Mittelwert bestimmen.
  • Das ist jedoch aufgrund mangelnder Reliabilität und Testwiederholungseffekten praktisch nicht sinnvoll möglich.
  • Deshalb lässt man das besser.
  • Auswertungsobjektivität ist der nächste Punkt.
  • Sie liegt vor, wenn die Vergabe von Testpunkten für bestimmte Testantworten der Versuchsperson unbeeinflusst von der Person des Auswerters ist.
  • Das heißt also nichts anderes.

Wissen Sie noch eine Testverfahrensklasse, die hier eine besonders hohe Problematik aufwies?

  • Projektive Tests, genau, exakt.
  • Bei projektiven Tests spielt eine Menge subjektives Dafürhalten des Testauswerters eine Rolle.
  • Das soll man idealerweise vermeiden.
  • Wenn man eine hohe Auswertungsobjektivität haben will.

Wie kann ich die herstellen?

  • Eine hohe Auswertungsobjektivität liegt in der Regel vor, wenn die Richtigkeit der Antworten mit einem Lösungsschlüssel, zum Beispiel einer Schablone, die Leute aus meinem Testseminar werden das wissen, oder per Computer bestimmt werden können.
  • Der Computer hat natürlich quasi auch eine Schablone im Hintergrund laufen.
  • Und bei offenen Antwortformaten oder in Tests, wo mehrere Lösungen richtig sein können, beziehungsweise auch teilweise richtig sein können oder gar bei projektiven Verfahren, hängt die Auswertungsobjektivität davon ab, wie detailliert die Auswertungskategorien im Testmanual beschrieben und eingegrenzt sind.

Also, wie stark wird das vorstrukturiert von den Testautoren?

Wie man eine teils freie Antwort einzuschätzen hat?

  • Über diese Art und Weise versuchen die Rorschach-Leute, auch Auswertungsobjektivität zu einem gewissen Grad herzustellen.

Gut, wie kann man die quantitativ bestimmen?

  • Indem man mehrere Gutachter unabhängig voneinander das in einer Stichprobe erhobene Material auswertet und den Grad der Übereinstimmung als Korrelationskoeffizient ermitteln lässt.
  • Das kann man quantitativ bestimmen.
  • Cohens Kappa zum Beispiel ist da so ein Wert, der häufig herangezogen wird.
  • Die Auswertungsobjektivität ist also insofern recht gut quantifizierbar, was uns freut.
  • Interpretationsobjektivität liegt dann vor, wenn die Schlussfolgerungen unabhängig von der Person des Auswerters gezogen werden, das heißt zum Beispiel hinsichtlich der Einordnung auf einer Merkmalsdimension relativ zu anderen Versuchspersonen oder auf einer Kriteriumsdimension.

Wie stelle ich das her?

  • Hoch ist die Interpretationsobjektivität in der Regel, wenn, wie in der statistischen Vorgehensweise üblich, die entsprechenden Normwerte aus einer Tabelle im Testmanual abgelesen werden können.
  • Jeder von Ihnen, der schon einmal ein Testverfahren in der Hand hatte, wird intuitiv nachvollziehen können, was damit gemeint ist.
  • In projektiven Verfahren ist die Interpretationsobjektivität dagegen meist gering, da subjektive Einschätzungen der Auswerter in die Interpretation mit einfließen.
  • Hier ist noch eine Folie, die finde ich eigentlich recht aufschlussreich, die mein Kollege Herr Canning aus Münster entworfen hat.
  • Er hat hier mal versucht, die Objektivität nach Durchführung - dafür steht das 'D' - Auswertungs- und Interpretationsobjektivität - abzutragen auf der Dimension von gering bis hoch für verschiedene Messmethoden.
  • Und der standardisierte Fragebogen hat in Durchführungsobjektivität, Auswertungsobjektivität und Interpretationsobjektivität recht hohe Werte, wohingegen die Dokumentenanalyse eine hohe Durchführungsobjektivität hat, aber in den anderen beiden Dimensionen geringer bewertet wird.
  • Das unstandardisierte Interview, was früher der Klassiker zur Personalauswahl war, einfach mehr oder weniger unstrukturiert, so nach dem Motto kennenlernen, persönliche Eindrücke bilden, schneidet hier unter objektiven Gesichtspunkten in allen drei Dimensionen schlecht ab.
  • Das Assessment Center ist so einigermaßen mittelmäßig.
  • Das Gleiche gilt für das halbstandardisierte Interview auch.

Kennen Sie schon ein halbstandardisiertes Interview zur Personalauswahl?

Schon gelernt?

Bitte?

  • Multimodales Interview.
  • Ein multimodales Interview wäre zum Beispiel so etwas, ja.
  • Also diese Abbildung, da bin ich meinem Kollegen sehr dankbar dafür, weil ich finde das ganz gut, um mal so grafisch abzutragen, wie es sich hier mit den Objektivitätsstandards verhält bei unterschiedlichen Verfahren.

Gut, gehen wir schon zum nächsten Gütekriterium, Hauptgütekriterium seines Zeichens, Reliabilität.

  • Haben wir schon darüber gesprochen, wird hier noch ein bisschen ausgeführt.
  • Reliabilität bezeichnet den Grad der Genauigkeit oder die Messpräzision oder auch die Zuverlässigkeit.
  • Sie wissen ja, Reliabilität heißt Zuverlässigkeit im englischen Sprachgebrauch.
  • Mit der ein Test ein bestimmtes Persönlichkeits- oder Verhaltensmerkmal misst.
  • Und das ist jetzt ganz wichtig.
  • Diese Definition ist unabhängig von der Validitätsdefinition zu sehen, also von dem Aspekt, ob der Test das misst, was er messen soll.
  • Das ist nämlich der Punkt, über den wir uns noch in Zukunft auseinandersetzen werden.
  • Hier ist eine grafische Visualisierung davon.

Die Grundfrage der Reliabilität lautet also, wie genau, zuverlässig und präzise erfasst ein Test das, was er erfasst?

  • Wichtig ist nicht die Frage, ob er misst, was er messen soll.
  • Das ist Validität.
  • Und hier hat man mal versucht, die Reliabilität grafisch abzutragen, um dem Zuschauer ein etwas besseres Gefühl dafür zu geben, was es eigentlich heißt, mit einer perfekten Reliabilität zu testen und mit einer, die bei Punkt 60 liegt oder bei Punkt 80.
  • Man hat einfach jetzt, in Analogie zu dieser Messung, dieses - das ist ein Waldhorn, glaube ich - das Instrument, das ist hier in diesem Bild einigermaßen perfekt wiedergegeben, also zuverlässig und präzise abgebildet.
  • Das entspräche - also, wenn wir ganz zuverlässige und präzise Abbilder haben des Konstrukts der Person, die wir diagnostizieren wollen, dann hätten wir ein derart scharfes Bild.
  • Sehr erfreulich.
  • Da können wir jetzt in der Regel als Psychologen nur davon träumen, dass es so scharf gestaltet ist.
  • Häufig findet man so Reliabilitäten um Punkt 80, dann sieht man das Waldhorn, was hier noch in annähernd perfekter Weise abgebildet war, hier schon mit etwas weißem Rauschen dazwischen.
  • Und wenn die Reliabilität noch weiter runtergeht, dann wird unser Zielobjekt, was wir gerne erkennen möchten, immer unschärfer.
  • Diese Abbildung soll Sie ein wenig dafür sensibilisieren, indem sie diese Analogie herzieht, Schärfe und Exaktheit des Bildes.
  • Möglichst hohe Reliabilitäten anzustreben ist natürlich unser Anliegen.
  • So, da nehmen wir noch ein Haarbeispiel her.
  • Hier gibt es ja diese Tollwut-Sachen in München.
  • Tollwut ist so ein Volksfest, sagen wir, so ein alternatives Volksfest, kann man sagen, eigentlich.

Oder würden Sie es anders bezeichnen?

  • War es, war es.
  • Okay, sagen wir, war es, also sagen wir mal.
  • Aber ich habe es deshalb gewählt, weil da könnte, da gibt es mal, findet man gelegentlich so Gestalten wie Gaukler oder sowas.
  • Und da ist jetzt ein Gaukler, der sagt, 'Ich kann anhand der Haarlänge der Person, die vor mir steht', also dieser Test kostet nur 20 Euro, aber das ist ja günstig, 'kann ich die Intelligenz bestimmen'.
  • Anhand der Haarlänge kann ich die Intelligenz bestimmen.
  • Sie kommen da vorbei, Sie haben Ahnung vom Thema, denn Sie haben sich mit Testtheorien auseinandergesetzt.

Wie gehen Sie jetzt vor, wenn Sie argumentieren müssten mit dem Herrn Gaukler?

  • Also, Sie könnten natürlich unseriöserweise sagen, Sie sind Spinner, aber das machen Sie nicht, weil auf dem Level kommunizieren Sie nicht, sondern Sie machen es jetzt fundiert.

Und wie wäre es fundiert?

Anhand welcher Kriterien wird das genau bestimmt, zum Beispiel Haarlänge, Haarsicke oder sonst was?

  • Nur Haarlänge.
  • Dann würde ich sagen, okay, wenn ich jetzt zum Beispiel die und die Haarlänge habe, und da für mich längere Haare mehr Intelligenz bedeuten.

Und wenn ich dann zum Friseur gehe und mir komplett die Haare abschneiden lasse, bin ich dann automatisch schlechter?

  • Ja, einverstanden, okay.
  • Also scheint es einige Widersprüche in den Aussagen des Kauklas zu geben, ja.
  • Sie könnten auch sagen, dass dieser Test für Haarlängen-Intelligenz ein Test ist.
  • Sie könnten nun so vorgehen, wie wir es gerade besprochen haben.
  • Und dann sagen Sie, okay, für Tests habe ich Hauptkriterien kennengelernt und die gehen wir doch mal der Reihe nach durch.
  • Also, Objektivität.

Wie sieht es damit aus?

Ist Haarlänge objektiv messbar?

  • Einverstanden.
  • Absolut.
  • Also, objektiv scheint der Haarlängen-Intelligenztest des Skauglers schon mal zu sein.
  • Schön.
  • Schauen wir auf Reliabilität.

Wie sieht es damit aus?

Ist sein Haarlängen-Intelligenz-Netz reliabel?

  • Absolut.

Wie kann ich zum Beispiel die Reliabilität jetzt im Vorgriff auf das, was wir noch besprechen, wie kann ich die feststellen?

Bitte?

Mit Metermaß?

  • Okay.
  • Also da liegt jetzt ein Haar, beispielsweise hier. Nehmen wir jetzt ein Haar von einer fiktiven Person und legen es hier hin.
  • Ich möchte die Reliabilität bestimmen.

Was könnte ich machen?

  • Ich messe es einmal, messe ich nochmal oder ich nehme noch einen anderen Zollstock, messe es auch, kommt dasselbe raus.
  • Okay.
  • Also reliabel ist es auch.
  • So langsam wird es brenzlig.
  • Sie haben sich getraut, dagegen zu argumentieren.
  • Jetzt ist er schon objektiv, jetzt ist er schon reliabel.

Und jetzt?

  • Und jetzt kommt Ihr Triumphzug.
  • Jetzt geht es um Ihre Validität.
  • Und dann kann man natürlich mit der Argumentation, wie Sie sie zum Beispiel gebracht haben, relativ schnell herausfinden, okay, wunderbar, Ihr Test kommt bis zur Stufe der Reliabilität, aber leider nicht darüber hinaus und ist deswegen leider untauglich.
  • Die Moral von der Geschichte ist, lassen Sie sich nicht beeindrucken von hohen Reliabilitätsmaßen.
  • Man findet häufig, wenn Sie Forschungsartikel lesen, jeder Forscher, der etwas Neues entwickelt, ist total stolz auf das, was er gemacht hat, wenn er da hohe Reliabilitätsmaße zum Beispiel findet.

Da werden Reliabilitätsindizes berichtet, von 90, 95, meinetwegen, und ich denke dann immer: Ja, schön Leute, aber wo sind die Validitätsbelege?

  • Wenn Sie gute Reliabilitäten haben, dann haben Sie ein wünschenswertes Teilziel erreicht.
  • Aber der ganz große Schritt, nämlich der Schritt des Validitätsnachweises, der fehlt noch.
  • Und Sie sehen, Sie können schon mit so einer hanebüchenen Behauptung wie diesem hanebüchenen Intelligenztest, dieses Gauglas von Tollwood, schon einen reliablen Test ohne Probleme entwickeln, aber er ist trotzdem völliger Quatsch.
  • Ja, also deswegen bitte von Reliabilitäten als solche, auch wenn sie sehr gut sind und die H-Längen-Intelligenz, das hätte sehr hohe Objektivitätswerte und annähernd perfekte Reliabilitätswerte, trotzdem ist er untauglich.
  • Also im Zweifel immer Bohren nach Validitätsnachweisen und die sind natürlich auch am schwersten zu bringen, aber das ist genau der Schritt, der darauf abzielt zu zeigen, misst der Test eigentlich, was er messen soll.
  • Der Haarlängen-Intelligenz-Test soll anhand von Haarlänge Intelligenz messen.
  • Das tut er offensichtlich nicht.
  • Aber er misst sehr präzise die Haarlänge.
  • Zuverlässig, präzise, das tut er.
  • Aber den Testsinn, also den Testszweck, der durch die Validität abgebildet wird, verfehlt er.
  • Also, immer bitte nach der Validität fragen.

Wie sieht es aus mit der Reliabilität in der klassischen Testtheorie?

  • In der klassischen Testtheorie wird die Annahme gemacht, dass sich der Warewert T zwischen zwei Messungen nicht verändert.
  • Allgemein wird unter der Reliabilität der Anteil der wahren Varianz an der beobachteten Gesamtvarianz verstanden, das haben wir schon hier besprochen.
  • Ein guter Test sollte eine Reliabilität von über 0,8 aufweisen, also 80 Prozent der Merkmalsvarianz lassen sich auf den wahren Wert zurückführen.
  • Im Rückgriff auf das Bild vom Waldhorn, das wir gerade angeschaut haben, ist das Bild einigermaßen scharf.
  • Bei Persönlichkeitstests sagt man häufig, dass 0,80 eine wünschenswerte Grenze ist; bei Intelligenztests geht man noch höher und sagt 0,90.

Erinnern Sie sich auch an die Tabelle von Herrn Ficini, die wir bereits in der Vorlesung besprochen haben?

Bei der klassischen Testtheorie war die Reliabilität populationsabhängig, also stichprobenabhängig.

  • Da hatten wir gesagt, im Rahmen der Item-Response-Theorie, dass sie einen verbesserten Ansatz bietet und Vorteile aufweist.
  • Aber jetzt sind wir wieder ganz klassisch in der klassischen Testtheorie gelandet, die dieses Problem hat.
  • Und da war es so, ich nehme Sie gleich gerne dran, falls Sie geschnappt haben.

War niemand?

  • Okay.
  • Beim Übergang zu homogeneren Teilpopulationen wird die Reliabilität geringer.
  • Das hatte mit der Varianz zu tun, über die wir gesprochen haben.
  • Homogene Population bedeutet weniger Varianz, bedeutet geringere Korrelation, bedeutet geringere Reliabilität und bedeutet mehr Faktoren in der Faktoranalyse.

Erinnern Sie sich an diese Kette?

  • Die Reliabilität gibt an, wie gut ein Test in einer Bezugspopulation zu differenzieren vermag.
  • Also, ich kann meine Reliabilität künstlich erhöhen, indem ich eine heterogene Stichprobe zur Normierung heranziehe.

Ja, die Kette kann ich nochmal wiederholen.

  • Homogene Stichproben heißen, die Leute sind sich relativ ähnlich.
  • Wenn die Leute sich relativ ähnlich sind, heißt das, dass in dem Datensatz, den wir erzeugen, relativ wenig Varianz ist.
  • Wenn in dem Datensatz relativ wenig Varianz enthalten ist, bedeutet das für die Korrelation, die auf der Varianz basiert, geringere Korrelationen.
  • Geringere Korrelationen führen üblicherweise zu geringerer Reliabilität.
  • Faktorenanalytisch betrachtet erhalte ich, wenn ich einen bestimmten Prozentsatz der aufgeklärten Varianz durch die Faktorenlösung erreichen möchte, mehr Faktoren.
  • Die Faktorenanalyse ist ein Verfahren zur Datenreduktion.
  • Wenn wenig Gemeinsamkeit zwischen den Variablen besteht, die ich in die Faktorenanalyse einbeziehe, produziert sie mehr Faktoren.
  • Wenn ich zum Beispiel 50, 60 Prozent Varianzaufklärung erreichen will.
  • Schauen wir uns die andere Kette an.
  • Heterogene Stichproben beinhalten Leute, die verschieden sind.
  • Verschiedene Leute erzielen größere Varianzen.
  • Größere Varianzen bilden einen guten Nährboden dafür, dass höhere Korrelationen entstehen.
  • Wenn in einem Datensatz die Variablen höher korreliert sind, dann brauche ich weniger Faktoren, um einen gewissen Prozentsatz an Varianz aufzuklären.
  • Und ich erreiche üblicherweise höhere Reliabilität.
  • Das sind die Faktoren.
  • Wenn die Personen sich sehr ähnlich sind, dann würden doch eigentlich weniger Faktoren ausreichen, weil sie doch eh ähnlich sind.
  • Also, da braucht man das doch nicht aufsplitten, weil alle zum Beispiel gleich extravertiert sind.
  • Da braucht man die Extraversion nicht auch noch aufsplitten, weil die ja eh die gleiche Ausprägung zeigen.
  • Das verstehe ich ja gut.
  • Das geht auf die Varianz zurück.
  • Stellen Sie sich mal vor, Sie haben zweieiige Zwillinge.
  • Die sind sich in den Werten recht ähnlich.
  • Sagen wir mal, hinsichtlich Extraversion sind wahrscheinlich so Freikletterer oder so Bungee-Jumping-Leute oder solche Leute, die extrem riskante Sachen machen.
  • Eher Leute, die eine hohe Ausprägung aufweisen, weil Sensation Seeking eine Dimension von Extraversion ist.
  • Also angenommen, Sie gehen in so einen Free-Climbing-Verein und machen dort eine Studie zu Extraversion.
  • Dann finden Sie vermutlich dort eine geringe Varianz des Merkmals Extraversion in dieser Teilgruppe.
  • Das heißt, es ist wenig Varianz vorhanden.
  • Und da die Korrelationen abhängig sind von der Varianz, die in dem Datensatz enthalten ist, werden die Korrelationen gering sein.
  • Und wenn Sie eine Faktorenanalyse mit anderen Variablen durchführen, kommen weniger Faktoren heraus.

Ist das wirklich so?

  • Es gibt mehr Faktoren, Entschuldigung.
  • Aufgrund der geringeren Korrelation, weil die Leute ähnlich sind, weil sie homogen sind, brauche ich mehr Faktoren, um einen Prozentsatzvariant aufzubauen.

Die Korrelation der Extraversionsfacetten, zum Beispiel im NEO-PI-R.

  • Also der NEO-PI-R ist ein Persönlichkeitstestverfahren, das zur Schätzung der Extraversion einer Person sechs Facetten, also sechs Variablen, heranzieht.
  • Und diese Variablen sind dann bei den Personen höher korreliert, geringer korreliert. Entschuldigung.
  • Also, ich sehe schon, bei mir selber ist die Aufmerksamkeit jetzt auch schon so ein bisschen am Abklingen.
  • Demzufolge wünsche ich Ihnen eine schöne Woche.
  • Wir setzen nächste Woche genau da an, wo wir jetzt aufgehört haben.