This video: Dans cette vidéo : Neste vídeo : 

Testtheorien, Testkonstruktion und Psychologische Diagnostik (8)

Key points Points Clés Dicas 

00:00 Testtheorien, Testkonstruktion und Psychologische Diagnostik (8)

01:54 Ja, ja.

02:21 Haben Sie eine Frage, bitte schön?

02:45 Würden Sie bitte Ihre Frage wiederholen?

02:56 Weitere Fragen?

03:06 An dieser Stelle sind wir stehen geblieben beim letzten Mal.

06:53 Wie kann man es berechnen?

09:32 Sie könnten schauen, wo kommt der auf Punkt 90?

10:12 Also, was würde passieren, wenn ich den Test halbieren, verdoppeln, um fünf Items ergänzen würde und so weiter und so fort?

12:59 Wie viele Items brauche ich denn dann?

14:17 Das ist sehr anwenderfreundlich, weil es quasi kochrezeptartig funktioniert.

16:51 So.

17:54 Wie geht man vor?

20:11 Kommen wir schon zur nächsten, Paralleltest-Reliabilität.

20:38 Hier nochmal zur Erinnerung, was bedeutet 'parallel' bei Tests?

23:58 Haben Sie das schon einmal gemacht oder schon einmal Aufgaben dazu berechnet?

24:08 Gut, kommen wir zur nächsten Reliabilitätsschätzungsart.

26:15 Was hat die Prophezeiung? Was sagt Ihnen die Formel der Prophezeiung?

29:51 Wo habe ich da was anderes?

30:01 Das heißt, wann können wir die Testhalbierungsreliabilität anwenden?

33:04 Welche Testkonstruktionsstrategien haben besonders homogene Skalen erzeugt?

33:09 Die induktiv-faktoranalytische Testkonstruktionsstrategie liefert Ihnen hochhomogene Items, nämlich alle Items, die ich wo finde?

33:26 Wenn Sie den Output von SPSS der Faktoranalyse vor Augen haben, wie wissen Sie es?

33:50 Kann das auch liefern?

34:04 Erinnern Sie sich an die gelben Jacken?

35:36 Die Ns, zunächst einmal, was bedeutet das?

36:18 Was heißt das?

37:42 Alle haben Vor- und Nachteile.

38:03 Können Sie sich vorstellen, weshalb?

38:21 Ja, bitte?

38:44 Was war da der Punkt, bitte?

40:36 Also, wie kann ich Reliabilitäten für einen Datensatz, der jetzt in SPSS vorhanden ist, berechnen?

42:01 Also, was passiert eigentlich mit der Gesamtskala, wenn ich auf das Item verzichte?

42:51 Die Mittelwerte der Items sind nichts anderes als die Itemschwierigkeiten, genau, erinnern Sie sich?

43:11 Nein, ist sie nicht.

44:54 Sie sagen jetzt, okay, gut, wenn ich jetzt also mitteile, welche Korrelation habe ich dann?

45:15 Jemand anders?

45:38 Darf man Korrelationen mitteln?

45:47 Könnten wir vielleicht eine Determinationspolizei nehmen?

46:16 Warum ist das so?

47:25 Bei dem Beispiel, das Sie gerade genannt haben, inwiefern ist es überhaupt sinnvoll, das zu erwähnen?

47:47 Was steht hier noch an Informationen?

48:06 Wissen Sie es?

48:20 Okay?

49:11 Das heißt, dass es Items gibt, die eine Trendschärfe von 0,7 haben?

49:30 Rechne ich dann, lasse ich die Items drin bei der Datenauswertung, oder wieso sind die überhaupt drin, wenn die so schlecht sind?

49:57 Weshalb haben die Testautoren das jetzt drin gelassen?

50:39 Bitte?

55:22 Ab welchem Wert ist es ungefähr so?

57:56 Wenn ich jetzt selber entscheiden sollte, ob ich dieses Item drin lasse oder nicht, würde ich das herausnehmen?

58:43 Gut.

59:23 Und wenn ich den rausschmeiße, wo haben wir ihn?

1:00:34 Was wäre im Bereich der Persönlichkeit ein extrem schwieriges Element, da es sich nicht um einen Leistungstest handelt?

1:00:49 Ja, erinnern Sie sich?

1:01:07 Ja, bitte.

1:01:17 Genau, da muss man jetzt aufpassen.

1:02:13 Ist es, wenn ich jetzt ein schlechtes Item entferne, werden dann alle anderen Items insgesamt besser, da das verbleibende schlechte Item noch vorhanden ist?

1:02:48 Genau.

1:03:33 Würde ich erst einmal das N7 rausschmeißen und dann vielleicht sogar das N7 wieder reintun und das N22 rausschmeißen und die beiden dann berechnen und gegeneinander anschauen?

1:04:22 Bedeutet das dann, dass sie nicht homogen genug sind?

1:05:26 Also, wenn ich jetzt hier insgesamt drei Items rausnehmen würde, und ich habe aber in den anderen Skalen ja zwölf Items, ist es nicht ungünstig, dass ich unterschiedliche Anzahlen habe?

1:06:15 Das heißt, warum muss man die Itemlänge da konstant halten?

1:06:31 Nochmal die Mittelwerte. Und hier hat man gesehen, dass das Item N7, was wir zuerst eliminiert hatten, oder war es das N47?

1:07:16 Jetzt auf einmal kommen die Dinge zusammen und passen so ein bisschen, oder?

1:09:45 Nehmen wir ein Beispiel aus der Verkehrspsychologie.

1:12:14 Das führt zu einem Vergleich, der durch die Frage angestoßen wird, was hat Validität mit Religion zu tun?

1:13:24 Wonach fragt die Reliabilität?

1:13:38 Wie zuverlässig misst der Test das, was er misst?

1:13:42 Und die Frage, die nach der Validität fragt, ist, wie misst der Test, was er messen soll?

1:15:45 Und wo war Inhaltsvalidität bisher in unserer Vorlesung schon ein wichtiges Thema?

1:16:00 Bei kriteriumsbezogenen Tests?

1:17:26 Wie ist sie definiert?

1:19:49 Ist es Ihnen wirklich neu?

Testtheorien, Testkonstruktion und Psychologische Diagnostik (8)

Testtheorien, Testkonstruktion und Psychologische Diagnostik (8)

  • Ich persönlich würde gerne Ihr Feedback einholen, weil ich Sie mittlerweile schon als fortgeschrittene Testtheoretiker betrachte.
  • Ich selbst forsche auch zu unterschiedlichen Themen.
  • Ein Thema, das ich zurzeit erforsche, ist, dass es im weiteren Sinne um das Thema Arbeitszufriedenheit geht. Nicht im engeren Sinne, wie Sie es in der A&O-Psychologie lernen, da gibt es schon eine Menge, sondern es soll verbunden werden mit der Organisationspersönlichkeit. Das ist relativ neu, und wir haben einen eigenständigen Test dazu entwickelt. Da Sie so gut darin sind, Items zu finden, die wenig taugen, möchte ich Sie bitten, auf die Webseite zu gehen, die ich Ihnen hier angegeben habe, also www.haupt-uni.de.
  • Das ist ja meine Seite, die Sie kennen, auch von den Downloads.
  • Und die Unterseite lautet Umfrage.
  • Wenn Sie hier bitte mal draufgehen, an der Umfrage teilnehmen und am Ende Kritik äußern.
  • Also die Items sind, wie gesagt, von uns neu formuliert, nicht wo abgeschrieben.
  • Es ist eine neue Entwicklung und meistens ist es so.
  • Ich würde jetzt von mir behaupten, ich habe relativ gutes Wissen über Testtheorie, aber selbst Leute, die sehr geübt sind, geht immer noch mal was durch und die sind auch gelegentlich mit Betriebsblindheit geschlagen.
  • Deshalb bin ich für ihre Kritik und Anregungen sehr dankbar.
  • Und ich möchte das Ganze freiwillig natürlich verknüpfen mit einem kleinen Gewinnspiel.
  • Derjenige, Sie können das gerne anonym machen. Das freut mich auch, aber als zusätzlichen Anreiz gibt es noch einen kleinen Preis, den ich jetzt noch nicht verraten möchte.

Sie dachten wahrscheinlich, Sie haben ausgesorgt, wenn Sie da gewinnen, was?

Ja, ja.

  • Also der bleibt geheim. Es ist wirklich nur etwas Kleines, also denken Sie nicht, das würde den Lottogewinn vom nächsten Samstag ersetzen, wo der Jackpot ja irgendwie 13 Millionen ist.
  • Wenn Sie möchten, geben Sie Ihren Namen an. Am Ende ist so ein Feedbackfeld, in dem Sie Verbesserungen anregen können.
  • Aus den Leuten, die Ihren Namen angeben, mache ich eine Ziehung hier in der Vorlesung, und es gibt einen kleinen Preis.
  • Also freut mich, wenn Sie mitmachen, unter der Adresse.

Haben Sie eine Frage, bitte schön?

  • Ja, das Passwort für meine Klausurdownloads, und zwar für alle Dateien, alle passwortgeschützten PDF-Dateien, lautet Klausur.
  • Wenn Sie bitte etwas leiser werden, dann habe ich auch eine Chance, Ihre Kommilitoninnen zu verstehen, die hier in 5 Meter Distanz mir eine Frage stellen.

Würden Sie bitte Ihre Frage wiederholen?

  • Jetzt habe ich eine Chance, Sie zu hören.
  • Ja, das Passwort lautet Klausur, und zwar so, wie es im Duden steht.

Weitere Fragen?

  • Gut, das scheint nicht der Fall zu sein.
  • Dann legen wir los.

An dieser Stelle sind wir stehen geblieben beim letzten Mal.

  • Wir haben noch einmal hergeleitet, was die Populationsabhängigkeit der Reliabilität bedeutet und welche analytischen Konsequenzen es hat.
  • Je nachdem, ob die Stichprobe homogen oder heterogen ist.
  • Jetzt ist für uns als Testtheoretiker natürlich die Frage, Sie wissen, es ist ein Hauptgütekriterium, wir streben danach, die Hauptgütekriterien alle zumindest zufriedenstellend zu gestalten.
  • Und das heißt in der Praxis häufig, wie kann man eine noch nicht zufriedenstellende Ausgangsreliabilität erhöhen, sodass sie ein zufriedenstellendes Level erreicht hat.
  • Dazu gibt es vier Wege in der klassischen Testtheorie.
  • Die lautet natürlich, das eine hatten wir schon angesprochen, man kann die Testlänge erhöhen.
  • Da gibt es aber ein potenzielles Handicap dabei und das lautet, das Ganze, wenn der Test zu lang wird, dann kann das zu Durchführungseinschränkungen führen.
  • Sie wissen, wir müssen auch die Ökonomie als Nebengütekriterium im Auge behalten.
  • Also, zu lange dürfen wir ihn auch nicht machen.
  • Auch wegen der Zumutbarkeit, weil manche Versuchspersonen relativ schnell keine Lust mehr haben, lange Fragebögen auszufüllen.
  • Also, das müssen wir im Hinterkopf behalten.
  • Wir dürfen also streben zwar nach höherer Reliabilität in der Regel, bei Persönlichkeitstests üblicherweise Punkt 80, bei Intelligenztests üblicherweise Punkt 90, aber wir dürfen es auch nicht zu weit treiben, nicht übertreiben, sonst resultieren negative Konsequenzen, die uns vielleicht an anderer Stelle dann in die Waden beißen.
  • Dann kann man natürlich homogenere Testitems verwenden.
  • Das knüpft direkt an den Punkt an, den wir letztes Mal angesprochen haben.
  • Wenn ich homogenere Test-Items verwende, mache ich sozusagen das zu messende Konstrukt kleiner.
  • Wenn ich ein kleineres Konstrukt habe, brauche ich weniger Items, um das Ganze reliabel zu messen.
  • Wenn ich also homogenere Test-Items wähle, mache ich aber gleichzeitig auch das Konstrukt kleiner, das ich erfasse.
  • Wenn das in Ordnung ist, können Sie das machen, aber homogenere Test-Items reduzieren die Anzahl der Aspekte, die der Test erfasst.
  • Die nächste Möglichkeit, die Reliabilität zu erhöhen, ist, Items mittleren Schwierigkeitsgrades zu wählen.
  • Das haben wir vor einigen Wochen auch schon angesprochen.
  • Das basiert darauf, dass Items mit mittlerer Schwierigkeit üblicherweise die besten Trennschärfen erzielen.
  • Wenn ich beste, hohe Trennschärfen habe, dann reichen weniger Items, um ein Konstrukt reliabel zu messen.
  • Das Ganze darf ich aber auch wiederum nicht zu weit treiben, weil das einer Differenzierung in den extremen Bereichen der Merkmalsausprägung, also beispielsweise bei Extraversion sehr introvertiert versus sehr extravertiert, entgegenspricht.
  • Wir müssen Items haben, die für alle Itemschwierigkeiten ausreichend passend sind.
  • Und ich habe natürlich noch die Möglichkeit. Ich kann die Objektivität steigern, da die Objektivität eine notwendige, aber nicht hinreichende Voraussetzung für Reliabilität ist.
  • Darunter steht jetzt übrigens kein Nachteil.
  • Also, Objektivität steigern ist bei quantitativen Tests kein Problem.
  • Bitte.
  • Können Sie auch.
  • Wäre auch richtig.
  • Okay.
  • Ja.
  • Genau anknüpfend an das, was wir beim letzten Mal gesagt haben.
  • Guter Einwand.
  • Geht auch.
  • Falls alle.
  • Ich hoffe, Sie haben es verstanden.
  • Ihre Kommilitonin hat eine sehr gute Anregung gemacht.
  • Gerade man kann auch einfach die Heterogenität der Stichprobe erhöhen, weil das, so war die Kette beim letzten Mal, die Varianz erhöht, damit die Korrelation erhöht und die Reliabilität erhöht.
  • Ginge auch, ist aber die teuerste Methode.

Gut, also wie können wir die Testreliabilität erhöhen?

  • Der erste Schritt war die Testverlängerung.

Nochmal im Detail, was machen wir?

Wie gehen wir vor?

Wie kann man es berechnen?

  • Man kann zum Beispiel, wenn man mit der Reliabilität nicht zufrieden ist, den Test durch zusätzliche Items verlängern.
  • Existiert ein Paralleltest, besteht die Möglichkeit, den Test durch parallele Items zu verdoppeln, weil der Paralleltest ja genauso lang ist.
  • Wenn ich den Test dann damit verdopple, schön, habe ich natürlich einen längeren Test, nämlich genau doppelt so lang.
  • Auch andernfalls, das heißt, wenn ich keinen Paralleltest habe, ist immer gefordert, dass die zusätzlichen Items die gleiche Qualität wie die bisherigen Items haben.
  • Sie sollten also ebenso gut in die Skala hineinpassen wie die bisherigen Items, vor allem eine ebenso hohe Trennschärfe besitzen.
  • Das ist in der Praxis häufig schwierig, weil Sie ja schon durch den Item-Selektionsprozess versucht haben, die besten Items herauszufiltern für Ihre Vorform.
  • Es ist deswegen in der Regel nicht so leicht, nochmal einen gleich guten Satz zu finden. Angenommen, Sie wollen Extraversion messen und tun dies mit zehn Items.
  • Das waren Ihre bisher besten Kandidaten, mit denen Sie jedoch noch nicht zufrieden sind.
  • Und jetzt sagen Sie: 'Okay, ich will die Extraversionsskala meinetwegen verdoppeln.'
  • Das heißt, Sie müssen noch einmal zehn Items generieren mit ebenso guten psychometrischen Eigenschaften wie Ihre bisherigen.
  • Das ist zunächst einmal nicht ohne Weiteres möglich.
  • Da müssen Sie ein bisschen Aufwand investieren.
  • Wenn man einen Paralleltest hat, ist es ganz klar, dass dieser dasselbe messen soll, also man spricht üblicherweise von Paralleltest Form A und Paralleltest Form B.
  • Form A soll dasselbe messen wie Form B, wobei andere Items verwendet werden, die jedoch dasselbe messen.
  • Wenn ich diese dann kombinieren würde, wäre es natürlich besonders komfortabel.
  • Aber der Weg, bis Sie einen Paralleltest haben mit Form A und Form B, das ist in der Regel auch ein recht langer.
  • Gut, also nur verlängern mit ähnlich guten Items wie in der bisherigen Form sind.
  • Nicht einfach Trash-Items da reinhauen, das bringt Ihnen nichts.
  • Die Abbildung kennen Sie bereits.
  • Hier können Sie in Anlehnung an Spearman Brown erkennen, was Sie tun müssen, wie viel Aufwand Sie treiben müssen in Form von Verlängerung des Tests um gleichwertige Items.
  • Wir hatten schon einmal darüber gesprochen.
  • Sie sehen, es ist relativ einfach, einen schwach reliablen Test mit einer Reliabilität von 0,5 auf ein einigermaßen akzeptables Niveau zu bringen, wohingegen es hier im höheren Bereich, angezeigt durch die deutlich geringere Steigung, viel schwieriger ist, noch einen Zugewinn zu erzielen.
  • Das heißt, man muss ja irgendwann auch mal anfangen, hier die Ökonomie im Auge zu behalten.

Lohnt es sich bei einem Persönlichkeitstest, der eine Ausgangsreliabilität von Punkt 80 hat und meinetwegen schon 200 Items umfasst, auf Punkt 90 zu kommen?

  • auf Punkt 90 zu kommen.

Sie könnten schauen, wo kommt der auf Punkt 90?

  • Das ist hier, wenn der hier diesen Punkt schneidet, das heißt, der müsste um das 2,3-fache verlängert werden.
  • Das heißt, das wären dann ungefähr, ja, Pi mal Daumen 500 Items.
  • Und das wäre für Sie als Testkonstrukteur die Frage, ob Sie das Ihren Probanden zumuten wollen.
  • Hier kommen ökonomische Gesichtspunkte ins Spiel.
  • Gut, wir wollen es jetzt aber nicht nur tabellarisch ablesen, sondern auch für jeden beliebigen Fall berechnen können.
  • Und dafür gibt es die Spearman-Brown-Formel, benannt nach den beiden Herren, die diese Formel erfunden haben.
  • Wird gelegentlich auch Prophecy-Formel genannt, weil damit ermöglicht wird, was wäre, wenn Szenarien zu berechnen.

Also, was würde passieren, wenn ich den Test halbieren, verdoppeln, um fünf Items ergänzen würde und so weiter und so fort?

  • Also, es liefert eine gewisse Prophezeiung, die sich jedoch häufig als einigermaßen zutreffend erwiesen hat.
  • Das heißt, wir haben hier diese freundliche Formel, und die ist eigentlich nicht weiter schwierig.
  • R' sehen Sie hier unten in der Legende, bedeutet nichts anderes als die neue Reliabilität.
  • Die alte Reliabilität ist üblicherweise die Ausgangsreliabilität Ihrer jetzigen Testform, mit der Sie beispielsweise nicht zufrieden sind, nach dem ersten Entwicklungsschritt.
  • Und N wäre einfach der Vervielfachungsfaktor.
  • Wenn Sie den Test verdoppeln, wäre der Vervielfachungsfaktor natürlich 2.
  • Wenn Sie ihn halbieren, wäre er 0,5 und so weiter.
  • Das heißt, wenn Sie einen Test haben, sagen wir hier mit der Ausgangsreliabilität von Punkt 80 und Sie sagen, der Test soll verdoppelt werden und Sie wollen mal gucken, wie die neue Reliabilität aussehen würde, dann wäre das ein ganz einfaches Rechenbeispiel.
  • N wäre 2. Reliabilität war bisher, sagen wir, Punkt 70.
  • 1 plus N minus 1. N war 2, minus 1 wäre also 1 plus einmal alte Reliabilität.
  • Das rechnen Sie schön aus, und da kommt dann die Vorhersage raus, was Ihre Testverdoppelung im konkreten Fall gebracht hat.
  • So, hier ist noch eine kleine Erläuterung dazu.
  • Bei einer Verdopplung setzt man für n gleich 2 ein, das war nicht überraschend.
  • Wenn ich also 10 Items habe und 5 sollen hinzukommen, dann wäre der Verlängerungsfaktor 1,5.
  • Das ist alles noch im Kopf nachvollziehbar.
  • Manchmal wird danach gefragt, wie die Reliabilität aussieht, wenn durch Zufall eine bestimmte Anzahl von Items eliminiert würde.
  • Das ist auch eine interessante Frage.
  • Angenommen, man hat 10 Items und soll 3 per Zufall herausnehmen, dann errechnet sich das n, also 10 minus 3 durch 10. Es ergibt sich also ein Verlängerungsfaktor von 0,7. Wenn der Verlängerungsfaktor nahe 1 liegt, handelt es sich eigentlich um einen Verkürzungsfaktor.
  • Das ist jedoch unerheblich, das ist das n für diese Formel.
  • Gut.
  • Es gibt jetzt Aufgabentypen, also auch bei mir in der Klausur, bei denen es zum Beispiel heißt: Durch Testverlängerung soll die Reliabilität des 10-Items-umfassenden Tests von Punkt 75 auf Punkt 90 gesteigert werden.
  • Da ist jetzt also kein N gegeben, sondern das N müssen Sie ausrechnen, um herauszufinden, wie groß das N ist. Also der Verlängerungsfaktor, damit Sie diesen Zuwachs erzielen können.
  • Das ist auch eine wichtige Frage.
  • Stellen Sie sich vor, Sie entwickeln etwas Neues, sagen wir in der Persönlichkeitspsychologie, wieder die sagenumwobene Skala emotionale Intelligenz.
  • Sie sind ganz stolz darauf, kommt raus, Reliabilität, nachkommen aufs Alpha, Punkt 75.
  • Ihr Prof sagt Ihnen, ja, das ist ja, naja, das geht so, aber machen Sie doch mal noch ein bisschen, legen Sie mal eine Schippe drauf.
  • Und dann packt Sie der Ehrgeiz und Sie sagen, okay, jetzt will ich aber unbedingt Punkt 90 erzielen.

Wie viele Items brauche ich denn dann?

  • Das wäre genau so eine Fragestellung.
  • Also, es ist hochgradig praxisrelevant.
  • Das heißt, wir nehmen die freundliche Formel von eben und formen sie um, sodass N auf der linken Seite steht. Dann erhalten wir in umgestalteter Form die Spearman-Brown-Formel, die dann so aussieht.
  • Und das Ergebnis: Sie setzen hier im obigen Beispiel 75 auf 90.
  • Sie wissen, R' war die neue Reliabilität.
  • Diese wäre jetzt hier in der Formel natürlich 90 mal (1 minus R), wobei R die alte Reliabilität war, nämlich 75.
  • Und dasselbe Spiel mit verteilten Rollen finden Sie unten auch im Nenner.
  • Bitte einsetzen, dividieren, und dann erhalten Sie hier eine Zahl für N.
  • Das Ergebnis von N gibt dann an, um das wievielfache der Test verlängert werden muss, um die gewünschte Reliabilität zu erreichen.
  • Man muss nun N, was hier herauskam, noch mit der ursprünglichen Anzahl der Items multiplizieren, in unserem Beispiel N gleich 3, multipliziert mit 10 Items.
  • Das heißt, hier kommt dann beispielsweise 3 heraus und Sie hatten bisher 10 Items, dann müssen Sie rechnen 3 mal 10, also die verlängerte Form hätte also 30 Items.
  • Das heißt, Sie müssen 20 zusätzliche Items gleicher Qualität finden.

Das ist sehr anwenderfreundlich, weil es quasi kochrezeptartig funktioniert.

  • Angenommen, es käme jetzt aber raus, N gleich 2,31, dann müssen Sie ja diese 2,31 wieder mit der Ausgangszahl der Items multiplizieren, also mit 10. Dann kommt also raus 23,1.
  • Das Ganze geht aber nicht, dann müssen Sie dann aufrunden auf 24 Items, weil ein halbes Item wurde bisher noch nicht gesichtet.
  • Und zur Sicherheit müssen Sie dann aufrunden.
  • Okay, so eine Aufgabe, der Gestalt oder in der Gestalt der nicht umgestellten Spearman-Brown-Formel kommt in jeder Klausur dran.
  • Sie werden das sehen, wenn wir vor der Klausur die alten Klausuren noch einmal durchgehen, beziehungsweise Sie, die vorbereitet haben, dann werden Sie es auch schon merken.
  • Das ist etwas, was jeder können muss.
  • Also ein Must-Have in Ihrem Wissensbestand.
  • Kommen wir noch einmal zurück auf den komfortablen Fall, dass Sie zwei Parallelformen haben, schon bei einem Test.
  • Dann kann man sich das hier anschauen, wenn man über zwei Parallelformen eines Tests verfügt, könnte man die beiden zur Reliabilitätserhöhung, also die beiden Parallelformen zur Reliabilitätserhöhung auch zu einem Test vereinen.
  • Den Gedanken haben wir gerade geäußert.
  • Welchen Reliabilitätszuwachs man damit erzielen kann, zeigt folgende Abbildung.
  • Und hier sehen Sie auf der X-Achse die Korrelation zwischen der ersten und der zweiten Testhälfte, und hier die Reliabilität des gesamten Tests, wenn Sie sie verdoppeln.
  • Diese Grafik müssen Sie sich jetzt nicht merken, da dies sowieso ein Beispiel ist, das Ihnen in der Praxis höchstwahrscheinlich nicht begegnen wird.
  • Alternativ können Sie es auch mit der Spearman-Brown-Formel herleiten.
  • Es dient nur zur Vertiefung des Wissens.
  • Sie sehen, das ist ein bisschen theoretisch.
  • Von einer Parallelform im strengen Sinne spricht man eigentlich nur, wenn die Parallelform A und die Parallelform B, sie sollen ja dasselbe messen unter Verwendung verschiedener Items, wenn die hoch miteinander korrelieren, diese Formen.
  • Und hier, diese Abbildung zeigt Ihnen die Korrelation der ersten zur zweiten Testhilfe.
  • Die ist ja teilweise hier gleich 0 oder 0,2, 0,4, 0,6.
  • Das sind jetzt nicht weiter eindrucksvolle Werte.
  • Eigentlich müsste man erst ab hier gucken, weil ab da würde man erst von einer Parallelform sprechen.
  • Und das liefert Ihnen dann eine gewisse Vorhersage darüber, was dann passiert, wenn Sie zwei Parallelformen vereinen.
  • Okay, also das ist nice to know, das andere war absolut Pflicht.

So.

  • Vielleicht verstört es Sie ein wenig, wenn ich Ihnen jetzt sage, dass es die Reliabilität in der Form, wie wir darüber gesprochen haben bisher, gar nicht gibt.
  • Es gibt verschiedene Arten der Reliabilitätsschätzung.
  • Wir haben bisher so getan, als gäbe es nur eine.
  • Das ist nicht der Fall.
  • Also, die Reliabilität im Sinne von der einzig wahren oder der einzigen gibt es nicht, aber vier Möglichkeiten der Reliabilitätsschätzung und die schauen wir uns jetzt step-by-step an.
  • Das ist zunächst einmal, wie kann ich die Reliabilität bestimmen, das möchte ich, das muss ich tun als Wissenschaftler, wenn ich empirisch in diesem Bereich arbeite.
  • Also schauen wir es uns an, es gibt die Testwiederholungsmethode, neudeutsch auch Re-Test-Reliabilität genannt.
  • Zwei Paralleltestmethode, Testhalbierungsmethode und die Konsistenzanalyse z.B. berechnet nach Cronbachs Alpha.
  • berechnet nach Cronmachs Alpha.
  • Also, wir haben da oben, da sehen Sie verschiedene gleichwertige Bezeichnungen, die Re-Test-Reliabilität oder auch Test-Wiederholungs-Reliabilität oder Test-Stabilität gelegentlich genannt.

Wie geht man vor?

  • Der gleiche Test wird denselben Versuchspersonen, das ist natürlich wichtig, denselben Versuchspersonen, zumindest zu verschiedenen Zeitpunkten, vorgelegt und die Retest-Reliabilität wird durch die Korrelation zwischen erster und zweiter Messung bestimmt.
  • Das Ganze ist natürlich nur dann sinnvoll, wenn das Merkmal mit hoher Wahrscheinlichkeit stabil bleibt zwischen Messungszeitpunkt 1 und Messungszeitpunkt 2.
  • Also, die Anwendung kommt zum Tragen, wenn Wiederholungseffekte, zum Beispiel Übung oder Problemeinsicht, Vertrautheit mit der Testsituation oder Erinnerung an Aufgaben, nicht zu erwarten sind, zum Beispiel bei Speed- oder Persönlichkeitstests.
  • Wenn zwischen beiden Messungen ein größeres Zeitintervall liegt und wenn der Test beansprucht, zeitlich stabile Merkmale zu erfassen.
  • Und wenn er jetzt States im Unterschied zu Trades, die ja zeitlich stabil sein sollen, erfasst, macht es wenig Sinn, Testwiederholungsreliabilität herzunehmen.
  • Zur Reliabilitätsschätzung.
  • Gut.
  • Nachteile sind: Wir haben eine Überschätzung der Reliabilität bei Verwendung dieser Methode.
  • Wenn Lösungen erinnert werden, ist das klar.
  • Keine Anwendung bei instabilen Merkmalen, zum Beispiel Stimmung, haben wir gerade angesprochen.
  • Und es gibt einen relativ großen Untersuchungstechnischen Aufwand, da Versuchspersonen erneut kontaktiert werden müssen und mit Versuchspersonenverlusten zu rechnen ist.
  • Also, das nennt man auch Versuchspersonensterblichkeit oder Dropout.
  • Also, Sterblichkeit bedeutet nicht, dass sie das Zeitliche gesegnet haben, sondern quasi das Zeitliche für ihre Studie gesegnet haben.
  • Insofern sind sie dann für Sie nicht mehr verfügbar.
  • Das ist auch schon ein Dropout.
  • Gut, einfach.
  • Die Berechnung ist hier denkbar einfach.
  • Sie erinnern sich vielleicht noch, am Anfang der Vorlesung habe ich Ihnen gesagt, um die Korrelation kommen Sie hier gar nicht rum.
  • In der Veranstaltung mittlerweile werden Sie dieses, werden Sie das bezeugen können, dass das stimmt.
  • Und hier ist wieder ein Hinweis darauf, dass es so ist, ohne Korrelation geht die Testtheorie nicht.
  • Denn die Reliabilität nach Retest-Lesart berechnet sich hier als Korrelation zweier Testdurchgänge mit den gleichen Personen. Also, nichts einfacher als Testergebnis zum Zeitpunkt 1, Testergebnis zum Zeitpunkt 2 werden korreliert und siehe da.
  • Das ist eine Schätzung der Retest-Reliabilität.

Kommen wir schon zur nächsten, Paralleltest-Reliabilität.

  • Das Vorgehen ist hier in derselben Stichprobe.
  • Hier geht es also wieder um dieselben Personen, die ich natürlich heranziehen muss, genau wie es bei der Re-Test-Reliabilitätsschätzung auch der Fall war.
  • Werden nach einer kurzen Intervallzeit zwei streng äquivalente Formen eines Tests nacheinander durchgeführt.

Hier nochmal zur Erinnerung, was bedeutet 'parallel' bei Tests?

  • Parallel sind Tests dann, wenn Mittelwerte und Standardabweichungen der Testformen A und B identisch sind, sowie die Korrelationen hoch sind.
  • Denn nur dann erfassen die beiden Testhälften A und B ja dasselbe, was sie ja tun sollen.
  • Je höher die Ergebnisse beider Tests miteinander korrelieren, umso weniger Fehlereffekte liegen vor.
  • Die ermittelten Koeffizienten liegen meist unter den in der Re-Test-Reliabilität.
  • Hat sich empirisch so gezeigt.
  • Gut, also inhaltlich ist auch nicht weiter schwierig.
  • Anwendung.
  • Bei instabilen Merkmalen und wenn ohnehin zwei Testversionen entwickelt werden sollen, zum Beispiel, das ist hier praktisch, bei Gruppentestungen im Leistungsbereich, damit die Leute nicht voneinander in der Testsituation profitieren, also zum Beispiel durch Spicken.
  • Sie wissen, das wird gelegentlich auch bei großen Klausuren in Ihrem Studium so durchgeführt.
  • Ja, vielleicht zu Ihrem Bedauern, aber gelegentlich sind das dann, wenn diese Parallelform A und B aus denselben Items besteht, aber in einer anderen Reihenfolge, was häufig bei Klausuren so gemacht wird, dann nennt man das Pseudoparallelform.
  • Pseudoparallelform deshalb, weil zu einer eigentlichen Parallelform gehört, dass dasselbe Konstrukt, also beispielsweise Fähigkeit in Testtheorien erworben in dieser Vorlesung, lautet das Konstrukt, erfasst wird durch Paralleletest. Das heißt, ich überlege mir zwei wirklich voneinander verschiedene Klausuren, die beide gleichermaßen gut geeignet sind, ihre Fähigkeit in diesem Punkt zu diagnostizieren.
  • Das wäre ein richtiger Paralleltest.
  • Häufig ist es aber zu schwierig, das zu beweisen, dass die wirklich parallel sind.
  • Manchmal muss man sich dann Vorwürfen ausgesetzt sehen, wie die eine Form war aber deutlich schwerer als die andere, sodass häufig einfach nur die Reihenfolge der Aufgaben gemischt wird und dann hat man so eine Art, das nennt man dann Pseudoparallelform.
  • Der Vorteil dabei ist, dass das Ganze der Königsweg der Reliabilitätsbestimmung ist, weil ein Test so praktisch, das heißt intraindividuell, mit sich selbst verglichen werden kann, ohne dass etwa Erinnerungseffekte auftreten.
  • Das heißt, der Trick ist also hier beim Paralleltest, dass man so eine Quasi-Messwiederholung ohne Transfereffekte nutzen kann.
  • Es kann keine Erinnerungseffekte geben, weil die Aufgaben ja verschieden sind und gleichwohl das Gleiche messen.
  • Sehr angenehm.
  • Aber bis Sie mal zwei wirkliche streng äquivalente Parallelformen haben, geht einige Zeit ins Land üblicherweise.
  • Das heißt, dieser Vorteil wird erkauft mit einem höheren Konstruktionsmehraufwand.
  • So, das sieht man hier bei den Problemen, hoher Konstruktionsaufwand, da parallele Versionen erstellt werden müssen.
  • Und Probleme haben wir natürlich auch, wenn Items einzigartig sind und nicht parallelisiert werden können.
  • Wenn ich einfach zu einem guten Item keinen passenden Zwilling finde.
  • Denn es gilt die Voraussetzung, dass Mittelwerte und Standardabweichungen identisch sind und die Korrelation zwischen den wahren Werten der beiden Tests 1,0 beträgt.
  • Also müssen die beobachteten Werte sehr hoch korrelieren.
  • Gelegentlich schwer zu erreichen.
  • Gut, wenn man das aber hat, befindet man sich in einer glücklichen Ausgangssituation, um über die Korrelation zwischen Paralleltestform A und B die Reliabilität schätzen zu können.
  • Und auch hier haben wir wieder die altgeliebte Korrelation.

Haben Sie das schon einmal gemacht oder schon einmal Aufgaben dazu berechnet?

  • Bisher noch nicht.
  • Aber in den Klausuren, die Sie herunterladen können, ist ein Beispiel dazu enthalten.

Gut, kommen wir zur nächsten Reliabilitätsschätzungsart.

  • Testhalbierungsreliabilität.
  • Diese hat jetzt wieder andere Vorteile und ein anderes Vorgehen.
  • Hier werden übrigens häufig in Klausuren Fehler gemacht, und zwar aus Flüchtigkeit.
  • Deshalb möchte ich Sie darauf hinweisen, quasi präventiv hier besonders aufzupassen.
  • Also, das Vorgehen bei der Testhalbierungsreliabilität ist, dass ein Test nur einmal vorgegeben wird, also die anderen beiden Tests wurden zweimal vorgegeben.
  • Bei der Testwiederholungsreliabilität wurde ein und derselbe Test denselben Leuten zweimal vorgegeben.
  • Bei der Paralleltestreliabilität wurden zwei verschiedene Tests, die aber dasselbe messen, denselben Leuten vorgegeben.
  • Und jetzt haben wir hier die Testhalbierungsmethode, die einmal vorgegeben wird.
  • Und danach wird der Test in zwei gleichwertige Hälften aufgeteilt.
  • Wie man sie aufteilt, werden wir gleich besprechen.
  • Zum Beispiel, das sei schon vorweg genannt, nach der Odd-Even-Methode, das heißt einfach gerade und ungerade.
  • Die Items werden aufgeteilt, die geraden in einem Topf, die ungeraden in einem anderen Topf.
  • Also, gerade, einfach nach laufender Nummer des Items.
  • Andere Aufteilungsmöglichkeiten sind, ich muss ja zu zwei gleichwertigen Hälften kommen, Halbierung in die erste und zweite Testhälfte.
  • Also, ich könnte zum Beispiel sagen, der Test hat 40 Items, also packe ich die ersten 20 in Testhälfte A, die anderen 20 in Testhälfte B.
  • Ich könnte einfach per Zufall auswählen, oder ich könnte die Hälften bilden aufgrund der Trennung der Basis anhand der Basis von Analysedaten, zum Beispiel unter Berücksichtigung der psychometrischen Itemkriterien wie Trennschärfe und Schwierigkeit.
  • Das wäre auch eine Möglichkeit, wie ich zu diesen annähernd zwei gleichwertigen Testhälften kommen kann.
  • Aber wenn ich das mache, oder da kommt also raus, jede Hälfte wird als quasi-paralleler Teiltest zur anderen Hälfte aufgefasst.

Aber schon vorab, wenn ich einen Test halbiere, was resultiert dann notwendigerweise, wenn Sie an Spearman-Brown denken?

Was hat die Prophezeiung? Was sagt Ihnen die Formel der Prophezeiung?

  • Die Reliabilität wird sinken, worauf Sie sich verlassen können.
  • Und das Ganze ist natürlich dann für Ihre Schätzung schlecht.
  • Das heißt, das muss man kompensieren.
  • Und da wird häufig der Fehler gemacht in den Klausuren.
  • Und bewusst nicht aus Doofheit, sondern aus Nachlässigkeit.
  • Ja, wir kommen gleich dazu.
  • Also, ich habe den Test halbiert. Ich habe jetzt zwei Testhälften, die dann miteinander korreliert werden. Das ist der Testhalbierungskoeffizient, der die wahre Reliabilität unterschätzt. Das hatten wir ja gesagt. Ihr Kommilitone hat es richtig gesagt, dass die Reliabilität mit der Anzahl der Items zunimmt. Sie haben den Test jetzt einfach halbiert.
  • Und wenn Sie das tun, werden Sie Reliabilitätsverluste hinnehmen müssen.
  • Aber Sie müssen nicht damit leben, sondern Sie können das kompensieren, den Verlust, indem Sie dann nämlich mit der Spielmann-Braun-Formel auf die Gesamttestlänge hochrechnen.
  • den Verlust, indem Sie dann nämlich mit der Spielmann-Braun-Formel auf die Gesamttestlänge hochrechnen.
  • Wichtig, auch für die Klausur wird oft vergessen.
  • Es besteht also aus zwei Schritten, die Vorgehensweise bei der Bestimmung der Testhalbierungsreliabilität.
  • Das heißt, man berechnet zunächst also die Korrelation der Testergebnisse, also die Person macht einen Test. Sagen wir, der hat 40 Items.
  • Nach der Methode Ihrer Wahl splitten Sie diese 40 Items, die der Proband oder die Probandin ausgefüllt hat, in zwei Teilbereiche.
  • Das heißt, Sie haben für jeden Teilbereich jetzt auch ein Test-Teilergebnis.
  • Die Person macht 40 Items.
  • Sie können den Test auswerten, da kommt meinetwegen raus, er ist extravertiert.
  • Wenn Sie den Test jetzt halbieren in zwei Teile, dann kommt jetzt in beiden Teilen heraus, einmal kommt heraus, die Person ist extrem extrovertiert und beim anderen Mal, die ist sehr extrovertiert.
  • Es kommt etwas Ähnliches heraus wie in dem Gesamttest, aber jetzt nicht unbedingt exakt dasselbe, aber tendenziell etwas Ähnliches.
  • Dann berechnen Sie also den Messwert einer Person in der ersten Testhälfte, also das Testergebnis basierend auf der ersten Testhälfte.
  • Und der Wert X2 wäre das Testergebnis bei derselben Person, basierend auf der zweiten Testhälfte.
  • Diese beiden Testhälften korrelieren für jede Versuchsperson, die teilgenommen hat.
  • Dann haben Sie eine Korrelation.
  • Wieder mal.
  • Das Ganze kann jetzt aber noch nicht die Testhalbierungsreliabilität sein, weil Sie ja Einbußen hinnehmen mussten wegen der Verkürzung.
  • Das Problem, was da entstanden ist, muss jetzt wieder behoben werden.
  • Und das können Sie jetzt mit Spermiogrammen wieder korrigieren.
  • Und erst dann haben Sie eine Schätzung der Testhalbierungsreliabilität.
  • Das heißt, Sie nehmen sich wieder die Spearman-Brown-Formel her.
  • Da Sie ja hier halbiert haben, müssen Sie jetzt zur Kompensation verdoppeln.
  • Und hier sehen Sie, das ist schon eingefügt in die normale klassische Formel.
  • Hier sehen Sie die 2, die 2 steht für das n.
  • Und das n muss jetzt ja, da es halbiert wurde, kompensatorisch eben verdoppelt werden.
  • Also steht da Faktor 2 drin.
  • Das heißt, wenn Sie das hier berechnet haben, kommt also raus, der Reliabilitätskoeffizient, der so auf die doppelte Länge der Skala aufgewertet wurde, korreliert werden miteinander ja nur die Hälften, doch interessant für die ist allein die Reliabilität der Gesamtskala.
  • Daher ist dieser Korrekturschnitt nötig.
  • Also noch einmal die dringende Bitte, achten Sie darauf, dass dieses Vorgehen bei der Bestimmung der Test-Halbierungs-Reliabilität aus zwei Schritten besteht.
  • Sie dürfen die Aufwertung nicht vergessen.
  • Wer die Aufwertung vergisst, hat ein falsches Ergebnis.

So, bitte.

Wo ist dann der Unterschied dazu, dass ich einen Test habe, wo ich einfach die Reliabilität berechne?

Wo habe ich da was anderes?

  • Also ich könnte ja jetzt die ganzen Werte eingeben.
  • Ach so, nein, weil ich korreliere.

Das heißt, wann können wir die Testhalbierungsreliabilität anwenden?

  • Wir können sie anwenden, wenn die obigen Reliabilitätsbestimmungen nicht durchgeführt werden können und die obigen waren Paralleltest und Testwiederholung.
  • Da brauchte ich ja jeweils zwei Messungen.
  • Wenn ich jetzt aber nur eine Messung habe und ich kriege keine zweite, weil die Versuchspersonen dazu nicht in der Lage sind oder ich die Adressen nicht mehr habe oder aus anderen Gründen, dann muss ich mit einer Messung leben und dann kann ich das hernehmen.
  • Vorteile sind geringer untersuchungstechnischer Aufwand auf jeden Fall.
  • Motivation, Stimmungs- und Aufmerksamkeitsschwankungen der Probanden können als Varianzquelle praktisch ausgeschlossen werden, sodass die instrumentelle Messgenauigkeit hier am besten bestimmt werden kann.
  • Zwei mögliche Messzeitpunkte, wie es bei den anderen Reliabilitätsschätzungsarten war, bringen diese Schwierigkeiten mit sich.
  • Hier ist es jetzt ein Messzeitpunkt.
  • Gut, und dann haben wir schon die letzte Reliabilitätsschätzungsart.
  • Und das ist die interne Konsistenz, üblicherweise mit Cronbachs Alpha.
  • Bestimmt, das Ganze ist jetzt Crohn-Mass-Alpha, das Sie vielleicht schon kennen, aber vielleicht noch nicht so richtig wissen, was dahinter steckt.
  • Und da möchte ich jetzt mit Ihnen darüber sprechen.
  • Das Ganze ist eine Erweiterung beziehungsweise eine Verallgemeinerung der Test-Halbierungsmethode, die wir gerade kennengelernt haben.
  • Nur hier wird jedes Item behandelt, wobei jedes Item als ein Paralleltest betrachtet wird.
  • Also der Test wird hier nicht in zwei Hälften unterteilt, nicht in Hälfte 1 mit 20 Items und Hälfte 2 mit ebenfalls 20 Items, sondern der Test wird hier in so viele Items zerteilt, wie im Test vorhanden sind.
  • Die Analyse erfolgt analog zur Bestimmung der Split-Half-Reliabilität, nur dass hier der Test nicht in zwei Teile, sondern in so viele Teile, wie er Items hat, zerlegt wird.
  • Also, er wird bis sozusagen auf die kleinsten Analyseeinheiten zerlegt.
  • Die Analyse liefert dann einen mittleren Split-Half-Koeffizienten.
  • Okay, also hier wird feingliedriger zerlegt.
  • Die Berechnung kann entweder erfolgen bei dichotomen Antwortformaten durch die Korrelation zwischen allen Items mittels der Kew-Richardson-Formel.
  • Das ist häufig KR.
  • Die heißen KR und dann kommt eine Nummer.
  • Die beiden Herrschaften haben mehrere Formeln entwickelt.
  • Das wäre bei dichotomen Antwortmodi.
  • Und üblicherweise haben wir jetzt ja Rating-Skalen, zum Beispiel in der Persönlichkeitspsychologie.
  • Oder dann hätten wir hier bei mehrstufigen Antwortformaten, also Rating-Skalen durch Cronbach-Alpha.
  • Und dieser Koeffizient, den Cronbachs Alpha uns ausgibt, den SPSS, wir schauen uns gleich nochmal an, wie das funktioniert, den SPSS.
  • Dieser Koeffizient entspricht der mittleren Testhalbierungsreliabilität eines Tests für alle möglichen Testhalbierungen.
  • Bei heterogenen Tests unterschätzt Cronbachs Alpha jedoch die Reliabilität und wird daher auch als Homogenitätsindex bezeichnet.
  • Also, Cronbachs Alpha liefert mir nur gute Schätzungen der internen Konsistenz, wenn es sich um eine homogene Skala handelt.
  • Jetzt machen wir mal den Brückenschlag zurück zu den Testkonstruktionsstrategien.

Welche Testkonstruktionsstrategien haben besonders homogene Skalen erzeugt?

Welche waren das?

Die induktiv-faktoranalytische Testkonstruktionsstrategie liefert Ihnen hochhomogene Items, nämlich alle Items, die ich wo finde?

  • Ja, alle Items einer Skala korrelieren hoch miteinander.

Richtig, aber Sie haben jetzt die Faktoranalyse vor sich. Wo finde ich Items, die wahrscheinlich sehr homogen sind?

Wenn Sie den Output von SPSS der Faktoranalyse vor Augen haben, wie wissen Sie es?

  • Sie laden hoch auf einen Faktor.
  • Genau, die Items, die hoch auf einen Faktor laden, haben eine sehr hohe Homogenität.
  • Also, dafür würde das gut funktionieren.

Welche Items liefern, welcher Konstruktionsansatz liefert wahrscheinlich noch homogene Items?

  • Sie wissen es.
  • Prototypisch.

Prototypisch?

  • Okay, ja.

Kann das auch liefern?

Welcher Ansatz liefert auf keinen Fall homogene Items?

  • Der external kriteriumsbezogene, weil der nämlich überhaupt nicht nach inhaltlichen Erwägungen schaut.

Erinnern Sie sich an die gelben Jacken?

  • Okay.
  • Gut.
  • Also, wenn man jetzt aber hergeht und heterogene Tests durchführt, wo die Items also nicht ein Konstrukt messen, dann unterschätzt Cronbachs Alpha die Reliabilität und wird deshalb als Homogenitätsindex bezeichnet.
  • Homogenitätsindex bedeutet, dass Cronbachs Alpha bitte nur verwendet werden sollte, wenn Sie auch homogene Konstrukte messen.
  • Sonst ist es nicht gut geeignet.
  • Gut, das Ganze hat Vorteile und Nachteile wie jede Art.
  • Vorteile sind, es führt zu stabileren Schätzungen als die Testhalbierungsmethode, bei welcher die Koeffizienten von der Halbierungsmethode abhängen, Sie wissen ja z.B.
  • Odd-even, Zufall, Auswahl nach statistischen Analysekriterien oder was immer Sie wollen, hängt ab und wird daher bevorzugt.
  • Das ist sozusagen eine genauere Möglichkeit, weil die Methode der Aufteilung in einzelne Hälften hier keine Rolle spielt.
  • Es wird sowieso in die feinste mögliche Untergliederung aufgesplittet und dann der mittlere Zusammenhang berechnet.
  • Dies ist also quasi eine Verallgemeinerung der Halbierungsmethode, die wir gerade besprochen haben.
  • Rein theoretisch wird hier die Testskala nicht nur in zwei Hälften zerlegt, sondern in so viele wie der Test-Items hat, wie schon gesagt.
  • So, und das ist hier die freundliche Formel von Cronbachs Alpha.
  • Hier finde ich häufig Flüchtigkeitsfehler, auch in Klausuren.
  • Auch das ist Ihrer Aufmerksamkeit wert, denn das wird in jeder Klausur vorkommen.

Also, was finden wir hier?

  • Cronbachs Alpha berechnet sich wie folgt.

Die Ns, zunächst einmal, was bedeutet das?

  • Das steht für Anzahl der Items, nicht für Anzahl der Versuchspersonen.
  • Das ist der häufigste Fehler, der gemacht wird.
  • Sie sehen genau in den Beispielen, die ich Ihnen zur Berechnung gebe, wie viele Items der Test hat und wie viele Personen er umfasst.
  • Das sind wenige Items und wenige Personen.
  • Aber wenn Sie für das N hier einsetzen, die Anzahl der Personen, ist das schon falsch.
  • Hier steht, dass N für die Anzahl der Items steht, das müssen Sie wissen.
  • Und hier oben haben wir diesen Term 1- und dann kommt hier dieses Summenzeichen Σi² von 1 bis N.

Was heißt das?

  • Das ist die Varianz der Werte der gegessenen Items, das heißt, das rechnen wir am besten mal praktisch aus.
  • Ich glaube, jetzt habe ich aber gerade kein Beispiel dazu.
  • Wenn man es einmal praktisch gerechnet hat, ist es ganz einfach.
  • Und das S-Sum-Quadrat heißt Varianz der Summenwerte, das heißt die Varianz der Testergebnisse, die die Personen in dem Test haben.
  • Der Term heißt einfach, wenn ich beispielsweise vier Items habe, dann müssen da vier Werte aufaddiert werden, nämlich Varianz des ersten Items plus Varianz des zweiten Items plus Varianz des dritten Items plus Varianz des vierten Items.
  • Das ist alles.
  • Das Summenzeichen heißt nur, da werden Dinge aufsummiert.
  • Und zwar die Varianzen der einzelnen Items.
  • Also da oben müssen vier Terme aufaddiert werden, wenn Sie vier Items haben.
  • Wenn Sie zehn Items haben, müssen da oben zehn aufaddierte Terme stehen, aber das werde ich Ihnen in der Klausur nicht zumuten, weil das zu viel Rechnerei ist.
  • Das heißt, es wird eine geringere Anzahl von Items sein.
  • Ja, und wenn Sie das dann ausrechnen, dann kommt Ihr Cronbachs Alpha dabei raus.
  • Später machen Sie das wahrscheinlich mit SPSS.
  • Das Schöne dabei ist, wenn Sie es mal per Hand gemacht haben, haben Sie es deutlich besser verstanden, als wenn Sie nur ein paar Mausklicks investiert haben, die Ihnen SPSS in unter einer Sekunde Rechenzeit ausgibt.
  • So, und jetzt stellt sich noch die Frage für uns: Wir haben vier verschiedene Reliabilitätsschätzungsarten kennengelernt.

Alle haben Vor- und Nachteile.

  • Alle haben gewisse Anwendungsschwerpunkte.
  • Hier ist noch einmal tabellarisch aufgeführt, wann welche Reliabilitätsschätzungsart günstig ist.

Sehen wir uns zum Beispiel das hier an.

  • Bei heterogenen Tests ist die interne Konsistenz nicht die beste Wahl.
  • Bei Speed-Tests ist die interne Konsistenz ebenfalls nicht die beste Wahl.

Können Sie sich vorstellen, weshalb?

  • Speed-Tests sind oft Tests, die mit…
  • Also, Sie wissen, was Speed-Tests sind. Das brauche ich, glaube ich, nicht mehr erklären.
  • Die Leute schaffen…

Ja, bitte?

  • Da scheiden sich die Items ja nicht so, da geht es ja nur um die Geschwindigkeit.
  • Genau.
  • Okay, und die Leute schaffen in unterschiedlicher Zeit unterschiedliche Mengen an Items. Deshalb ist Chromas Alpha hier nicht der Hit.
  • Okay.

Und bei Powertests, warum ist da die Retest-Methode nur eingeschränkt geeignet?

Was war da der Punkt, bitte?

  • Wegen Lerneffekten.
  • Wegen Lerneffekten.
  • Wenn Sie zum Beispiel da…
  • Powertests sind ja diese mentalen Leistungstests, also wo es quasi um Denkkraft geht, wenn Sie quasi Rätsel vorgeben.
  • Und die Leute, die sie schon einmal geknackt haben, haben natürlich die Einsicht und können das beim nächsten Mal besonders schnell leisten.
  • Das geht also nur bei PowerTests, wenn sie Parallelformen mit unterschiedlichen Aufgaben haben.
  • Dann wäre das eine Möglichkeit.
  • Deswegen ist es hier eingeklammert.
  • Also, ich habe den Eindruck, dass Sie ein Verständnis bei den vier Reliabilitätsschätzungsarten erworben haben.
  • Hier gibt es noch eine schöne grafische Übersicht, die nochmal klar macht, wie diese funktionieren. Die interne Konsistenz wird berechnet. Also hier wird der Test aufgeteilt. Die Skala hat acht Items, wird aufgeteilt, es wird geschaut, wie jedes Item mit jedem zusammenhängt.
  • Der Test wird also unterteilt in seine elementaren Elemente, also in so viele Items, wie er hat.
  • Und der mittlere Zusammenhang ist der Homogenitätsindex nach Cronbachs Alpha.
  • Das ist die grafische Visualisierung dazu.
  • Beim Split-Half habe ich auch acht Items, wo ich vier Stück in eine Hälfte tue, die anderen vier in die andere Hälfte.
  • Die Korrelation zwischen den Testergebnissen schätzt die Split-Half-Reliabilität, nachdem ich mit Sperman im Raum verdoppelt habe.
  • Die Retest-Reliabilität ist denkbar einfach.
  • Hier habe ich denselben Test mit denselben acht Items.
  • Zum Messzeitpunkt 1 wird er vorgegeben und zum Messzeitpunkt 2.
  • Die jeweiligen Testergebnisse werden korreliert.
  • Okay.
  • Ja, bitte.
  • Es hat damit zu tun.
  • Es hat damit zu tun.
  • Wir schauen es gleich mal in SPSS Outputs an.

So, und da sind wir schon.

  • Hier sind ein paar Screenshots für Sie, wie man es in SPSS macht.

Also, wie kann ich Reliabilitäten für einen Datensatz, der jetzt in SPSS vorhanden ist, berechnen?

  • Sie finden das hier. Unter dem Menüpunkt 'Analysieren' finden Sie alle möglichen Berechnungsarten, die SPSS bietet.
  • Und Sie finden die Reliabilitätsschätzungsart unter 'Analysieren' und dann 'Skalieren'.
  • Wir bilden Skalen, Items, die dieselben Konstrukte messen.
  • Da es sich um Skalen handelt, finden Sie es unter 'Skalieren' und dann 'Reliabilitätsanalyse'. Sie landen dann hier in diesem Feld.
  • Hier finden Sie ein Beispiel des Neo-FFI, einem Big Five-basierten Persönlichkeitstest.
  • Und die Items, der hat 60 Items und die heißen hier N1 bis N60.
  • So sind die abgekürzt.
  • Und Sie sehen hier die ganzen Items, das sind die Variablen, die Sie in dem Modell drin haben.
  • Und Sie sehen hier im Reliabilitätsmodell können Sie auswählen, parallel, streng parallel oder gutman, das sind jetzt noch besondere Formen oder split half ist da drin und eben auch alpha.
  • Wir wollen jetzt hier Alpha mal nehmen.
  • Die Items, die dasselbe Konstrukt, also beispielsweise extra Version messen sollen, die schicken Sie hier rüber.
  • Dann geht es weiter.
  • Sie können dann noch Statistiken auswählen, die Ihnen das Ganze ausgeben soll.
  • Da gibt es eine ganze Menge, wie häufig in SPSS.
  • Die wichtigsten sind zunächst mal, die hier ausgewählt sind: deskriptive Statistiken für das Item selber und die Skala, wenn das Item gelöscht wird.

Also, was passiert eigentlich mit der Gesamtskala, wenn ich auf das Item verzichte?

  • Das ist eine ganz tolle Sache.
  • Es liefert Ihnen eine Vorhersage darüber, was passiert, wenn Sie ein Item entfernen.
  • Und entfernt wird hier natürlich nur nach statistischen Kriterien, weil SPSS natürlich das sprachliche Verständnis nicht hat.
  • Das ist Ihr persönliches Empfinden.
  • Gut, also das wählen Sie aus.
  • Und dann bekommen Sie hier diese freundlichen Übersichten.
  • Das ist überschrieben mit, zunächst mal ganz treffend, Reliability Analysis Scale in Klammern Methode Alpha.
  • Und Sie sehen hier diese zwölf Items. Der NeoFFI hat 60 Items und misst die Big Five.
  • 60 durch 5 ist 12, also in jeder dieser, zur Messung jedes Big Five Faktors sind also zwölf Items vorhanden.

Und Sie sehen hier zunächst mal die Mittelwerte der Items. Was ist das auch?

Die Mittelwerte der Items sind nichts anderes als die Itemschwierigkeiten, genau, erinnern Sie sich?

  • Die Streuung, nämlich die Standardabweichung für jedes Item.
  • Und die Anzahl der Fälle.
  • Also, hier haben von 101 Personen alle Variablen ausgefüllt.

Eine Frage von Ihnen, bitte?

Nein, ist sie nicht.

  • Also, ich gehe noch kurz zurück.
  • Scala, wenn ein Item gelöscht wird, ist es nicht die Part-Whole-Korrektur, sondern sozusagen eine Simulation, was passieren würde, wenn Sie auf dieses eine Item verzichten würden.
  • Also, man geht immer noch davon aus. Wir schauen es uns gleich an. Dann kann ich es besser erklären, weil es sind auch noch Abbildungen da.
  • Also, Sie bekommen hier die Schwierigkeit jedes Items. Die unterscheiden sich schon ein bisschen, die Streuung und die Anzahl der Fälle der Leute, die es ausgefüllt haben.
  • Okay, es sind hier immer 101.
  • Sehen Sie unten auch nochmal: Number of cases 101. Und Sie sehen jetzt hier zunächst mal, die Inter-Item-Korrelation der Items in dieser Skala beträgt 0,18.
  • Hier steht, die mittlere Inter-Item-Korrelation stellt einen Homogenitätsindex dar.
  • Das basiert auf Ihrer Frage, die Sie auch genannt haben.
  • Also auch hier geht es um Homogenität.
  • Je höher die korrelieren, desto homogener messen Sie das Konstrukt.
  • Es handelt sich hierbei um eine mittlere Korrelation zwischen den Items.
  • Diese ist nicht Fischer Z-transformiert.
  • Das ist ein Punkt am Rande.
  • Wenn Sie Korrelationen betrachten, mache ich ein Beispiel.
  • Sie führen eine Analyse durch, um zu untersuchen, inwieweit Gewissenhaftigkeit mit Berufserfolg zusammenhängt.
  • Sie untersuchen dies an zwei Stichproben.
  • Sie untersuchen dies bei Buchhaltern.
  • Dort finden Sie heraus, dass Gewissenhaftigkeit mit dem Berufserfolg bei Buchhaltern bis zu Punkt 80 korreliert.
  • Und Sie entdecken dies bei Führungskräften in der chemischen Industrie.
  • Da kommt heraus, Gewissenhaftigkeit korreliert mit Berufserfolg bei Managern in der chemischen Industrie zu Punkt 20.

Sie sagen jetzt, okay, gut, wenn ich jetzt also mitteile, welche Korrelation habe ich dann?

Haben Sie einen Vorschlag?

  • Sie haben keinen Vorschlag.

Jemand anders?

  • Kommt dann heraus, okay, Punkt 20 plus Punkt 80 gleich 1 durch 2 wäre Punkt 50.
  • Das gemittelte Ergebnis für die Bedeutsamkeit von Gewissenhaftigkeit für den Berufserfolg wäre Punkt 50.

Oder was?

Darf man Korrelationen mitteln?

  • Das scheinen Sie noch nicht gehört zu haben, aber Sie wissen es trotzdem.
  • Ja, die sind nicht intervallskaliert.
  • Richtig, die sind nicht intervallskaliert.

Demzufolge?

Könnten wir vielleicht eine Determinationspolizei nehmen?

  • Okay, das könnten Sie auch tun, aber Sie können es noch einfacher machen, indem Sie die…
  • Sie dürfen Korrelationen numerisch, aufgrund dessen, dass sie nicht intervallskaliert sind, nicht mitteln.
  • Sondern Sie müssen diese zunächst Fischer Z-transformieren. Die Skalen, die dann resultieren, dürfen Sie mitteln, und dann dürfen Sie über Fischer Z wieder rücktransformieren und erhalten dann die gemittelte Korrelation.

Warum ist das so?

  • Ein Zusammenhang, ein korrelativer Zusammenhang von Punkt 80 im Vergleich zu Punkt 20 ist nicht viermal so stark, sondern der ist ungefähr 20, 30-fach so stark.
  • Ja, geschätzt.
  • Also ist auf jeden Fall deutlich stärker, als es der numerische Unterschied zwischen Punkt 20 und Punkt 80 ihn weismachen möchte.
  • Das heißt, eine Korrelation zum Beispiel von Punkt 4 ist nicht doppelt so hoch wie eine von Punkt 2.
  • Also numerisch schon, aber der Zusammenhang, der sich dahinter verbirgt, ist deutlich höher.
  • Und das nimmt umso stärker zu, je höher die Korrelation wird.
  • Das heißt, man kann nicht so sagen, der empirische Zusammenhang von Punkt 90 ist dreimal so hoch wie bei Punkt 30.
  • Der ist deutlich höher als dreifach.
  • Vom Faktor her.
  • Und wenn Sie Korrelation mitteln wollen, dürfen Sie es gerne, aber bitte immer Fischer Z transformieren, sonst machen Sie große Fehler.
  • Das am Rande.
  • Da gibt es einfach eine Tabelle.
  • Für jeden Korrelationswert gibt es einen Fischer Z-Wert.
  • Den können Sie nehmen, mit dem können Sie addieren, subtrahieren, dividieren, wie Sie wollen.
  • Und das Ergebnis rechnen Sie dann zurück.
  • Auch anhand der Tabelle.
  • Da brauchen Sie gar keine Formel zu bedienen.
  • Bitte schön.

Bei dem Beispiel, das Sie gerade genannt haben, inwiefern ist es überhaupt sinnvoll, das zu erwähnen?

  • Ist es nicht in dem Fall, ja.
  • Ich wollte nur ein kurzes Beispiel geben, um Ihnen dann etwas zu erläutern, damit es nicht so trocken ist.
  • Gut.
  • Also das ist zunächst einmal, was man hier sieht.
  • Wir schauen noch weiter.

Was steht hier noch an Informationen?

  • Hier steht jetzt eine Spalte, die heißt Korrigierte Elementgesamt-Korrelation.

Und was, glauben Sie, steckt dahinter?

Ein alter Bekannter, der auf Deutsch lautet?

Any ideas?

Wissen Sie es?

  • Nein, geraten.
  • Die Korrelation des einzelnen Elements mit der Skala.

Richtig, aber eine spezielle Form davon?

Which one?

  • Die korrigierte Trennschärfe.

Okay?

  • Die korrigierte Item-Total-Korrelation ist nichts anderes als die korrigierte Trennschärfe.
  • Sie wissen, dass das Item-Total zunächst die Trennschärfe ist, aber numerisch ist das Element immer noch im Total enthalten, und wenn ich das herauskorrigiere, habe ich die korrigierte Item-Total-Korrelation, auf Deutsch korrigierte Trennschärfe.
  • Und anhand dieser wählen wir später auch Elemente aus.
  • Das war ja unser wichtigstes statistisches Selektionskriterium.
  • Und Sie sehen hier noch diese freundliche Formel oder diese freundliche Angabe hier: Alpha, wenn Item gelöscht wird.
  • Das war der Punkt, wo wir angetickt haben. Scala, wenn Item gelöscht wird.

Was passiert mit Cronbachs Alpha, wenn ich das Item löschen würde?

  • Das ist immer noch das Beispiel vom Neo FFI.

Das heißt, dass es Items gibt, die eine Trendschärfe von 0,7 haben?

  • Ja, wir haben hier 0,57, 0,20, 0,38, 0,42, 0,26, 0,50, 0,33, ja.

Aber wenn wir das alles durchschauen, haben wir gelernt, dass alles unter Punkt 0,32 Mist ist, oder?

  • Sagen wir suboptimal, ja.

Rechne ich dann, lasse ich die Items drin bei der Datenauswertung, oder wieso sind die überhaupt drin, wenn die so schlecht sind?

  • Gute Frage.
  • Der Grund dafür ist, schauen wir es mal durch, da sind jetzt Items drin, die nicht so eine tolle Trennschärfe haben, nachdem was wir hier besprochen haben.
  • 57 ist eine Traum-Trennschärfe, 20 ist mau, 38 geht, 42 geht, 26, naja, 50 ist gut, 33 ist in Ordnung, 56, 35 in Ordnung, 0,7 ist absolut trashig.
  • Hier 41 und 30, naja, 30 kann man noch sagen, aber 07 ist also absolut indiskutabel, haben wir hier ja besprochen.

Weshalb haben die Testautoren das jetzt drin gelassen?

  • Die sind nicht schlecht in Testtheorien, die wissen das auch, aber es war die Vorgabe aus Amerika.
  • Die Testautoren, das ist ja ein original amerikanischer Test, der ins Deutsche übertragen werden sollte, genau in der Form, quasi eins zu eins, nur sprachlich so übersetzt, dass die Übersetzung adäquat ist.
  • Und ob jetzt psychometrisch die deutsche Version hier ein schlechtes Item drin hat oder nicht, ist den Amerikanern wurscht.
  • Die haben das durchgedrückt, dass genau diese Form so bestehen bleibt.
  • Im Englischen ist auch das eine oder andere schlechte Item drin, aber die werden gerade überarbeitet.
  • Der Neo-FFI kommt, glaube ich, nächstes Jahr in einer neuen Version raus.
  • Und so nimmt die Wissenschaft peu à peu dann Fortschritte.
  • Aber Sie sehen hier, das ist auf jeden Fall ein ganz dreistes Item.
  • Und das Schöne ist…

Bitte?

  • Das müsste man überprüfen, ob das vielleicht missverständlich formuliert war.
  • Oder ob da ein Umpolungsfehler drin ist.
  • Das müsste man zunächst prüfen.
  • Ist jetzt bei dem Item aber nicht.
  • Also, es ist wirklich scheinbar ein untaugliches Item für diese Skala.
  • Und das Schöne ist jetzt, wir haben…
  • Also, Corrected Item Total Correlation ist die Part-Hole korrigierte Trennschärfe, RIT, die steht hier.
  • Hier sehen wir schon, da gehen wir gleich auch noch drauf ein, was passiert, also wenn. Ich spring mal weiter, zunächst, ich komm gleich drauf zurück, gehen wir zunächst durch, was bedeuten diese Infosäulen hier.
  • Squared Multiple Correlation bedeutet, das ist die quadrierte multiple Korrelation der restlichen Items mit dem vorliegenden Item.
  • Ist nicht so wichtig für Selektionsgesichtspunkte.
  • SPSS liefert viele Sachen.
  • Man muss sie nicht alle verwenden.
  • Die wichtigste Schwierigkeit für uns war Streuung und Trennschärfe.
  • Aber Sie sollten beachten, dass je höher die multiple Korrelation ist, desto repräsentativer dieses Item für alle anderen Items dieser Skala ist, da der Anteil der gemeinsamen Varianz dann höher ist.
  • Das heißt, das schwache Item, das war das Item N47 mit der sehr schlechten Trennschärfe, müsste dann auch eine geringere Squared-Multiple-Correlation haben als die anderen.
  • Schauen wir mal, ob das stimmt.
  • N47, Squared-Multiple-Correlation, ja, es scheint nicht ganz zu stimmen.
  • Punkt 25, da gibt es noch welche, die noch eine schlechtere haben.
  • Also lassen wir mal die Squared Multiple Correlation in der Interpretation raus und beschränken uns auf das, was wir hier gemacht haben.
  • Das sind die wichtigsten Sachen.
  • Aber Alpha-F Item Deleted. Das ist diese Tabelle, auf die ich zurückkommen wollte, die die Reliabilität der verbleibenden Items kennzeichnet, nachdem das vorliegende Item ausgesondert wurde.
  • Und bevor ich das jetzt richtig gut nutzen kann, diese Formel, muss ich zunächst mal wissen, wie die bisherige Reliabilität ist, wenn ich alle diese zwölf Items drin lasse.
  • Da schauen wir mal, das wird nämlich auch ausgegeben, das steht hier unten. Reliabilitätsanalyse Skala Alpha, zwölf Items, nämlich die, die hier drin sind, ist das Alpha Punkt 72.
  • So, und jetzt schauen wir mal, wenn ich jetzt die Gurke eliminiere, die Gurke war das N47. Wenn ich das rausmache, dann verliere ich zwar ein Item. Und wenn ich ein Item verliere, habe ich eine Testverkürzung um ein Zwölftel.
  • Eine Testverkürzung um ein Zwölftel sollte eigentlich dafür sorgen, dass ich Reliabilitätseinbußen habe, aber man sehe und staune, wenn ich das Item 47 eliminiere, dann habe ich keinen Reliabilitätsverlust, deshalb, weil das Item nicht gut war.
  • Und das ist das Schöne an Alpha F Item Deleted.
  • Ja, also wir können mal hingucken. Wenn wir also demzufolge ein schlechtes Item rausnehmen, kann ich eine Reliabilitätsverbesserung sogar erzielen oder es bleibt gleich. Aber das ist auch schon ein Erfolg, weil ich dann ökonomischer getestet habe.
  • Wenn ich aber ein gutes Item eliminiere, sollte ich einen Reliabilitätsverlust erleiden, und das schauen wir uns an.
  • Hier habe ich eine korrigierte Trennschärfe von Punkt 57, und die bisherigen zwölf Items hatten den Cronbachs-Alpha von 0,74.
  • Wenn ich dieses traumhafte Item eliminiere, sinkt meine Reliabilität gleich auf 0,67 ab.
  • Oder schauen wir es uns hier an, bei den ganz hohen Trennschärfen, hier bei Punkt 50 wieder.
  • Wenn ich das Item N27 mit der traumhaften Trennschärfe von Punkt 50 eliminiere aus der Skala, sinkt meine Trennschärfe gleich auf Punkt 0,68, sinkt mein Cronbachs-Alpha gleich auf Punkt 0,68.
  • Wenn Sie so wollen, ist das so ein bisschen also auch so eine Art Prophezeiung, die hier getroffen wird.
  • Und wenn ich ein Item hernehme, was nicht so toll ist, sagen wir hier mal das Punkt 20 Item, wenn ich das eliminiere mit der Trennschärfe, dann sinkt die Reliabilität minimal auf 72.
  • Ja, das ist das Schöne an der Funktion Alpha 11 Item Deleted.
  • Und Sie sehen hier intuitiv auch das, was wir schon besprochen haben in der Theorie.
  • Trendschärfere Items sind ganz wichtig.
  • Sie wissen ja noch, Trendschärfe heißt ja nichts anderes, als dass das eine Item, für das ich die Trendschärfe betrachte, das misst, was die anderen Items auch missen.
  • Also so gesehen sind höhere Trendschärfen, deuten auf höhere Homogenität hin in der Skala.
  • Und das schlägt sich natürlich vorteilhaft in Cronbachs Alpha in der Indexberechnung nieder.

Und was für eine Trendsetter kann man sagen, dass man das Item weglassen kann, weil es identisch oder zu ähnlich ist mit den anderen?

  • Weil dann ist es ja auch wieder sinnlos.
  • Dann wäre es auch sinnlos, ja.

Ab welchem Wert ist es ungefähr so?

  • Also im Persönlichkeitsbereich, wir reden ja hier über den Persönlichkeitsbereich, hier von denen finde ich keins zu ähnlich.
  • Aber Sie können ja die beiden Items, ja, Sie können die mal die Korrelationsmatrix der Items untereinander innerhalb einer Skala anschauen und so über Punkt 80 oder so ist es wahrscheinlich redundant.
  • So, das heißt hier unter Alpha, hier steht es, ist die Gesamtreliabilität unter Berücksichtigung aller zwölf Items hier angegeben.
  • Hier ist das standardisierte Item Alpha jetzt nicht so wichtig, das können wir überspringen.
  • Es gibt den Sonderfall, wenn die Item-Varianzen stark unterschiedlich sind, sollte man das standardisierte Verfahren verwenden.
  • Das ist ein Sonderfall.
  • Da machen wir jetzt Mut zur Lücke.
  • Also, die wichtigsten Ergebnisse dieser Reliabilitätsanalyse, die SPSS hier ausgegeben hat, sind das Alpha. Wenn wir uns die Tabelle ansehen, ist das Alpha gering, nämlich ein Alpha von 0,72.
  • Hier bitte ich grundsätzlich darum, in der Klausur Endergebnisse auf zwei Stellen nach dem Komma zu runden.
  • Das heißt, diesen Wert sollte man, wenn ich als gutes Beispiel jetzt vorangegangen wäre auf dieser Folie, hier sollte dann stehen: Punkt 73.
  • Ab Punkt 5 wird aufgerundet.
  • Darunter wird abgerundet.
  • Denn hiermit suggeriert man eine Genauigkeit und Reliabilität, die wir einfach so nicht errechnen können.
  • Deshalb sollten wir auch nicht so tun.
  • Also auf zwei Nachkommastellen, bitte.
  • Besonders fällt die geringe Trennschärfe des Items N47 mit der korrigierten italienischen Abschlusskorrelation von Punkt 07 ins Auge.
  • Das haben wir gerade festgestellt.
  • Die Eliminierung dieses Items hätte eine Erhöhung der Reliabilität auf Alpha von 0,747 zur Folge, bisher lag sie bei 0,743.
  • Also hier wäre es dann schon 0,75, wenn man aufrunden würde.
  • Also es kommt sogar eine Mini-Erhöhung raus, obwohl ich durch Verkürzung des Tests eigentlich eine Reliabilitätseinbuße erwarten sollte.
  • Da das Item jedoch nichts taugte, ist es sogar besser.
  • Ich entferne es.
  • Neben möglichen inhaltlichen Gründen für die geringe Trennschärfe sind zwei weitere Gründe denkbar.
  • Zum einen handelt es sich beim Item N47 um das Item mit der extremsten Schwierigkeit.
  • Hier sehen Sie, das kann man sich auch anzeigen, extremste Schwierigkeit war also wieder der Mittelwert.
  • Und das ist ein gutes Beispiel dafür, dass extremere Items geringere Trennschärfen haben und dafür sorgen, dass wir ungünstigere Auswirkungen auf Chrommax Alpha haben.
  • Haben wir darüber gesprochen? Hier sehen Sie es jetzt mal, dass es in der Praxis auch so ist.
  • Im Vergleich zu den anderen Itemmittelnwerten und zum anderen ist es im Gegensatz zu allen anderen Items deutlich links steil verteilt, also hat es eine besondere Verteilungsform.

Ja, bitte.

Wenn ich jetzt selber entscheiden sollte, ob ich dieses Item drin lasse oder nicht, würde ich das herausnehmen?

  • Ja.
  • Gut.
  • Da kann ich mich auch dran halten, auch jetzt in der Klausur, dass das immer, wenn es doch stark abweicht von den anderen Items, dass das schon nicht dazugehört.
  • Ja, ich bitte darum.
  • Das ist richtig, absolut.
  • Und die Autoren hier kennen das Problem auch, aber sie durften es halt nicht, weil die Amerikaner hier den Daumen drauf hatten.
  • Das ist übrigens wirklich so.
  • Also Costa und McCray sind die Autoren vom Neo PR und setzen das durch.
  • Man darf das nur in eine andere Sprache übertragen, wenn das eins zu eins so übernommen wird.
  • Ist ihr Wunsch, und so wird es gemacht.

Finden Sie das sinnvoll?

  • Also, ich finde es auch nicht sinnvoll.
  • Das Item gehört raus.
  • In meinen Augen ist es nicht gut.

Gut.

  • Das heißt, wir haben hier noch einmal die Gesamtübersicht, was SPSS Ihnen ausgibt.
  • Wenn wir hier elf Items nur hernehmen, jetzt haben wir das N47 rausgekickt, dann haben wir hier einen Alpha von Punkt 0,74, also aufgerundet Punkt 0,75.
  • Und wir können mal gucken, ob eine weitere Eliminierung Sinn machen würde.
  • Wenn ich diese Skala jetzt hier betrachte, die eine Reliabilität von 0,74 aufweist, und ich diese noch verbessern möchte, müsste ich zunächst einmal bei Items mit einer geringen Trennschärfe nachsehen.
  • Und hier habe ich noch einen Kandidaten mit 0,22, auch hier 0,22.
  • Wenn ich dieses Item N7 entferne, komme ich bereits auf 0,75.

Und wenn ich den rausschmeiße, wo haben wir ihn?

  • Mit dem N22 komme ich auch auf 0,75.
  • Das bedeutet, hier könnte man in Betracht ziehen, ob man noch weiter aussortiert.
  • Items mit einer schwächeren Trennschärfe.
  • Und ich habe einen Zugewinn, also einen minimalen Zugewinn sogar an Reliabilität nach Chromebox Alpha, wenn ich sie weiter verkürze.
  • Wobei ich das ziemlich schwierig finde, mal zu sagen, okay, ich brauche ja auch noch ein extremes Item, um besser differenzieren zu können.
  • Genau, man müsste jetzt gucken, wie sehen jetzt die Item-Mittelwerte aus.
  • Das sieht man jetzt hier nicht bei dieser Ausgabe.
  • Das ist nur der Scale-Mean angegeben, aber der Item-Mean wäre jetzt interessant zu sehen.
  • Wahrscheinlich sind diese beiden Items nämlich extremer.
  • Demzufolge haben sie eine geringere Trennschärfe und senken somit das Chrommass-Alpha.
  • Das heißt, man muss hier mit Sinn und Verstand vorgehen, genügend schwierige, leichte und mittelschwere Elemente in eine gesunde Mischung bringen.
  • Und im Zweifelsfall behält man sie besser bei.
  • Zumal sich der Gewinn hier in Grenzen hält.
  • Muss man dann nach inhaltlicher Abwägung entscheiden.
  • Es gibt eine Grauzone, aber damit kann man tendenziell gut umgehen.

Was wäre im Bereich der Persönlichkeit ein extrem schwieriges Element, da es sich nicht um einen Leistungstest handelt?

  • Nee, es ist kein Leistungstest, aber es kann natürlich trotzdem sehr leichte oder sehr schwierige Items geben.
  • Das ist ja nur vom Sprachgebrauch der Leistungstests übernommen.

Ja, erinnern Sie sich?

  • Schwierigkeit und Leichtigkeit stammen aus dem Leistungsbereich, werden aber auf den Persönlichkeitsbereich übertragen. Die Aussage, die Begrifflichkeit, obwohl es hier nicht schwerer ist, bei 'Ich-gehe-gerne-auf-Partys-Stimme-voll-zu' anzukreuzen, als 'Stimme-überhaupt-nicht-zu'.

Okay?

  • Ist nur sprachbedingt.

Ja, bitte.

  • Genau.

Genau, da muss man jetzt aufpassen.

  • Wenn Sie sozusagen wissen wollen, angenommen Sie sagen, okay, ich gehe jetzt mal strikt vor wie eine Maschine und sage, alles, was dieses Alpha hier erhöht, schmeiße ich raus an Items.
  • Dann müssten Sie sagen, hier N7 raus.
  • Und N22 raus, wegen der mauen Trennschärfen.
  • Das Alpha-F-Item Deleted sagt Ihnen aber nur, was passiert, wenn man genau dieses eine Item eliminiert.
  • Dann müssen Sie es neu rechnen und gucken, dann ändern sich die ganzen Vorhersagen wieder.
  • Dann ändern sich ja auch die ganzen Corrected-Item-Total-Correlations wieder.
  • Also, wenn Sie das machen wollen, müssen Sie erst ein Item rausschmeißen, neu berechnen und gucken, vielleicht ist dieses eine Item, was jetzt eben auch auf der Abschlussliste stand, ja dann schon besser geworden.
  • Das wird ja immer so sein, die Trennschärfen beziehen sich immer auf ein Item im Vergleich zu den anderen Items, die noch da sind.
  • Wenn Sie ein anderes herausnehmen, ändern sich die ganzen Zahlen.
  • Deshalb bitte immer nur Step by Step, nicht alle auf einmal.

In welche Richtung wird es denn wahrscheinlich gehen?

Ist es, wenn ich jetzt ein schlechtes Item entferne, werden dann alle anderen Items insgesamt besser, da das verbleibende schlechte Item noch vorhanden ist?

  • Das wird sich zeigen.
  • Das kommt darauf an, inwiefern dieses Item Wahrscheinlich wird das aber weiter absinken, vermutlich.
  • Man müsste es jedoch überprüfen.
  • Das können Sie einfach im Rechenschritt überprüfen.
  • Die übliche Vorgehensweise ist es, sich zunächst von den absolut nicht diskutierbaren Items zu trennen, wie zum Beispiel dem mit der korrigierten Trennschärfe von Punkt 07, aus dem wird auch nichts mehr werden.
  • Das ist hoffnungslos.
  • Jedenfalls in dieser Skala.

Genau.

  • Also, Sie sehen, anhand dieser Items-Analyse könnten wir aufgrund der relativ niedrigen Trennschärfe zwei weitere Items, nämlich das N7 und N22, aussortieren.
  • Doch hier ist Vorsicht geboten, denn der Test kann auch zu stark homogenisiert oder optimiert werden.
  • Das bedeutet genau den Punkt, den Sie genannt hatten.
  • Ich muss auch darauf achten, dass ich Items mit extremen Schwierigkeiten habe, um in diesen Merkmalsbereichen differenzieren zu können.
  • Und extremere Items haben üblicherweise geringere Trennschärfen.
  • Das heißt, sie wirken eher reliabilitätsdämpfend nach der Methode ChromeVasAlpha.

Das heißt, hier muss man inhaltlich schauen, macht es Sinn, ja oder nein, sich noch von denen zu trennen?

  • Wenn ich jetzt an dem Test etwas ändern wollen würde, würde ich das dann nach und nach machen.

Würde ich erst einmal das N7 rausschmeißen und dann vielleicht sogar das N7 wieder reintun und das N22 rausschmeißen und die beiden dann berechnen und gegeneinander anschauen?

  • Genau.
  • Da können Sie Schritt für Schritt überprüfen, was passiert, wenn.
  • Und Sie können das Item ja wieder reinnehmen.
  • Sie löschen es ja nicht aus dem Datensatz raus, sondern nur aus der Skalenberechnung.
  • Und dann schauen.
  • Aber hier wäre ich jetzt schon vorsichtig.
  • Im Zweifel hier jetzt lieber drin lassen.
  • Aber dazu müsste man jetzt nochmal die Itemmittelwerte und die Verteilungen sehen, die das einzelne Item hat.
  • Aber das 0,7er Item mit der Trennschärfe, das ist.
  • Jenseits, das sehen wir nie wieder in dieser Skala, es taugt nichts.
  • Ja, bitte.

Also werfen wir hier jetzt Items raus oder erhöhen dadurch die Reliabilität?

  • Erstaunlicherweise, ja.

Bedeutet das dann, dass sie nicht homogen genug sind?

  • Also, weil eigentlich müsste man ja durch homogene Items die Reliabilität steigern, das hatten wir doch.
  • Genau, homogene Items sorgen für ein hohes Kriterium Alpha.
  • Offensichtlich sind diese Items, von denen wir uns hier jetzt, oder das eine Item, von dem wir uns jetzt hier verabschiedet haben, ist nicht homogen einfügbar in das Kollektiv der anderen 11 Items.
  • Das heißt, es misst nicht sehr stark das, was die anderen Items messen.
  • Es ist demzufolge ein heterogener Punkt, den haben wir rausgenommen und damit die Homogenität erhöht.
  • Das heißt, ich muss quasi, wenn ich den Test verlängern möchte, mir Items ausdenken, dann das prüfen, also die Trennschärfen angucken und dann wieder…
  • Genau.
  • Sie müssen zunächst mal gucken, ob, wenn Sie jetzt hier die Skala verlängern wollten, beispielsweise, wenn Sie einen Ehrgeiz haben. Sie wollen auf eine Reliabilität von Punkt 0,85 kommen. Überlegen Sie sich ein paar Items, von denen Sie sprachlich glauben, dass sie homogen in das Kollektiv dieser Items passen. Geben Sie den Leuten vor und schauen dann, ob sie auch wirklich passen.

Und zwar mit der Anzahl.

Also, wenn ich jetzt hier insgesamt drei Items rausnehmen würde, und ich habe aber in den anderen Skalen ja zwölf Items, ist es nicht ungünstig, dass ich unterschiedliche Anzahlen habe?

  • Also bei den Extraversionen und beim Neurotizismus habe ich jetzt zwölf und hier hätte ich nur noch drei.
  • Genauso argumentieren die Testautoren Costa und McRae und sagen, jedes Konstrukt wird mit der gleichen Anzahl von Items gemessen.
  • Dann kann man Reliabilitätsunterschiede in der Konstrukterfassung nicht auf die Skalenlänge zurückführen.
  • Genauso funktioniert es auch im Neo-PI-R.
  • Der NEO-PI-R ist die lange Version davon und misst jeden Big-Five-Faktor mit 48 Items.
  • Und da sagen Kritiker jetzt, es ist ja nicht notwendigerweise so, dass die Konstruktbreite von Neurotizismus exakt der Konstruktbreite von Offenheit für Erfahrung entsprechen muss.

Das heißt, warum muss man die Itemlänge da konstant halten?

  • Aber sie sagen, es ist schöner.
  • Sie möchten das so.
  • Das ist aber eine Meinung, die man nicht unbedingt teilen muss.
  • Gut.

Also, was haben wir hier?

  • Da haben wir sie nochmal alle drin.

Nochmal die Mittelwerte. Und hier hat man gesehen, dass das Item N7, was wir zuerst eliminiert hatten, oder war es das N47?

  • Das war genau das N47.
  • Wenn wir das jetzt mal von der Schwierigkeit her anschauen. Also, wenn Sie das mal vergleichen, das N47 mit den Mittelwerten der anderen Items, finden Sie auch, dass es einen extrem niedrigen Mittelwert hat.
  • Das heißt, es ist ein extremeres Item und das ist wahrscheinlich auch der Grund, weshalb es nicht so eine schöne Trennschärfe hat.

Und jetzt fügt sich das Wissen, was wir so in den letzten Wochen und Monaten, ja mittlerweile in Testtheorie erworben haben, das fügt sich jetzt so ein bisschen zusammen, merken Sie es?

Jetzt auf einmal kommen die Dinge zusammen und passen so ein bisschen, oder?

  • Das ist die Idee.
  • Gut, das ist die Abbildung, die wir eben hatten.
  • Sie sehen hier also nochmal bei den Item-Schwierigkeiten, die Item-Schwierigkeit variiert von 1,68 bei dem Item N47 bis zu 3,13, also da ist ein ganz schöner Range drin.
  • Das heißt, es werden etwa 29 % der theoretisch möglichen Breite der 5-stufigen Antwortskala ausgeschöpft, dabei zu einem größeren Anteil die rechte Skalenhälfte, nämlich die Zustimmungsseite.
  • Also der NEO-FFI funktioniert genau wie der NEO-PER.
  • Sie haben einen 5-stufigen Antwortmodus: starke Ablehnung, Ablehnung, neutral, Zustimmung, starke Zustimmung.
  • Und das wird hier in Skalen umgewandelt, und das kommt dann halt raus.
  • Gut, die Item-Streuungen bewegen sich in einem Bereich von Punkt 0,82 bis Punkt 1,0.
  • Sie sehen das hier, Punkt 0,82 ist der niedrigste und 1,08.
  • N47 weist eine sehr geringe Trennschärfe auf.
  • Darüber haben wir schon gesprochen.
  • Wenn ich das N47 rausnehme, habe ich sogar einen Reliabilitätsgewinn.
  • Gut, kommen wir zum nächsten Punkt.
  • Der lautet Validität.
  • Wir springen jetzt also zum nächsten Hauptgütekriterium.
  • Zunächst zur Definition.
  • Da sind Sie ja ein bisschen schon vertraut, wie mir von Ihrer Seite berichtet wurde, sodass wir das noch relativ schnell abhandeln können.
  • Unter Validität versteht man den Grad der Genauigkeit, indem ein Test oder ein Testverfahren wirklich das misst, was er zu messen vorgibt oder messen soll.
  • Sie erinnern sich an das H-Beispiel von Tolgut von der letzten Vorlesung.
  • Validität ist letztlich das Entscheidende.
  • Objektivität und Reliabilität sind notwendig, aber nicht hinreichend, zur Erzielung von Validität, aber Validität ist letztlich das Wichtigste.
  • zur Erzielung von Validität, aber Validität ist letztlich das Wichtigste.
  • Und das Schöne ist, da schließt sich wieder ein Bogen zum Anfang der Vorlesung. Wenn die Validität hoch ist, kann von den Testergebnissen, nämlich dem numerischen Relativ, auch Verhalten außerhalb der Testsituation, also das empirische Relativ, generalisiert werden.

Nehmen wir ein Beispiel aus der Verkehrspsychologie.

  • Sie wissen, Verkehrspsychologen machen diesen sogenannten Idiotentest. Das heißt eigentlich medizinisch-psychologische Untersuchungen und wird von Verkehrspsychologen beim TÜV gemacht.
  • Jetzt kann es zum Beispiel sein, dass da überprüft werden muss, anhand einer Fahrsimulation.
  • anhand einer Fahrsimulation.
  • Also da gibt es so einen Computer, an dem ein Lenkrad ist, also ein bisschen wie bei einem Rennspiel am Computer.
  • Und sie haben Pedale und so weiter, und damit fährt man auf dem Bildschirm durch eine normale Straße und schaut, inwiefern die Person in der Lage ist, relativ schnell zu reagieren.
  • Angenommen, der hat den Führerschein wegen Alkoholmissbrauchs entzogen bekommen.
  • Man möchte einfach nur überprüfen, ob die Person noch die Reaktionszeit hat, damit der Führerschein nach Verbüßung der Strafe zurückgegeben werden kann.
  • Okay, also man setzt denjenigen an diese Apparatur und dann, was weiß ich, fliegt ein Ball über den Zaun, weil da Kinder gespielt haben, und da muss man bremsen, oder es kommt einer um die Ecke geschossen, so ein Raser, und die wollen überprüfen, kann derjenige rechtzeitig bremsen, fährt er langsam genug, nimmt er das noch genug wahr.
  • Also sagen wir, Wahrnehmungsfähigkeit wird überprüft an dieser Apparatur bei den Verkehrspsychologen.
  • Und wenn dieser Test, dieser Simulationstest zum Reaktionsvermögen dieser verkehrspsychologischen Testbatterie ein valides Messverfahren ist, dann können Sie aufgrund des Messergebnisses in dieser simulierten Situation im Labor schließen, auf das Verhalten, das der Verkehrsteilnehmer außerhalb des Labors im wahren Leben zeigen wird.
  • Wenn das funktioniert, und das ist ja letztlich der Sinn des Ganzen, dann ist das Testverfahren valide.
  • Und man muss so argumentieren, nur wenn das valide ist, kann ich den Schluss ziehen, dass die Leistung des Kandidaten hier gut war, demzufolge schließe ich, sie wird auch außerhalb im Straßenverkehr gut sein.
  • Das geht nur, wenn Validität vorhanden ist.
  • Das heißt, Validität ist eigentlich der Boden, auf dem wir, also der Ast, auf dem wir sitzen, in der Diagnostik.
  • Wenn die Tests nicht valide sind, können wir sie streng genommen gar nicht brauchen.
  • Sonst kann man nicht von der Testsituation auf außerhalb der Testsituation schließen.
  • Oder Sie machen Personalausweise.
  • Sie wissen, Leute, die extrovertiert sind, sind als Verkäufer in der Regel besser.
  • Im Extroversionstest kommt heraus, dass eine Person hoch extrovertiert ist.
  • Demzufolge erwarten Sie, dass die Person auch im wahren Leben extrovertiert ist.
  • Wenn das nicht funktioniert, müssen wir neu entwickeln.
  • Also, Validität ist ganz wichtig.

Das führt zu einem Vergleich, der durch die Frage angestoßen wird, was hat Validität mit Religion zu tun?

  • Nun, das ist nicht ganz ernst gemeint.
  • Aber ich habe mir überlegt, wenn die Validität das Wichtigste in der Testdiagnostik ist, dann ist sie so etwas wie das Allerheiligste in der Religion.
  • Also, wir kommen hier zu dem Bereich, der für die Testtheoretiker oder die Psychodiagnostik das Allerheiligste ist, und das ist die Validität, wenn man diesen Vergleich ziehen möchte.
  • Also, damit ist die Validität das wichtigste Gütekriterium, denn ein Test kann trotz hoher Objektivität und hoher Reliabilität, die ja beide nur günstige Voraussetzungen zur Erreichung hoher Validität schaffen, unbrauchbar sein, wenn er nicht das misst, was er messen soll.
  • Und das Beispiel habe ich Ihnen gerade gesagt.
  • Zum Beispiel können Reaktionszeitmessungen am Computer in einer verkehrspsychologischen Testbatterie zwar hochreliabel sein, aber nichts über Reaktionen im wirklichen Straßenverkehr aussagen.
  • Wenn das so wäre, wäre diese Testbatterie teuer und überflüssig.
  • So, Qualität misst ein Test das, was man messen soll, das ist die wichtige Frage.

Wie war die Frage bei Reliabilität?

Wonach fragt die Reliabilität?

  • Genau, formulieren Sie die Frage mal aus, kurz.
  • Einmal noch zur Wiederholung, es kann gar nicht schaden.

Wie genau misst der Test das, was er messen soll?

Wie zuverlässig misst der Test das, was er misst?

Und die Frage, die nach der Validität fragt, ist, wie misst der Test, was er messen soll?

  • Es ist ein Unterschied.
  • Demzufolge steht hier im Zentrum, Validität misst der Test, was er messen soll.
  • Und da schauen wir uns jetzt mal an, bei den Validitätsaspekten. Die Mindmaps können Sie sich auch herunterladen.
  • Ich mag gerne Mindmaps, weil sie komplexes Wissen gut strukturieren, nach meinem Dafürhalten.
  • Deshalb können Sie sich diese auch herunterladen, sowie das Betrachtungsprogramm dazu.
  • Diese Validitäts-Mindmap strukturiert die unterschiedlichen Aspekte von Validität. Bei der Objektivität haben wir Unteraspekte kennengelernt, bei der Reliabilität auch.
  • Demzufolge dürfte es Sie nicht überraschen, dass es bei Validität auch Unteraspekte gibt, die wiederum gewisse Möglichkeiten bieten hinsichtlich der Schlüsse auf externes Verhalten.
  • Schauen wir uns zunächst die Validitätsaspekte an.
  • Wir haben drei Validitätsaspekte, die hier farblich auch unterschiedlich gekennzeichnet sind.
  • Wir haben zunächst die Inhaltsvalidität, die Kriteriumsvalidität und die Konstruktvalidität.
  • Und jeder dieser Validitätsaspekte erlaubt mir unterschiedliche Schlüsse auf Grundlage der Testergebnisse.
  • Also, zunächst einmal ist die Inhaltsvalidität der erste Punkt, den wir besprechen.
  • Die Frage hierbei ist, inwiefern das Messverfahren das zu messende unmittelbar repräsentiert.
  • Hierfür gibt es keinen mathematisch-numerischen Kennwert.
  • Es gibt keine Ziffer dafür, inwiefern ein Test inhaltsvalide ist.
  • Also, wenn Sie hergehen und sagen, die Validität ist Punkt 45, dann ist damit nicht die Inhaltsvalidität gemeint, weil dafür gibt es keinen numerischen Kennwert.

Und was ermöglicht mir die Inhaltsvalidität?

  • Sie ermöglicht mir den Schluss auf Verhalten außerhalb des Tests, das dem Verhalten im Test ähnlich ist, ohne sich dabei auf ein latentes Merkmal oder Konstrukt zu beziehen.

Und wo war Inhaltsvalidität bisher in unserer Vorlesung schon ein wichtiges Thema?

  • Wir haben einmal schon darüber gesprochen.

Bei kriteriumsbezogenen Tests?

  • Bei kriterienorientierten Tests hatten wir das Beispiel gebracht. Erinnern Sie sich an den Fahrlehrer, der Ihre Fahrfähigkeit diagnostizieren muss und idealerweise eine repräsentative Stichprobe aus allen Fahraufgaben zieht, um Ihre Fahrprobe praktischerweise beurteilen zu können, ob Sie alle Facetten beherrschen, die man beim Autofahren können muss: Autobahn, Stadt, Einparken und so weiter. Ob Sie das können.
  • Und wenn es bei diesen kriterienorientierten Tests wie der Fahrprüfung darum geht, ob bestanden oder nicht bestanden, wird dies aus der Testsituation geschlossen.
  • Sie bewältigen diese unterschiedlichen Testaufgaben, die repräsentativ sind für Kompetenz im Straßenverkehr.
  • Und dann schließt sich aus der Testsituation auf Verhalten außerhalb der Testsituation.
  • Das heißt, Sie können es in der Fahrprüfung. Sie können es also auch nach der Fahrprüfung, wenn Sie alleine fahren.
  • Wunderbar.
  • Deshalb ist Inhaltsvalidität bei kriteriumsorientierten Tests wichtig gewesen.
  • Jetzt kommt es hier wieder.
  • Schlussaufhalten außerhalb des Tests, das dem Verhalten im Test ähnlich ist.
  • Deshalb sollte die Fahrprüfung eine repräsentative Stichprobe an Aufgaben sein, die Sie auch später im Straßenverkehr können müssen.
  • So, Inhaltsvalidität wird auch genannt Face Validity, Augenscheinvalidität oder logische Validität.

Wie ist sie definiert?

  • Inhaltsvalidität liegt vor, wenn der Inhalt der Test-Items das zu messende Konstrukt in seinen wichtigsten Aspekten erschöpfend erfasst.
  • Beispiel Fahrprobe.
  • Oder wenn die Aufgaben eines Tests repräsentative Stichproben aus dem zu erfassenden Zielmerkmal selbst darstellen.
  • Das wäre dann also ein Repräsentationsschluss, den ich auf Grundlage des Testverhaltens vornehme.
  • Von der Testsituation auf die Realsituation außerhalb des Tests.
  • Auch da kann ich wieder die Fahrprobe als Beispiel anführen.
  • Die Inhaltsvalidität ist dann maximal, wenn Testsituation und Kriterium vollständig und augenfällig übereinstimmen.
  • Beispiel englischer Wortschatz.
  • Sie sind Englischlehrerin und sollen diagnostizieren, inwieweit die Schüler einen entsprechenden Wortschatz im Englischen erworben haben, der ihrer Klassenstufe entspricht.
  • Sie werden in der Regel dann eine repräsentative Auswahl aus den zu lernenden Vokabeln abtesten im Vokabeltest und daraus eine Note bilden.
  • Und die ist ja eine Diagnose über den Fähigkeitsstand.
  • Sie könnten aber auch, wenn Sie absolut unökonomisch denken, würden alle Wörter abfragen, die die Schüler auswendig lernen mussten.
  • Und dann hätten Sie keine Stichprobe, sondern eine vollständig repräsentative Testsituation.
  • Macht man in der Regel nicht, wäre nicht sinnvoll.
  • Aber ich denke, Sie haben das Prinzip verstanden.
  • So, nächster Validitätsaspekt.
  • Und das ist die Kriteriumsvalidität.
  • So, und hier ist jetzt das Schöne für uns.
  • Es gibt hier so viele numerische Kennwerte, so viele wie es sinnvolle Kriterien gibt.
  • Also je nach Abhängigkeit von Kriterium kann ein Test viele verschiedene Kriteriumsvaliditäten haben.
  • Das ist auch nochmal wichtig, wenn wir nachher einen Schritt weiter gehen.
  • In der nächsten oder übernächsten Vorlesung kommt die Multi-Trade, Multi-Method Matrix, und da spielt das auch wieder eine Rolle.
  • Versuchen Sie es mal im Hinterkopf zu behalten bis dahin.
  • Das mögliche Problem hierbei ist, dass diese Validitätsart nicht unabhängig von den Reliabilitäten von Test und Kriterium ermittelt werden kann.
  • Das ist jetzt eine Schwierigkeit.
  • Eventuell müsste eine Minderungskorrektur eingesetzt werden, wenn man Interesse hat an den theoretischen oder wahren oder 'was wäre wenn'-Reliabilität.
  • Da eine wichtige Frage jetzt vielleicht auch zum Abschluss der heutigen Vorlesung.

Haben Sie schon mal etwas von Minderungskorrektur gehört?

Ist es Ihnen wirklich neu?

  • Okay, dann müssen wir das näches Mal etwas ausführlicher behandeln.
  • Ich wünsche Ihnen bis dahin eine schöne Woche und wäre Ihnen sehr dankbar, wenn Sie sich an diesen Punkt noch erinnern würden.
  • Hier oben.
  • Schöne Woche.
  • Tschüss.