This video: Dans cette vidéo : Neste vídeo : 

Testtheorien, Testkonstruktion und Psychologische Diagnostik (4)

Key points Points Clés Dicas 

00:00 Testtheorien, Testkonstruktion und Psychologische Diagnostik (4)

01:39 Gut, zunächst, wo sind wir stehen geblieben?

03:07 Zunächst also, was ist Schwierigkeit nochmal in anderen Worten?

04:32 Ist das der Mittelbereich?

04:47 So, das ist noch ein ganz basaler Zusammenhang.

05:01 Was sagen diese Abbildungen aus?

05:56 Einverstanden?

07:47 Gut, wie hoch korrelieren die Items?

08:36 Sind schwierige und leichte Antworten in etwa gleichem Umfang vertreten bei Powertests, also zum Beispiel bei Intelligenztests klassischer Natur?

08:54 Schauen wir uns noch die Streuung an.

09:45 Gut, das heißt Phasen der Konstruktion von Tests.

11:45 Die eliminierten, die ausgeschlossenen, sind hier aufgeführt.

12:01 Man schaut also, was gut für die Reliabilität ist?

13:24 Aber in der Phase 2?

13:48 Gut, das heißt, Itemselektion, Kurzzusammenfassung, worauf müssen wir achten bei der darauf folgenden Übung?

14:16 Weshalb Punkt 32?

14:46 Könnte es auch eine zu hohe Streuung sein, also zu breit?

15:29 Vielleicht ist das jetzt eine akademische Frage, aber ist es nicht theoretisch möglich, dass es wirklich jetzt Items gibt oder Eigenschaften erfragt werden, wo es halt wirklich so breit gestreute individuelle Unterschiede gibt?

15:46 Ich möchte sozusagen mit meiner Antwort, die ich gerade gegeben habe, nur darauf hinwirken, dass Sie zunächst mal die Plausibilitätskriterien durchgehen. Woran könnte das liegen?

16:11 Also sind sie möglicherweise zu allgemein gefasst?

18:55 Gut, es gibt trotzdem, ja bitte.

21:14 Validität unkorrigiert - das 'unkorrigiert' spielt auf Minderungskorrekturen an.

24:35 Welches statistische Kriterium ist hier schon mal nicht dabei?

24:46 Nee, die ist da, auch wenn verdeckt.

25:14 Aber was fehlt bei den statistischen Kriterien als Selektionskriterium?

25:30 Die Schwierigkeit steckt hier im M.

25:49 RIT, was ist das?

26:31 Begründung?

26:53 Wenn ich mit dem Auto zum Spaß rumfahre, vergeht die Zeit wie im Fluge?

27:16 Was führte dazu, vermutlich, dass das Item nicht gut ist mit der Trennschärfe?

28:00 Das wird vielleicht auch nicht mehr willkürlich angekreuzt, denn wenn jemand überhaupt nie zum Spaß umkehrt, was soll er denn da ankreuzen?

28:25 Das hört sich ziemlich nach schnellem Fahren an, oder?

28:43 Kann jemand eine Person zusammenfassen?

29:08 Wie würden Sie es beziffern, kurz mit dem Stichwort?

31:09 Also, wie lautet Ihr Urteil?

31:29 Ja, ist richtig einverstanden?

32:24 Attraktivität, schnelles Fahren, oder?

34:08 Eventuell fünf, je nachdem, warum habe ich hier ein Fragezeichen in Klammern gemacht?

35:35 Kann man solche Kandidaten, die Punkt 25 haben und eigentlich das Kriterium Punkt 32 reißen und eliminiert werden müssten?

36:07 In Ordnung sein.

36:26 Kann man es eigentlich auch gleich rausschmeißen?

37:23 Zur Schwierigkeit: Ist es so, dass man es aus Gründen der Schwierigkeit herausnimmt, wenn es kleiner als Punkt 20 und größer als Punkt 80 ist?

42:05 Ja, das ist sprachlich leider ein Denkfehler.

42:30 Bei einem Antwortmodus, der von 1 bis 6 reicht, ist eine mittlere Schwierigkeit numerisch ungefähr was?

44:03 Können Sie das alles vorlesen, vielleicht?

44:20 Das ist eine sehr gute Frage.

44:21 Bitte schön, möchten Sie beginnen.

44:31 Einfachheit, kein Widerspruch im Plenum.

44:57 Weitere Wortmeldungen?

45:37 Ja, unterstützen.

45:53 Weitere Wünsche?

46:16 Ja, bitte.

46:22 Mindestens zwei sprachliche Inhalte.

47:08 Ich würde zwölf rausnehmen von der Formulierung hier.

48:58 Okay, aber wenn es jetzt darum geht, sollen Sie ein Kreuzchen machen bei E oder nicht?

49:24 Also, inwiefern unterscheidet das zwischen straffälligen Deutschen im Gegensatz zu straffälligen Asylbewerbern?

49:55 Ich meine nur, inwiefern spiegelt das überhaupt eine rechtsextreme Präsenz wider?

50:49 Möchten Sie...?

51:35 Besteht da nicht auch die Gefahr, dass das fast schon suggestiv wirkt?

52:23 Das erste Item auf dieser Seite oder das andere?

53:44 Also straffälligen, fremden Menschen mit einem gewissen Misstrauen zu begegnen, bedeutet denn Rechtsextremismus, wenn es zufällig Asylanten sind?

54:28 Und dann stellt sich halt die Frage, ist das Gesamttestergebnis wirklich repräsentativ für rechtsextreme Haltung?

55:25 Welches Problem hätten Sie dann potenziell?

56:12 Also Einstellung gegenüber Straftätern versus Einstellung gegenüber straffälligen Asylbewerbern?

56:31 Okay, gut.

58:08 Wie nennt man das häufig?

58:18 Bitte?

58:55 Was schätzen Sie?

59:11 Was glauben Sie, wie wird die ungefähr sein?

1:01:33 Okay, also erstmal, was muss ich da jetzt hinschreiben?

1:01:42 Also, erklären Sie es mir bitte.

1:02:15 Haben Sie die Idee?

1:02:35 Können Sie mir ein bisschen helfen?

1:03:38 Und was kann er maximal haben?

1:04:58 Wie mache ich es?

1:05:25 Was mache ich jetzt?

1:05:26 Was war die Trennschärfe und die korrigierte Trennschärfe im Prinzip von ihrer statistischen Natur her?

1:05:43 Was war das?

1:06:06 Und was muss ich da wie korrelieren?

1:06:25 Wenn ich die Korrelation ermittle von den Wertepärchen, ich will ja wissen, inwiefern hängt Item 2 korrelativ zusammen mit dem Verbund der anderen Items?

1:07:13 Was gebe ich wie in den Taschenrechner ein?

1:07:41 Welche Werteparke denn?

1:08:28 Okay, also hier ein weiteres Beispiel.

1:09:04 In welcher Form?

1:09:41 Ja, Sie lachen.

1:10:22 So, jetzt möchte ich einen Sprung machen in die nächste Wolke.

1:10:42 Wäre es denn möglich, dass Sie hier ein bisschen reinsteigen?

1:10:54 Sie meinen, die stehen dabei?

1:11:39 Was besagt die klassische Testtheorie?

1:12:28 Also wie lauten die fünf Aktionen kurz und schmerzlos?

1:12:43 Was heißt das?

1:13:42 die muss man sich halt wissen, zu 5 Prozent oder so.

1:14:28 Sie erinnern sich an die Grafik?

1:17:01 Dann haben wir noch das dritte Axiom.

1:19:18 Vielen Dank.

1:19:18 Zunächst einmal, welchen Zwischenrechenschritt müssen Sie unternehmen, damit Sie das überprüfen können?

1:19:39 Jede Spalte aufsummieren, also 2 plus 0 plus 5?

1:19:58 Axiom 2 oder 3 oder beide?

1:20:21 Okay, die überschreiben Sie, Messfehler, und sagen Sie mir dann die Messfehler?

1:21:59 Also Sie summieren den Messfehler auf, wie machen Sie das?

1:22:20 Wie sieht es jetzt mit Aktion Nummer 3 aus?

1:22:40 Frau Schöning?

1:23:42 Aber wie kann man jemandem, der sich jetzt fürchtet, wenn er das hört, was Sie sagen, wie kann man demjenigen eine Handlungsanweisung geben, das zu errechnen, wenn man es schon nicht sieht?

1:24:06 Was sagt das Axiom Nummer 3?

1:24:25 Was kommt da wohl raus, wenn Sie das eingeben in Taschenrechner?

1:24:39 Okay, was kommt da raus?

1:25:07 Okay, wo steht hier der Warewert?

1:25:23 Ja?

Testtheorien, Testkonstruktion und Psychologische Diagnostik (4)

Testtheorien, Testkonstruktion und Psychologische Diagnostik (4)

  • Ich darf Sie in unserer Vorlesung Testtheorien begrüßen.
  • Wir haben heute viel vor, wie auch in den kommenden Wochen.
  • Deshalb möchte ich Sie wie üblich bitten, die Lautstärke auf eine angenehme Arbeitslautstärke zu reduzieren.
  • Dankeschön.
  • Heute wird es zunächst das erste Mal im Semester vielleicht etwas praktisch, da wir uns ein paar Übungsaufgaben ansehen werden, um einen thematischen Block abzuschließen.
  • Das werden wir bald tun.
  • Sie sehen das hier in der Mindmap. Die Sie kennen, sind wir im Moment beim Handout Kapitel 5 unter Punkt Item Analyse und haben zuletzt über Trend, Schärfe, Skalen, Homogenität und Item Selektion gesprochen.
  • Das machen wir heute auch mal praktisch, damit Sie gleich sehen, wie ich mir das im Rahmen einer Klausuraufgabe vorstelle.
  • Außerdem werden wir noch die sprachliche Gestaltung von Items und die Antwortmodi, die jeweils dazugehören, einbeziehen.
  • Also wird diese Wolke heute durch eine praktische Übung, eigentlich durch zwei praktische Beispielaufgaben, vertiefend behandelt.
  • Darüber hinaus möchte ich den Sprung wagen. Heute gehen wir schon in die erste große Testtheorie, die Sie kennen, die klassische Testtheorie, hier in der Reihenfolge.
  • Da werden wir uns schon ein paar Charakteristika anschauen und auch mal eine praktische Aufgabe rechnen, wenn das noch ins Zeitfenster zur klassischen Testtheorie passt.
  • Das ist die Agenda für heute.
  • Ich hoffe, Sie sind frisch.
  • Ja, es geht so.
  • Zwar ist kein phrenetischer Jubel ausgebrochen, aber es sah einigermaßen vielversprechend aus.
  • Darauf baue ich jetzt.

Gut, zunächst, wo sind wir stehen geblieben?

  • Stehen geblieben sind wir bei dieser Folie.
  • Da ging es inhaltlich darum, wir haben gesprochen über Trennschärfen und wie man die mit SPSS berechnet.
  • Sie wissen, das ist der eigentliche Sinn dieser Folie, in der Testtheorie läuft viel über. Also hat viel zu tun mit Reliabilität, Reliabilitätsschätzungsmethoden und die können Sie hier eben abfragen.
  • Das ist der Punkt im Prinzip, wie Sie es machen.
  • Wir machen es noch, wie gesagt, von Hand mit Taschenrechner im Rahmen von Minidatensätzen, damit Sie ein vertieftes Verständnis davon erlangen, was da genau berechnet wird.
  • Mehr dazu wahrscheinlich beim nächsten Mal, wenn wir dann da sein werden.
  • Das Vorteilhafte hierbei ist noch, dass Sie Screenshots erhalten, die Sie mit SPSS erstellen. Hier am Beispiel des IST2000R, einem sehr bekannten Intelligenztests im deutschsprachigen Raum, ist dieser Punkt von Skala, wenn ein Item gelöscht wird.
  • Dabei werden wir im Detail betrachten, welche Vorteile es hat, wenn Sie dieses Häkchen hier unter Reliabilitätsanalyse Statistik setzen.
  • Es ist sehr vorteilhaft und erleichtert die Item-Analyse nach statistischen Kriterien ungemein.
  • Bitte behalten Sie das im Hinterkopf.
  • Also, wir sprechen zunächst über einige statistische Selektionskriterien für Items, und dann machen wir die Übung, die sowohl sprachliche als auch statistische Kriterien zur Item-Selektion beinhaltet.

Zunächst also, was ist Schwierigkeit nochmal in anderen Worten?

  • Bei einem Niveautest, wissen Sie, der Unterschied ist ein Speedtest. Die Schwierigkeiten sollten entweder bei 50 Prozent, das wäre ein enger Geltungsbereich, liegen oder in einem großen Bereich um 50 Prozent streuen.
  • Dabei sollten Sie über den Bereich des gesamten Merkmals streuen, weshalb wir bereits gesprochen haben und wie diese Werte zustande kommen, hier in Prozent ausgedrückt.
  • Wissen Sie mittlerweile auch, die Schwierigkeiten können zwischen 0 und 1 liegen.
  • Und demzufolge sollte jeder Merkmalsbereich, wenn man differenzieren möchte, in der Zielpopulation abgedeckt sein durch entsprechend schwierige Bereiche der Items.
  • Man sollte so viele Aufgaben mit geringer Schwierigkeit erhalten, sodass jeder Proband noch Punkte bekommen kann.
  • Also sollten Items dabei sein, die leicht genug sind für die Personen, die niedrigere Punktzahlen erzielen.
  • Und so viele mit hoher Schwierigkeit, dass nur wenige Probanden alle Aufgaben lösen.
  • Die meisten Klausuren, die Sie hier im Studium schreiben, sind wahrscheinlich von letzterer Natur.
  • Wenige werden es schaffen, alle Aufgaben richtig zu lösen.
  • Das spricht dafür, dass die Items eher schwierig sind, weil Klausuraufgaben so gesehen ja auch Items sind.

Und Schwierigkeitsindizes sollten sich an der Stelle der Schwierigkeitsskala häufen.

  • Bisher hatten wir gesagt, mittlere Schwierigkeit ist gut.
  • An der Stelle, an der von dem Test eine besonders gute Differenzierung verlangt wird.
  • Das ist üblicherweise bei normal verteilten Merkmalen in der Population.

Ist das der Mittelbereich?

  • Wenn eine gleichmäßige Differenzierung verlangt wird, sollten Sie sich etwa normal mit dem Gipfel in der Mitte der Skala verteilen.
  • Genau.
  • Das hier ist natürlich das Mannequin für Schwierigkeit.
  • Gewichtestimmen kann schwer sein oder auch leichter, je nach Trainingszustand.

So, das ist noch ein ganz basaler Zusammenhang.

  • Es ist auch schon häufiger in Klausuren abgefragt worden, was meistens richtig gemacht wird.
  • Wenn Sie es gefragt werden sollten, sollten Sie darauf vorbereitet sein.

Was sagen diese Abbildungen aus?

  • Also, die obere ist die deutlich wichtigere.
  • Wir haben hier unten abgetragen auf der x-Achse die Item-Schwierigkeit, die erreichen kann von 0 bis 1.
  • Das ist ein Scan von der studentischen Grafik, die ein Student mal gemacht hat.
  • Sie erinnern sich vielleicht an Ihren Mathe- und Physiklehrer, der Sie immer darauf hingewiesen hat, beschriften Sie die Achsen korrekt.
  • Dieses dürfen Sie bei mir auch gerne anbringen.
  • Also, ich bitte darum, wenn Sie gefragt werden, wie der empirische Zusammenhang zwischen Item-Schwierigkeit und Trendschärfe ist, dass Sie an die eine Achse, nämlich die X-Achse, am besten die Item-Schwierigkeit dranschreiben. Diese hat einen absoluten Nullpunkt und ein Maximum von 0 und 1. Das könnte man hier noch hinschreiben.
  • Und auf der Y-Achse wird die Item-Trendschärfe abgetragen.
  • Da die Item-Trennschärfe nichts anderes als eine Korrelation ist, reicht der Wertebereich von 0 bis 0,1.

Einverstanden?

  • Dann dürfen Sie es auch dranschreiben.
  • Damit im Prinzip klar ist, was auf diesen Achsen eigentlich passieren kann.
  • Das ist jetzt hier nicht mustergültig gelöst.
  • Der Student hat hier noch am höchsten reingeschrieben.
  • Gut, das ist jetzt für Sie weniger überraschend, wenn Sie sich noch an die grundlegenden mathematischen Kenntnisse erinnern, die Sie am Gymnasium erworben haben.
  • Aber das Wichtige ist, bei einer mittleren Itemschwierigkeit, also bei einem numerischen Wert von Punkt 5, findet man üblicherweise empirisch die höchsten Trennschärfen.
  • Und Sie sehen, die Trennschärfen gehen runter, je extremer.
  • Je mehr Gen 1 und je mehr Gen 0 die Schwierigkeiten steigen.
  • Da wir gerne die Trennschärfe optimieren möchten, aber nicht nur alleine Trennschärfe optimieren dürfen, sind mittelschwere Items für uns häufig die richtige Wahl.
  • Also, diese Grafik ist bemerkenswert.
  • Und das ist einfach nur eine zusätzliche Grafik, die diesen Zusammenhang oben nochmals in einer anderen Weise beleuchtet.
  • Je schwerer die Items sind, desto geringer ist die Lösungshäufigkeit, je leichter die Items sind, desto höher ist die Lösungshäufigkeit.
  • Nicht weiter überraschend.
  • Es gibt noch ein weiteres statistisches Kriterium, das SPSS üblicherweise auch mit ausgibt.
  • Das ist die bei der Item-Analyse unter Punkt Statistik der Punkt Aufgabeninterkorrelation oder Iteminterkorrelation.
  • Hierzu ist zu sagen, dass die Berechnung der Aufgaben- oder Iteminterkorrelation dieselbe ist, jedoch anders als die Berechnung der Itemschwierigkeit und Trendschärfe zur Testkonstruktion nicht unbedingt notwendig ist. Deshalb möchte ich darauf auch nicht weiter eingehen.
  • Sie liefert aber einen Überblick über alle Zusammenhänge zwischen jeweils zwei Items.
  • An ihr kann man entscheiden, inwieweit zwei Items dasselbe Konstrukt messen.

Gut, wie hoch korrelieren die Items?

  • Bei hoher Korrelation spricht es dafür, dass sie ein ähnliches, wenn nicht das identische Konstrukt messen.
  • Nicht weiter überraschend.
  • SPSS gibt das, wie gesagt, standardmäßig aus, aber wenn Sie die Item-Analyse-Kriterien statistischer Natur heranziehen, die wir hier verwendet haben, nämlich Schwierigkeit, Trendschärfe, Streuung und eventuell faktorenanalytische Erkenntnisse, dann sind Sie mit dem statistischen Item, hinsichtlich des statistischen Item-Selektionsprozesses, vollauf mit den richtigen Informationen versorgt, sodass Sie die Aufgaben Interkorrelation nicht weiter benötigen.
  • Also, das heißt, weitere Kriterien bei der Item-Selektion sind nochmal zu überprüfen, folgende Punkte.

Häufen sich häufig Items in unerwünschten Bereichen?

Sind schwierige und leichte Antworten in etwa gleichem Umfang vertreten bei Powertests, also zum Beispiel bei Intelligenztests klassischer Natur?

Sind die Übergänge in der Schwierigkeit zwischen den Items nicht zu groß, also möglichst, dass man feingliedrig differenzieren kann zwischen allen Merkmalsausprägungsstufen?

Schauen wir uns noch die Streuung an.

  • Ein Sinnbild kann natürlich naheliegenderweise ein Salzstreuer sein.
  • Streuung wird auch als Differenzierungsfähigkeit bezeichnet.
  • Nichts Neues, das ist eine Wiederholung.
  • Die Streuung eines Tests sollte im Vergleich zu seinem Standardmessfehler groß sein, denn so lassen sich Probanden besser in mehrere voneinander unterschiedliche Gruppen unterteilen.
  • Differenzierungsfähigkeit war ein wichtiger Aspekt, den wir in unserer Diagnostik berücksichtigen wollten. Das war ja die Idee: Die Tests sollen feinfühlig sein für interindividuelle Unterschiede zwischen uns Menschen, sodass sie diese vorhandenen Unterschiede auch abbilden können.
  • Und üblicherweise setzt man eine Normalverteilung voraus. So sollten im Bereich einer Standardabweichung vom Mittelwert nach oben und einer nach unten 68 Prozent der Fälle liegen.
  • Das ist eine Eigenschaft der Standardnormalverteilung.

Gut, das heißt Phasen der Konstruktion von Tests.

  • Hier muss ich erwähnen, dass dieser Scan nicht von mir selbst erstellt wurde, sondern von einem sehr auch didaktisch begabten Fachkollegen, Herrn Dr. Canning aus Münster.
  • Canning aus Münster.
  • Ihm gebührt die Ehre für diese Abbildung.
  • Ich habe vergessen, das schriftlich festzuhalten, aber Ehre, wem Ehre gebührt. Deshalb sei dies an dieser Stelle gesagt.
  • Er sagt, es gibt bei der Testkonstruktion fünf Phasen.
  • Die erste besteht darin, zunächst Items zu konstruieren, also sich einen sprachlichen Item-Wortlaut zu überlegen.
  • Und ein vorläufiges Instrument zusammenzustellen. Das bedeutet sozusagen die Pilotphase, also die Beta-Version des Tests, also eine Testversion des Tests.
  • Zunächst werden einige empirische Erfahrungen gesammelt, bevor die optimierte Version auf die Masse losgelassen wird.
  • Das heißt, hier gibt es einen Item-Wordcloud, der hier nicht besonders kreativ abgekürzt ist, und einen Antwortmodus, der hier vierstufig ist, nämlich von 1 bis 4.
  • Dieser Fragebogen wird dann einer kleinen, üblicherweise kleinen Teilstichprobe der eigentlichen Zielpopulation vorgelegt.
  • Man erhält empirische Daten.
  • Man erhält also Zahlen, also die statistischen Item-Selektionskriterien, die wir hier schon besprochen haben.
  • Und ich kann dann auf Grundlage dieser Daten Skalen bilden und unpassende Items eliminieren.
  • Üblicherweise zeigt sich, dass man Items nach den ersten empirischen Erfahrungen, Items, die man eigentlich für ganz gut gehalten hat, dass die nichts taugen, dass man die dann noch rausschmeißen muss.
  • Deshalb gehen wir hier auch so detailliert auf diesen Prozess ein, damit Sie das später beispielsweise im Rahmen Ihrer Diplomarbeitserstellung auch können.
  • Also eine Revision der ursprünglichen Testversion ist in der Regel erforderlich, manchmal auch sogar mehr als einmal.
  • Das heißt, wir bilden dann mehrere Skalen.
  • Hier könnte man sagen, Skala 1 wäre Extraversion, Skala 2 Neurotizismus, Skala X Offenheit und so weiter.
  • In diesen Skalen sind bestimmte Items enthalten.

Die eliminierten, die ausgeschlossenen, sind hier aufgeführt.

  • Phase 3 bedeutet dann, dass man sich mit den Gütekriterien auseinandersetzen muss.
  • Die Reliabilität ist eins davon, wie Sie wissen.
  • Hier wird die Reliabilität nach dem Kronmaß Alpha geschätzt.
  • Das ist hier das Sinnbild dafür.

Man schaut also, was gut für die Reliabilität ist?

  • Und da ist ein zweiter Eliminationsschritt häufig noch drin, dass man feststellt, wenn man auf ein Item verzichtet, verliert man nichts oder die Reliabilität wird sogar besser nach Chromebox Alpha.
  • Deshalb hier noch ein weiterer Item-Eliminationsschritt.
  • Dann Phase 4.
  • Jetzt kommen wir langsam dazu, dass das Ding auch veröffentlicht werden kann.
  • Validität jeder Skala berechnen und gegebenenfalls Skalen eliminieren, wenn sie nämlich nicht valide sind.
  • Denn bis hierher haben wir nur die Reliabilität überprüft, und jetzt geht es an den letzten Schritt, die Validitätsüberprüfung.
  • Da kann sich auch nochmal etwas tun.
  • Sie sehen hier die Skala X, zum Beispiel Extraversion.
  • Da soll ein Zusammenhang berechnet werden mit anderen Messinstrumenten oder zum Beispiel dem Außenkriterium berufliche Leistung.
  • Wir hatten ja schon dieses Verkäuferbeispiel einmal angesprochen.
  • Und der Zusammenhang wird üblicherweise auch korrelativ bestimmt.
  • Also da haben wir ja auch wieder die Korrelation.
  • Und dann der abschließende Schritt ist gegebenenfalls Normen erstellen.
  • Und dann kann das Ganze in Produktion gehen.
  • Wir schauen uns heute nochmal diesen Punkt hier, Phase 1, an.
  • Und Teile von Phase 2.
  • Ja, bitte.
  • In der Phase 2 wird eliminiert.

Auch, was für eine Grundlage wird da eliminiert?

  • In der Phase 3 ist es die Reliabilität, die den Ausschlag gibt, ob ich etwas aussortiere oder nicht.

Aber in der Phase 2?

  • Ja, das ist eigentlich auch schon so, sie sind nicht so ganz überschneidungsfrei.
  • Man eliminiert hier in Phase 2 auch schon ein bisschen mit dem Blickwinkel auf die Reliabilität.
  • Also das ist nicht so richtig trennscharf, wie man sagen würde.
  • Aber es dient eher heuristischen Zwecken.

Gut, das heißt, Itemselektion, Kurzzusammenfassung, worauf müssen wir achten bei der darauf folgenden Übung?

  • Hinsichtlich der statistischen Selektionskriterien: Ein Item ist in der Regel jedoch nicht ohne reifliche inhaltliche Überlegungen, die wir auch gleich anstellen werden, zu eliminieren, bei einer Trennschärfe unter Punkt 32.
  • Das ist von den statistischen Kriterien das Wichtigste.
  • Da schauen wir gleich mal zuerst drauf.

Weshalb Punkt 32?

  • Wissen Sie, weil das Quadrat 10% gemeinsamer Varianz bedeutet.
  • Einer zu hohen oder zu niedrigen Schwierigkeit.
  • Da müssen wir auch drauf achten.
  • Und einer deutlich niedrigeren Streuung als derjenigen der anderen Items.
  • Das deutet darauf hin, dass das Item nicht gut differenziert ist, und das soll es ja, weil Differenzierung eine Voraussetzung dafür ist, differenzierte Diagnosen stellen zu können.

Warum heißt es nur einseitig niedrige Streuung?

Könnte es auch eine zu hohe Streuung sein, also zu breit?

  • Eine zu hohe Streuung könnte darauf hindeuten, dass Sie zum Beispiel einen Fehler gemacht haben beim Umpolen.
  • Oder dass es Missverständnisse gibt.
  • Oder dass Personen willkürlich angekreuzt haben.
  • Das würde ich vorher untersuchen, ob das eventuell die Gründe sind.
  • Üblicherweise sollten sich die Streuungen der Items einigermaßen in dem mittleren Bereich bewegen.
  • Was jeweils im mittleren Bereich ist, das ist ja abhängig vom Antwortmodus.
  • Das heißt, man muss mal die Items in der Gesamtheit anschauen, wie wir es gleich machen werden.
  • Sie dürfen gerne gleich mal etwas zur Streuung der Beispiel-Items sagen, die ich vorgebe.
  • Uns mitteilen, was sie glauben, ob etwas anhand der Streuung eliminiert werden kann.

Vielleicht ist das jetzt eine akademische Frage, aber ist es nicht theoretisch möglich, dass es wirklich jetzt Items gibt oder Eigenschaften erfragt werden, wo es halt wirklich so breit gestreute individuelle Unterschiede gibt?

  • Das ist natürlich schon denkbar, ja.

Ich möchte sozusagen mit meiner Antwort, die ich gerade gegeben habe, nur darauf hinwirken, dass Sie zunächst mal die Plausibilitätskriterien durchgehen. Woran könnte das liegen?

  • Und wenn anhand dieser paar Punkte, die ich gerade genannt habe, offensichtlich kein Fehler vorliegt oder keine Besonderheit, dann ist es gut möglich, dass auch im Merkmal so viel Varianz drin ist.
  • Nur sollte jetzt nicht in einem Item viel mehr Varianz drin sein als in den anderen, die dasselbe Merkmal erfassen.
  • Das wäre unplausibel.

Also sind sie möglicherweise zu allgemein gefasst?

  • Beispielsweise.
  • Die Streuungen, die ein Merkmal erfassen, zum Beispiel Extraversion, sollten bei den Items nicht so stark unterschiedlich sein.
  • Das heißt, aber das Schwierige dabei ist, es ist immer ein wenig Subjektivität.
  • Noch damit verbunden, weil sie mehrere Sachen simultan im Auge haben müssen.
  • Deshalb ist auch eine generelle Beurteilung von Schwierigkeitsindizes, Trendschärfen, Reliabilitäten und Validitäten schwierig.
  • Also, Sie können es nicht einfach nach diesem Guillotine-Prinzip machen.
  • Dass man einfach durchgeht wie ein Computer und sagt, das Item raus, das Item raus, das Item raus.
  • So einfach ist es nicht.
  • Sie müssen sozusagen einen breiten Blick haben für alles simultan.
  • Also, man muss mit Verstand rangehen.
  • Denn sie hängen ab von dem Kontext, wie z.B.
  • der Art des verwendeten Tests, z.B.
  • ob es ein objektiver Test ist, ein Persönlichkeitstest oder ein projektiver Test.
  • Ein objektiver Test ist hier gemeint, nicht ein Test, der objektiv ist nach dem Gütekriterium Objektivität, sondern ein objektiver Test nach Kartell.
  • Er hat den Begriff 'objektiver Test' geprägt und solche Tests objektiv genannt, bei denen die Messintention für den Probanden nicht einsichtig ist.
  • Wir haben dieses Beispiel noch nicht behandelt, aber Kartell hat zum Beispiel damit gearbeitet, dass er gesagt hat: 'Bitte beschreiben Sie XY, einen Prominenten oder so'.
  • Und dann hat er später nicht geschaut, wie derjenige es beschrieben hat, sondern hat die Anzahl der Wörter gezählt, die derjenige geschrieben hat.
  • Derjenige, der die Beschreibung von der Prominenz abzugeben hatte, wusste nicht, nach welchen Kriterien das ausgesucht und ausgewertet wird, der Test.
  • Also die Messintention war undurchschaubar und diese Tests hat Kartell objektiv genannt.
  • In diesem speziellen Beispiel sind die Wege des Herrn Kartell unergründlich.
  • Er ist auch stark dafür kritisiert worden.
  • Und als Studierender, als ich selbst Persönlichkeitspsychologie gelernt habe, mit großem Eifer, war ich sehr fasziniert, aber manche Sachen bei Herrn Kartell und auch bei anderen Leuten haben sich mir auch nicht so ganz erschlossen.
  • Und da haben wir den Spruch geprägt, die Wege des Herrn Kartell sind unergründlich.
  • Ups, das war einer zu früh.
  • Also es hängt vom Kontext ab, von der untersuchten Stichprobe, ob sie homogen oder heterogen ist.
  • Also ist das ein Test, der für Hochbegabte ist, das wäre eine homogene Stichprobe oder heterogen für die Normalbevölkerung.
  • Beispielsweise die Art des Tests und die Breite des gemessenen Merkmals.
  • Breiter oder enger Merkmalsausschnitt, das ist auch noch wichtig.

Gut, es gibt trotzdem, ja bitte.

  • Ich habe noch mal eine Frage zu dieser Trennschärfe.
  • Das war schon eine Folie vorher.
  • Aber macht das eigentlich keinen Unterschied, ob ich jetzt …
  • Manchmal erfasse ich ja mit verschiedenen Items ein Konstrukt.
  • Das ist häufig der Fall.
  • Genau.
  • Und dann gibt es ja Items, wo ich dann wieder ganz etwas anderes erfasse.
  • Und die Trennschärfe muss aber auch bei denen, wo ich etwas Ähnliches erfasse, immer mindestens 0,32 sein.
  • Sonst sagt man nach diesem statistischen 10%-igen gemeinsamen Varianzkriterium, dass das Item nicht das repräsentiert, was die anderen Items, beispielsweise der Skala Extraversion, erfassen, und demzufolge lässt man es dann raus.
  • Das wäre ein typischer Eliminationsgrund.
  • Weil das zu ähnlich ist.
  • Nein, weil es zu unähnlich ist.
  • Eine zu niedrige Trennschärfe bedeutet, dass es den anderen Items zu unähnlich ist, die dasselbe Konstrukt messen.
  • Zu unähnlich im Sinne von, es erfasst nicht genug davon, was die anderen Items erfassen.
  • Wir sehen gleich ein Beispiel.
  • Jetzt gibt es von Herrn Fisseni, seines Zeichens Professor für Persönlichkeitspsychologie und Diagnostik, eine Richtlinie, anhand der Sie grob einordnen können, wie die statistischen Kriterien zu sehen sind.
  • Er sagt zunächst einmal, die Itemschwierigkeit ist niedrig, wenn man von einem Wert von größer als 0,80 spricht.
  • Im mittleren Bereich liegt sie zwischen 0,80 und 0,20, während der hohe Bereich bei 0,20 liegt.
  • Also, je kleiner die Schwierigkeit numerisch ist, desto schwieriger ist das Item.
  • Die Trennschärfe haben wir bereits am Beispiel von Justus, Peter und Bob berechnet.
  • Heute machen wir es noch einmal an einem anderen Beispiel aus der Klausur, also aus einer vergangenen Klausur.
  • Sie sehen hier korrigierte Trennschärfe.
  • Hier ist abgekürzt nicht R-I-T-I-T wie bei mir, sondern R-I-T-C, bedeutet aber dasselbe.
  • Niedrige Trennschärfe bei unter Punkt 30, werden gesagt eher Punkt 32.
  • Mittel 30 bis 50, hohe Trennschärfe über Punkt 50.
  • Jetzt haben wir hier noch die Hauptgütekriterien Objektivität, Reliabilität und Validität.
  • Ich möchte zunächst nur auf Reliabilität und Validität eingehen, weil wir hier über diese Form noch nicht gesprochen haben.
  • Reliabilität: niedrig unter Punkt 80, mittel von Punkt 80 bis Punkt 90, hoch über Punkt 90.
  • Man sagt, üblicherweise sollten Persönlichkeitstests eine Reliabilität von über Punkt 80 haben.
  • Also, über Punkt 80 wäre jetzt hier im mittleren Bereich.
  • Bei Intelligenztests ist man häufig strenger und sagt, sie dürfen auch gerne über 90 haben.

Validität unkorrigiert - das 'unkorrigiert' spielt auf Minderungskorrekturen an.

  • Was das genau ist, kommt im Verlauf dieser Vorlesung. Ich schätze, in zwei bis drei Wochen werden wir darauf kommen.
  • Nur zur Einordnung, Validitäten sind jetzt abgekürzt RTC. Das bedeutet, der Index TC steht für Testkriterium, also inwiefern das Testergebnis mit einem meistens Außenkriterium zusammenhängt. Korrelativer Natur, daher R, auch wieder korrelativ.
  • Niedrig unter Punkt 40, mittel 40 bis 60, hoch über Punkt 60.
  • Und die Größe der Eichstichprobe ist stark geschmacksabhängig, was Herr Ficini hier schreibt.
  • Ein N von unter 150 ist schon sehr wenig für eine Testnormierung.
  • 150 bis 300, da fangen die Persönlichkeitspsychologen an, müde zu lächeln.
  • Also, wenn man einen Persönlichkeitstest normiert, anständig, einigermaßen bevölkerungsrepräsentativ, dann ist man mal ganz schnell bei 1.000, 2.000 Leuten.
  • Der Neo-PIR, den ich ihm mitgebracht habe, neulich in dem kleinen blauen Testküfferchen, der hat eine Normierungsstichprobe von 12.000 Leuten.
  • Ja, also das hier sind absolute Untergrenzen.
  • Das ist annähernd…
  • Ja, also im Persönlichkeitstestbereich ist das viel zu wenig, was er hier angegeben hat.
  • Das wäre auch im Intelligenztestbereich zu wenig.
  • So als grobe Richtschnur, als Daumenregel, dürfen Sie sich darauf beziehen.
  • So, und bevor wir jetzt zum nächsten Schritt der klassischen Testtheorie gehen, möchte ich Ihnen die Beispielaufgaben zeigen.
  • Es geht jetzt im Folgenden darum, gemeinsam mal das erworbene Wissen anzuschauen und zu gucken, was denn so hängen geblieben ist.
  • So, Sie sehen hier, das ist noch eine ganz alte Probeklausur, das war vor einigen Jahren.
  • Sie sehen hier folgende Aufgabe.
  • Ich lese sie Ihnen zunächst vor.
  • Verkehrspsychologen konstruierten einen Fragebogen zur Attraktivität schnellen Fahrens mit dem Pkw.
  • Also, das Konstrukt lautet Attraktivität schnellen Fahrens mit dem Pkw.
  • Der Fragebogen umfasst die im Folgenden aufgeführten Items mit dichotomem Antwortmodus, ja gleich eins, nein gleich null.
  • In der folgenden Tabelle sind die Kennwerte aufgeführt, die man aus einem Pretest mit 100 Probanden erhielt.
  • Also, das ist diese Beta-Testform.
  • Also, Beta-Version sagt Microsoft, wenn sie eine neue Software herausbringen.
  • Kritiker meinen ja, die haben danach immer noch Beta-Versionen auf dem Markt, aber egal.
  • Auf jeden Fall die Vorversion, die es noch zu überprüfen gilt.
  • Und diese zehn Items haben Sie vorgegeben mit dem besagten Antwortmodus.
  • Und Sie erhalten jetzt hier folgende statistische Kennwerte.
  • Ich habe da schon mal so ein bisschen rumgemalt.
  • Was das bedeutet, meine ich gleich.
  • Ihre Aufgabenstellung lautet hier im Beispiel.
  • Kennzeichnen Sie die zu kritisierenden Items, indem Sie das zutreffende Kriterium bzw.
  • die Kriterien in der Tabelle einkreisen.
  • Unterstreichen Sie im Falle sprachlicher Gründe die entsprechende Textstelle und spezifizieren Sie sie stichwortartig in der Spalte Z, die hier abgedeckt ist.
  • Geben Sie zusätzlich an, ob und gegebenenfalls weshalb Sie das Item eliminieren würden.
  • In Spalte E, man sieht es hier.
  • Und beachten Sie dabei, dass ein Item auch aus mehreren Gründen gleichzeitig eliminiert werden kann.
  • Also, wenn Sie so wollen, bilden wir jetzt das Assessment Center-Komitee für jedes einzelne Item anhand sprachlicher und statistischer Kriterien.

Zunächst einmal, was fällt Ihnen auf?

Welches statistische Kriterium ist hier schon mal nicht dabei?

Das ist die Aufgabe zum Warmwerden.

  • Deshalb fehlt ein statistisches Kriterium.

Was fehlt?

Nee, die ist da, auch wenn verdeckt.

  • Das andere heißt RIT.

Was fehlt?

Ist das ein dichotomer Antwortmodus? Kann ich mit ja oder nein ankreuzen?

  • Richtig.

Aber was fehlt bei den statistischen Kriterien als Selektionskriterium?

  • Die Schwierigkeit fehlt nicht.
  • Nein, die ist da, wenn auch in versteckter Form.
  • Also, ich sage es Ihnen, die Streuung fehlt.

Die Schwierigkeit steckt hier im M.

  • M steht für Mittelwert, häufig in der Statistik.
  • Und hier steht nicht Schwierigkeit drüber, weil bei einem Antwortmodus von 0 und 1 ist der Mittelwert ziemlich offensichtlich, auch gleich der Schwierigkeit.

RIT, was ist das?

  • Korrigierte Trennschärfe.
  • Und jetzt schauen wir uns die Items mal an.
  • Und was da schon angemalt ist, das kann richtig sein, muss es aber nicht.
  • Deshalb schauen Sie mal bitte unabhängig davon, was hier schon ein bisschen angemalt ist.
  • Erstes Item, wie gesagt, es geht immer um die Attraktivität des schnellen Fahrens mit dem Pkw.
  • Item 1, mich reizen nur PS-starke Autos, Mittelwert Punkt 30, Trennschärfe Punkt 42.

Rein oder raus?

  • Zunächst mal drin lassen.
  • Gehen wir durch.
  • Zwei.
  • Wenn ich mit dem Auto fahre, denke ich an nichts anderes mehr.
  • Mittelwert 0,66, Trennschärfe 0,25.

Begründung?

  • Trennschärfe, okay.
  • Jetzt würde ich Ihnen empfehlen, das noch nicht sofort rauszukicken, sondern zunächst mal unter Vorbehalt drin zu lassen und die anderen erst zu lesen.
  • Aber ich habe es im Hinterkopf.
  • Nächstes.
  • Am Autofahren reizt mich hauptsächlich die Geschwindigkeit.
  • Mittelwert 0,55, Trennschärfe 0,47.
  • Okay, keine Beanstandung.

Wenn ich mit dem Auto zum Spaß rumfahre, vergeht die Zeit wie im Fluge?

  • Punkt 76, RIT, Punkt 10.
  • Raus.

Begründung?

  • Hoffnungsloser Fall.
  • Einverstanden.
  • Das schmeißen wir raus.

Was führte dazu, vermutlich, dass das Item nicht gut ist mit der Trennschärfe?

  • Spaß.
  • Das ist irgendwo nicht richtig festzumachen.
  • Das ist zu wenig konkret einfach.
  • Genau, wenn ich mit dem Auto zum Spaß rumfahre, vergeht die Zeit wie im Fluge.
  • Das muss ja nicht heißen, dass derjenige, der da Ja ankreuzt, rumrast.
  • Sondern vielleicht ist das ja so der Typ Cruiser, der total entspannt, locker, easygoing durch die Innenstadt fährt.
  • Und hier soll ja gemessen werden, Attraktivität schnellen Fahrens.
  • Wahrscheinlich misst das Item etwas anderes.
  • Auch aufgrund des Wortlauts können Sie das erahnen, und das bildet sich dann ab in dem statistischen Selektionskriterium Trennschärfe, was hier unterirdisch ist.
  • Deshalb raus.
  • Bitte.

Das wird vielleicht auch nicht mehr willkürlich angekreuzt, denn wenn jemand überhaupt nie zum Spaß umkehrt, was soll er denn da ankreuzen?

  • Richtig, das ist auch noch ein weiteres Problem des Items.
  • Den Voraussetzungen muss ich geben.
  • Ja, danke für den Hinweis.
  • Schauen wir uns das nächste an.
  • Wenn die Strecke frei ist, drücke ich aufs Gas.
  • Mittelwert 0,58; Trennschärfe 0,50.

Das hört sich ziemlich nach schnellem Fahren an, oder?

  • Einverstanden.

Was haben wir hier?

Lahme Enten haben auf der linken Spur nichts verloren, oder finden sie doch?

  • Mittelwert 0,20; RIT 0,15.
  • Ich höre mehrere Wortmeldungen.

Kann jemand eine Person zusammenfassen?

  • Ist leichter für mich verständlich.
  • Bitte.
  • Ja, es ist schwierig ausgedrückt, weil die Frage beinhaltet beides.
  • Also, wenn man Ja sagt, beantwortet man sie falsch, wenn man Nein sagt auch, weil oder doch.
  • Also, die Formulierung ist sehr missverständlich.
  • Einverstanden.
  • Also, Sie beziehen sich jetzt zunächst auf den sprachlichen Item Wortlaut.

Aus welchem Grund würden Sie das Item eliminieren, also im sprachlichen Bereich?

Wie würden Sie es beziffern, kurz mit dem Stichwort?

  • Uneindeutig.
  • Uneindeutig oder unklarer Antwortbezug, würde man da sagen.
  • Ja, aber uneindeutig trifft es auch.
  • Aber das ist ein Fachwort, unklarer Antwortbezug.
  • Angenommen, das ist Ihnen nicht aufgefallen, das hier wäre die Beta-Version Ihres Tests, zum Beispiel für Diplomarbeitszwecke, und Ihnen wäre das jetzt nicht aufgefallen, dass das Item so ein bisschen krumm formuliert ist.
  • Dann stellen Sie jetzt fest, mit der Formulierung, die das Item hier hatte, provoziert das in Ihrer Teilstichprobe eine Trennschärfe von Punkt 15 und einen Mittelwert von Punkt 20.
  • Allein aufgrund der Trennschärfe würde man sagen, das ist zu wenig.
  • Sie können jetzt aber hergehen und sagen, dass Sie das Item sprachlich besser formulieren, für das sprachlich besser formulierte Item in einer neuen Erhebung neue statistische Kennwerte ermitteln und vielleicht ist es, wenn Sie es umformuliert haben, dann besser.
  • Ja, man kann sagen, lahme Enten haben auf der linken Spur nichts verloren. Punkt. Und dann könnte aus dem Item noch etwas werden.
  • Aber mit diesem Wording hier, oder finden Sie nicht, ist das Item ein No-Go.
  • Der Begriff 'lahme Enten' ist einfach absolut unwissenschaftlich und abwertend…
  • 'Lahme Enten' sind definitiv unwissenschaftlich und abwertend, ja, absolut richtig.
  • Ja, das sehe ich genau wie Sie.
  • Man kann…
  • Sie sehen, hier gibt es einen Graubereich. Hier kann man diskutieren.
  • Nicht diskutieren kann man über das Item in der jetzigen Form, da ist es auf jeden Fall indiskutabel.
  • Aber wenn wir jetzt die sprachlichen Feinheiten anschauen, deshalb ist Testtheorie beispielsweise auch nicht nur Statistik, weil es auch viel um sprachliche Feinheiten beim Item-Wording geht. Da könnte man drüber reden.
  • Aber es ist schön, wenn Sie diese Feinheiten bemerken und hier auch thematisieren, so lernen wir alle voneinander.
  • Gut, nächstes Beispiel.
  • Ich habe mehr als vier Punkte in Flensburg, finde das aber nicht so schlimm.
  • Trennschärfe, immerhin Punkt 35.

Also, wie lautet Ihr Urteil?

  • Ich finde, das erfasst nicht, weil Punkte bekommt man nicht immer mit dem Schnellzahn.
  • Und zweitens sind da auch zwei Sachen drin.
  • Erstens, ja, ich habe 34 Punkte und zweitens, ich finde das nicht so schlimm.
  • Sehr gut.

Ja, ist richtig einverstanden?

  • Hier haben wir jetzt ein Beispiel, wo diese Cut-Off-Methode, quasi diese Guillotine-Entscheidung ins Leere laufen würde.
  • Sie haben hier eine akzeptable Trennschärfe von Punkt 35, einen Mittelwert, der auch noch im grünen Bereich liegt, und haben aber ein Item, das sprachlich nicht überzeugend ist.
  • Und wenn Sie jetzt eine Maschine wären, die nur nach statistischen Erwägungen Items auswählt, dann würden Sie dieses Item drinlassen.
  • Wenn Sie aber mit Sinn und Verstand herangehen, unter Heranziehung eher sprachlicher Feinfühligkeit, werden Sie das Item rausschmeißen, weil das Wording nicht gut ist.
  • Deshalb das Beispiel mit der Guillotine, genau das nicht tun, bitte.
  • Manchmal macht es mir Spaß, den Motor richtig hochzujagen, mit diesen Werten.

Akzeptabel?

  • Okay, zunächst kein Widerspruch.
  • Schnell zu fahren macht mir Spaß.
  • Naja, das ist wahrscheinlich genau das Parade-Beispiel dafür.

Attraktivität, schnelles Fahren, oder?

  • Also insofern, das lassen wir mal drin.
  • Und wenn ich richtig Gas geben kann, oder erst wenn ich richtig Gas geben kann, fühle ich mich wohl.
  • Weil es sozusagen interessiert ist, nur wenn man Gas gibt, sich wohlfühlt und Menschen, die auch andere Sachen wohlfühlen.
  • Genau, man kann sich ja durchaus auch mal außerhalb des Autos wohlfühlen.
  • Diese Item-Formulierung provoziert dann auch diese extreme Schwierigkeit.
  • Da sagt also dann fast keiner mehr Ja.
  • Das sehen Sie hier an dem Wert.
  • Und eine Trennschärfe von Punkt 10, die absolut indiskutabel ist, sodass man beispielsweise zu diesem Urteil kommen könnte, dass man sagt, 'Das sollte jetzt nicht passieren.'
  • Dass man sagen kann, okay, diese Items hier kommen auf jeden Fall raus, deshalb ist hier in der Spalte Elimination das auch angekreuzt.
  • Absolut indiskutable Trennschärfe, eigenartiger Wortlaut, also schlechter Bezug zum Konstrukt hier oben, deshalb kommt diese Trennschärfe zustande.
  • Hier besteht ein unklarer Antwortbezug, entweder aufgrund dessen oder Sie finden es bei Punkt 6 heraus.
  • Ich habe mehr als vier Punkte in Flensburg, finde das aber nicht so schlimm. Statistisch ist es in Ordnung, sprachlich jedoch nicht, da zwei Aussagen in dem Satz enthalten sind und somit ein unklarer Antwortbezug vorliegt. Daher wird dieser Punkt entfernt.
  • Und hier unten bei Punkt 10 gab es zu beanstanden: absolut inakzeptable Trennschärfe, extreme Schwierigkeit und ein nicht überzeugender Wortlaut. Daher wird dieser Punkt gestrichen.
  • Ja, Sie haben es bereits bemerkt.
  • Von den zehn Items, die Sie sich relativ mühselig überlegt haben und von denen Sie geglaubt haben, sie könnten etwas taugen, haben Sie nach diesem ersten Revisionsschritt gleich mal vier eingebüßt.

Eventuell fünf, je nachdem, warum habe ich hier ein Fragezeichen in Klammern gemacht?

  • Es könnte nämlich sein, dass die Trendschärfen ja immer berechnet werden.
  • Inwiefern ein Item das misst, was der Verbund der anderen Items misst.
  • In diesem Verbund der anderen Items nehmen wir mal beispielsweise, das sind insgesamt 10. Wie Sie sehen, nehme ich Item 1 bis 10, ist ja hier durchnummeriert. Sie nehmen jetzt dieses Item 2 mal raus. Hier ist der Pool mit den 10 Items. Sie nehmen Item 2 raus, und dann habe ich hier natürlich noch 9 andere.
  • Die Trennschärfe von Item 2 wurde jetzt berechnet, indem dieses eine Item korrelativ, also über die Trennschärfenrechnung, in Beziehung gesetzt wurde zu dem, was die anderen Items in dem Pool noch messen.
  • Jetzt hat sich aber dieser Pool verändert.
  • Da sind im Moment ja noch neun andere Items drin.
  • Das Item fliegt raus, es sind nur noch 8 andere Items drin.
  • Das Item fliegt raus, es sind nur noch 7 andere Items drin.
  • Das Item fliegt raus, es sind nur noch 6 andere Items drin.
  • Das Item fliegt raus, es sind nur noch 5 andere Items drin.
  • Also wird auf einmal die Trennschärfe von Item 2 berechnet.
  • Der gesamte Pool besteht nur noch aus 6 Items.
  • Ich nehme Item 2 raus.
  • Dann sind hier 5 und hier ist ein Item.
  • Und diese Trennschärfe kann schon wieder deutlich besser sein, über Punkt 30 oder Punkt 32, was wir uns als Untergrenze gesetzt haben.
  • Und deshalb ist es schon wieder akzeptabel, aufgrund dessen, dass wir schlechte Items im ersten Schritt eliminiert haben.
  • Das heißt, Items in dem ersten Eliminationsschritt, den Sie vornehmen.

Kann man solche Kandidaten, die Punkt 25 haben und eigentlich das Kriterium Punkt 32 reißen und eliminiert werden müssten?

  • Noch indirekt über die Elimination von anderen schlechten Items über diese Schwelle von Punkt 32 hieven.
  • Deshalb habe ich das hier sozusagen mal in Quarantäne genommen.
  • Das steht unter Beobachtung, deswegen ist da ein Fragezeichen daneben.
  • Sie könnten auch hier reinschreiben in die Spalte Z, probatorisch oder zunächst drin lassen und schauen, was in dem nächsten Revisionsschritt passiert.
  • Vielleicht überspringt es dann die Hürde.
  • Wenn es das tut, bleibt es drin.
  • Bitte.

In Ordnung sein.

  • Aber allein inhaltlich hat es doch eigentlich nichts mit schnellem Fahren zu tun.
  • Weil, wenn hier steht, wenn ich mit dem Auto fahre, denke ich an nichts anderes mehr, ist es im Endeffekt eine Nullaussage in Bezug auf schnelles Fahren.
  • Wenn der Schnellfahrer stehen würde, dann würde es ja noch passen.
  • Richtig, stimmt.

Kann man es eigentlich auch gleich rausschmeißen?

  • Ja, das ist erstaunlich.
  • Der Bezug zum Konstrukt ist nicht ganz klar.
  • Es müsste eigentlich besser stehen, wenn ich schnell mit dem Auto fahre.
  • Ja, so ist es sprachlich eigentlich nicht überzeugend.
  • Man könnte sich fragen, ob es mit dem Konstrukt zu tun hat.
  • Einverstanden.
  • Es könnte auch sein, dass der Autofahrer ängstlich ist und deswegen ins Autofahren senkt.
  • Genau, oder sehr konzentriert ist.
  • Das bleibt eigentlich hier bei diesem Itemwortlaut unklar.
  • Da würde sich anbieten, dass man es vielleicht ein bisschen präziser formuliert.
  • Guter Hinweis, ja.
  • Aber angenommen, es wäre jetzt präzise formuliert und hätte diese Werte, die da stehen, dann wäre das jetzt eine Trennung von dem Dr. Cunningham in Phase 1 und Phase 2.
  • Cunningham in Phase 1 und Phase 2.
  • In Phase 1 würde ich die anderen vier rausschmeißen, mir die statistischen Kennzahlen des zweiten Elements noch einmal anschauen und wenn es dann gut ist, drinlassen; ansonsten in Phase 3 rausschmeißen.
  • Einverstanden.
  • Ja, das ist richtig.
  • Gut, das war jetzt zum Merken.
  • Jetzt schauen wir uns das Ganze mal unter Klausurbedingungen an.
  • Bitte.

Zur Schwierigkeit: Ist es so, dass man es aus Gründen der Schwierigkeit herausnimmt, wenn es kleiner als Punkt 20 und größer als Punkt 80 ist?

  • Nein, bitte nicht reflexartig eliminieren aufgrund der Schwierigkeit, weil Sie wissen, es müssen ja auch ein paar extrem schwere und extrem leichte Items dabei sein.
  • Aber das sollen relativ wenige extrem schwierige oder extrem leichte Items sein.
  • Sie müssen quasi hier die Spalte betrachten.
  • Ach nein, die können Sie jetzt hier nicht sehen, aber in der nächsten Folie, weil die Schwierigkeit bisher nicht aufgetragen war.
  • Entschuldigung, doch, sie war hier aufgetragen.
  • Und Sie sehen hier, die Schwierigkeiten reichen von Punkt 30, ich glaube, bis Punkt 9 bis 69, 76.
  • Okay, das Spektrum geht von Punkt 09 bis zu Punkt 76 und sonst. Es häuft sich so ein bisschen in der Mitte.
  • Also hier würde man sagen, Pi mal Daumen, aufgrund der Schwierigkeitsgründe würde man zunächst mal nicht mit Priorität eins eliminieren.
  • Aber Sie können das, indem Sie die Spalte durchscreenen, mal gucken, wie die Verteilungen sind.
  • Wenn dann zu viele drin wären, dann würden wir…
  • Genau, wenn es zu viele, besonders schwere oder besonders leichte, dann erwägen, ob man das nicht ausdünnt.
  • So, jetzt habe ich hier eine Beispielklausur, die wirklich unter scharfen Bedingungen geschrieben wurde. Sie ist aus dem Oktober 2003.
  • Wenn Sie sich die herunterladen möchten, können Sie sie von meiner Webseite herunterladen, im Download-Bereich, wie Sie wissen, in dem Paket.
  • Die Datei heißt Testorin-Klausuren-Paket.
  • Dort sind mehrere Klausuren von 2003 bis 2005 für Sie zum Üben enthalten.
  • Habe ich bereits erwähnt, aber ich wollte es noch einmal zur Wiederholung anführen.
  • Hier lautet die Aufgabe.
  • Hier habe ich schon ein paar Notizen gemacht. Auf der nächsten Seite, glücklicherweise nicht mehr, sodass Sie völlig unvoreingenommen dann urteilen können.
  • Hier ist zunächst mal wieder eine Instruktion gegeben.
  • Die folgenden Items sind einer Untersuchung von Studierenden der Sozialpädagogik zu rechtsextremen Einstellungen entnommen.
  • Es geht hier um die Erfassung von rechtsextremen Einstellungen.
  • Ziel war es, Skalen zu konstruieren, mit denen verschiedene Aspekte von Einstellungen gegenüber straffälligen Asylbewerbern, also insbesondere gegenüber straffälligen Asylbewerbern, erfasst werden sollten.
  • Im Folgenden sind einige der 50 Items mit ihren Kennwerten aufgeführt, die aus einer Voruntersuchung mit N gleich 150 Probanden stammen.
  • Da haben wir also wieder diese Beta-Testversion.
  • Die Personen hatten sechs abgestufte Möglichkeiten, zu jedem Item Stellung zu nehmen, von Stimme sehr zu bis Lehne sehr ab.
  • Für die statistische Auswertung wurden diesen Antwortabstufungen, die Zahlen 1 bis 6, so zugeordnet, dass ein hoher Wert für eine reservierte ablehnende Haltung steht.
  • Das heißt, immer wenn derjenige etwas ablehnt, bekommt er eine hohe Ziffer zugeordnet vom Antwortmodus her, also die 6.
  • Kennzeichnen Sie die zu kritisierenden Items, indem Sie das zutreffende Kriterium bzw.
  • die Kriterien in der Tabelle einkreisen. Unterstreichen Sie im Falle sprachlicher Gründe die entsprechende Textstelle und spezifizieren Sie sie stichwortartig in der Spalte Anmerkungen. Das ist dies hier.
  • Geben Sie zusätzlich durch Ankreuzen an, ob und gegebenenfalls, weshalb Sie das Item eliminieren würden.
  • Spalte für Eliminieren ist Ihnen vertraut aus dem Vorgängerbeispiel.
  • Und beachten Sie dabei, dass ein Item auch aus mehreren Gründen gleichzeitig eliminiert werden kann.
  • Ich möchte Sie dann bitten, auch in der Klausur alles, was Ihnen auffällt, aufzuführen.
  • Sie müssen mir demonstrieren, dass Sie es verstanden haben.
  • Alle Punkte auffüllen, die Ihnen auffallen bei einem Item, dann sehe ich wunderbar, verstanden, vollumfänglich, volle Punktzahl, nächste Aufgabe.
  • Bitte nutzen Sie diese Aufgaben als Steilvorlage, um Ihr Wissen zu demonstrieren.
  • Ich muss nachher quasi eine Diagnose darüber abgeben, inwiefern Sie sich testtheoretisches Wissen in einem sehr guten Maße angeeignet haben.
  • Das ist die Aufgabe der Klausur, die sich mir stellt.
  • Also werden Sie Ihr Wissen auch los.
  • Ich kann nur das werten, was da steht.
  • Was in Ihrem Kopf ist und da schlummert und auch verstanden wurde, aber nicht sich auf dem Papier wiederfindet, ist für mich im Rahmen dieser Klausur nicht existent.
  • Deshalb, Wissen bitte auf die Klausur drauf.
  • Ich verstehe manchmal nicht, warum das nicht gemacht wird.
  • Vielleicht denkt man, das ist eh selbstverständlich, aber bitte beeindrucken Sie mich mit Ihrem Wissen und schreiben Sie es auch hin.
  • Sollte dies der Fall sein, geben Sie bitte alle Eliminationsgründe an, das hatten wir gerade gesagt.
  • So, jetzt kommen ein paar Items, und Sie sehen, wir haben jetzt hier auch noch die Streuung mit drin als weiterer statistischer Kennwert.
  • Und ich habe schon mal angefangen, bei den ersten drei Items ein wenig zu schauen.
  • Nehmen wir vielleicht kurz, bevor ich Ihnen die anderen Items zeige, wo noch nichts nebenbei steht.
  • Hier lautet der Wortlaut des Items 3.
  • Es lohnt sich, straffällige Asylbewerber zu erziehen, in Anführungszeichen.
  • Denn wer einmal straffällig wird, der wird es immer wieder.

Ja, das ist sprachlich leider ein Denkfehler.

  • Also sprachlich hinsichtlich der logischen Gesichtspunkte völlig inakzeptabel.
  • Und das Item schmeißen wir raus, obwohl es eine traumhafte Trennschärfe hat und von der Streuung und Schwierigkeit in Ordnung ist.
  • Was Sie hier sehen, hier steht jetzt auch wieder der Mittelwert als Index für die Schwierigkeit.

Bei einem Antwortmodus, der von 1 bis 6 reicht, ist eine mittlere Schwierigkeit numerisch ungefähr was?

  • So bei 3.
  • Okay, einverstanden.
  • Ja, das kann man hier wieder nicht sagen, das ist wieder relativ.
  • Wenn Sie sich die Streuungen anschauen wollen, dann tun Sie das bitte, indem Sie sich die Spalte Streuung vorknöpfen.
  • Merken Sie sich mal ungefähr hier, das sind Werte um 1,5, 1,3, 1,1.
  • Ich zähle jetzt mal die andere Folie auf, wo das fortgesetzt wird.
  • Und die Streuung ist von diesen Spalten die mittlere.
  • Dann gucken wir die mal durch.
  • Eben hatten wir 1,5, 1,3, 1,1, hier haben wir 1,8, 1,8, 1,7, 1,1, 1,2, 1,6, 1,3, 0,5.
  • Also so könnten Sie bei den Streuungen durchgehen und gucken, oh, besonders fällt mir aber auch hier der 0,5er.
  • Die anderen sind alle in einem Spektrum, das eigentlich unauffällig ist.
  • Also, hier können Sie ein wenig nach subjektivem Ermessen vorgehen.
  • Aber zunächst sollten Sie sich den Item-Wortlaut ansehen, also die sprachlichen Kriterien, und dann die Item-Trennschärfe als wichtigstes Kriterium innerhalb der statistischen Kriterien.
  • Also, schauen Sie doch bitte durch, welche Items Ihnen nicht gefallen, und lassen Sie es mich wissen. Ich gebe es dann weiter an die anderen, und wir schauen es uns gemeinsam an.
  • Ich bitte um Wortmeldungen, sobald Sie etwas gefunden haben.

Wo möchten Sie eliminieren?

Ja, bitte?

  • Das ist zu klein geschrieben.

Können Sie das alles vorlesen, vielleicht?

  • Ja.
  • Das ist zu klein geschrieben, im Ernst.

Wollen wir ein wenig experimentieren?

  • Sagen Sie mir, ab wann Sie es lesen können.

Besser?

Bist du im grünen Bereich?

Das ist eine sehr gute Frage.

Bitte schön, möchten Sie beginnen.

  • Punkt 7 soll aufgrund einer zu geringen Trennschärfe eliminiert werden.

Einfachheit, kein Widerspruch im Plenum.

  • Aus inhaltlichen Gründen, man könnte jetzt auch aus ethischen Gründen argumentieren.
  • Kriminelle Asylbewerber sind häufig geisteskrank, also geisteskrank alleine. Das ist eigentlich nicht mehr so eine gebräuchliche Vokabel.
  • Ja, also die Ethik, die kommt noch obendrauf, sozusagen als Komplexitätsfaktor, aber die versuchen wir jetzt hier mal nicht mit Priorität 1 zu untersuchen.

Weitere Wortmeldungen?

  • Ja, Sie haben recht.
  • Versucht doch dadurch ethische Missstände zu erfassen, also in Rechtsradikalität, deswegen wäre es da vielleicht sogar angebracht.
  • Genau, das ist das Schwierige.
  • Man kann diese Klischee-Items für diese Rechtsradikalismusforschung vielleicht sogar drin lassen, weil man ja dieses Milieu untersuchen möchte und da kommen halt solche Sachen nun mal vor.
  • Das wäre richtig.
  • Deswegen könnte man sagen, es ist dann doch wieder akzeptabel.
  • Bei der Acht, da ist nichts oder nicht drin, das kann man eigentlich auch nicht beantworten.

Okay, würden Sie Bemühungen unterstützen, spezielle Gefängnisse für straffällige Asylbewerber abzuschaffen oder nicht?

  • Fragezeichen.

Ja, unterstützen.

  • Also unklare Antwortbezüge kommen hier hin.

Noch ein Grund?

Gut, okay, dann haben wir nämlich gleich hier zwei gefunden.

  • Raus.

Weitere Wünsche?

  • Bitte.
  • Ja, zum einen das und zum anderen wissen Sie auch nicht, wenn er sagt, ich stimme sehr zu oder lehne sehr ab und das sind ja die Pole dieses Antwortmodus hier, was jetzt genau derjenige abschaffen möchte und was er nicht abschaffen möchte.

Ja, bitte.

  • Aus sprachlichen Gründen, okay.
  • Also zwei Inhalte beispielsweise, okay.

Mindestens zwei sprachliche Inhalte.

  • Sprachliche Inhalte.
  • Hier haben wir es wieder.
  • Dass der Trennschärfe-Wert im Prinzip akzeptabel ist.
  • Streuung auch.
  • Schwierigkeit auch, aber das Item hinsichtlich, also hier hat man einfach gepfuscht.
  • Hinsichtlich der Item-Formulierung, bevor man die ersten Daten erhoben hat.
  • Diese Fehler in den Item-Formulierungen, die hier gemacht werden, die kann man eigentlich schon a priori ausschließen, wenn man die wirklich gut anschaut, die Item-Formulierung.
  • Hier ist es aber offensichtlich nicht geschehen, und deshalb machen wir die Arbeit jetzt sozusagen post hoc.
  • Es kommt raus.
  • Weitere Kritik an Items.
  • Ich schiebe es mal ein bisschen höher, weil Sie sehen, die unteren jetzt nicht wegen des Vergrößerungsfaktors.

Ich würde zwölf rausnehmen von der Formulierung hier.

  • Das sind ja auch zwei verschiedene Gedanken.
  • Körperliche Züchtigung tut Not bei Asylsuchenden, Straftätern.
  • Und dann ist ja sozusagen das, damit Sie mal kapieren, wo es lang geht in diesem Land.
  • Das ist ja eigentlich eine Begründung dafür, aber eben nur eine mögliche.
  • Da können ja auch andere begründen.
  • Okay, einverstanden.
  • Ja, also es ist nicht mit dem Grundgedanken der Verfassung der Bundesrepublik Deutschland vereinbar, aber das sind leider manche Leute aus der Szene auch nicht, hinsichtlich ihrer, aber ich sage mal zwei Inhalte, das ist allein schon Grund genug dafür, das Item rauszuschmeißen, obwohl es hier eventuell noch ein Kandidat wäre, der über die Schwelle hüpft und sonst auch in Ordnung wäre und dann sagen manchmal ethisch Fragezeichen.
  • Weitere, also ich würde 1 und 10 auch rausschmeißen, weil da sind oft und oft zwei Inhalte drin.
  • Da leben oft Drogen und sind Tagediebe.
  • Aber dieses 'oft' ist ja auch so unklar.
  • Oft ist es oft unklar, einverstanden.
  • Und sind Tagediebe, sagen wir, die zwei Inhalte.
  • Oft.
  • Man muss jetzt oft darauf achten.
  • Manchmal ist es in Ordnung, manchmal nicht.
  • Hier finde ich es nicht so gut.
  • Es ist auch ein bisschen eine Ermessenssache, es kommt ein bisschen auf das Gespür an, aber ich stimme Ihnen zu, da können wir uns auch von dem Item verabschieden.
  • Bitte.
  • Mit dem Gefängnis sozialisieren.
  • Ja, das ist okay, das ist ein Fachwort, ja.
  • Okay, hier könnte man sagen, gut, dann sollte man vielleicht kein Fremdwort verwenden.

Würden Sie es deshalb rausschmeißen oder Gnade vor Recht?

  • Umformulieren.

Okay, aber wenn es jetzt darum geht, sollen Sie ein Kreuzchen machen bei E oder nicht?

  • Noch kein Kreuzchen, okay.
  • Also auch da ist wieder eine Entmessensfrage.
  • Aber hier würde ich auch sagen, kann man mit Leben zu tun, wenn es auch schöner geht, bitte.
  • Ich habe mal grundsätzlich eine Frage.

Diese ganzen Items, inwiefern spiegelt das nicht auch grundsätzlich mal eine Einstellung zu straffällig gewordenen Menschen wider?

Also, inwiefern unterscheidet das zwischen straffälligen Deutschen im Gegensatz zu straffälligen Asylbewerbern?

  • Das ist eine gute Frage, ja.
  • Das war nicht der primäre Interessen- oder Aspekt, unter dem sie das formuliert haben.
  • Es ging jetzt zunächst um diese spezielle Fragestellung im Rahmen einer Diplomarbeit, aber man kann natürlich diese generelle Frage stellen und eventuell gibt es schon Forschungen dazu, die Zusammenhänge zwischen Einstellungen zu straffälligen Asylbewerbern und zu straffälligen im Allgemeinen untersuchen.

Ich meine nur, inwiefern spiegelt das überhaupt eine rechtsextreme Präsenz wider?

  • Wenn ich sage, dass er ein Verbrechen begangen hat und deshalb verprügelt werden muss, dann würde ich das auch ankreuzen.
  • Ja, finde ich richtig, ob es sich dabei um einen Ausländer oder einen Deutschen handelt, ist mir egal.
  • Ja, einverstanden.
  • Also, das ist eine weitere Feinheit, die hier jetzt nicht berücksichtigt wird.
  • Stimmt, ja.
  • Guter Hinweis.
  • Bitte.
  • Ja, 13 würde ich auch rausnehmen, weil es oft wieder vorkommt. Das finde ich unklar. Dann zurück mit der Familie. Das finde ich auch unklar. Was passiert mit einer alleinerziehenden Familie, wenn es jetzt keinen Vater gibt oder so.
  • Ja.
  • Oder es gibt auch verschiedene Alternativen.
  • Da ist auch die Streuung zu bemängeln, es differenziert nicht gut.
  • Ja, schön, dass Ihnen das aufgefallen ist.
  • Gut, ja.
  • Die Trennschärfe ist auch nicht gut.
  • Okay.

Und die Trennschärfe ist auch nicht gut?

  • Die ist auch recht…
  • Okay.
  • Einverstanden.
  • Kommt auch raus.
  • Okay.
  • Gut.
  • Also, ich denke, Sie haben einen Eindruck bekommen.

Möchten Sie…?

  • Oh, es gibt noch Wortmeldungen.
  • Bitte schön.
  • Da gibt es keine absoluten Regeln.
  • Das ist halt abhängig vom Antwortmodus, und Sie müssen sich die ganze Bandbreite der Items anschauen.
  • Und hier fällt das Item 13 aus dieser Bandbreite heraus, weil es eine extrem geringe Streuung hat.
  • Und das deutet darauf hin, dass Sie immer nur den Wert des einzelnen Items mit dem Spektrum der anderen Items vergleichen können.
  • Und da fällt auf, dass es ein Ausreißer hinsichtlich der Streuung ist, und das macht das Item verdächtig.
  • Bitte.
  • Wenn man jetzt zum Beispiel einen Fragebogen haben möchte, der die Tendenz zum Rechtsradikalismus ermitteln soll.
  • Also, wenn man da jetzt zum Beispiel eine Frage drin hat, die besagt, dass körperliche Züchtigung notwendig ist und so weiter, damit die verstehen, in welche Richtung es in diesem Land geht.

Besteht da nicht auch die Gefahr, dass das fast schon suggestiv wirkt?

  • Dass er vielleicht von sich aus nicht so krass formulieren würde, aber es dann liest.
  • Das ist vielleicht nicht das beste Beispiel, aber eher, dass man da irgendwo ein bisschen darauf achtet.
  • Potenziell ist das möglich, ja.
  • Wenn Sie das verhindern wollten, müssten Sie einen freien Antwortmodus wählen.
  • Und sozusagen auf diese provokante Item-Formulierung verzichten.
  • Also jetzt auch in anderen Bereichen. Das ist jetzt vielleicht nicht so ein gutes Beispiel, aber dass man durch so vorgegebene Antworten die Tendenz, also die vielleicht da ist, also…
  • Könnte man diskutieren, ob das der Fall ist, ja.
  • Ja, richtiger Punkt.
  • Also übersteigt ein bisschen jetzt den Zweck dieser Aufgabe hier, ja.
  • Bitte.

Das erste Item auf dieser Seite oder das andere?

  • Okay, das ist Item 4.
  • Man sollte straffälligen Asylbewerbern mit Misstrauen begegnen.
  • Angenommen, Sie haben die anderen Items in diesem konkreten Beispiel jetzt alle durchgegangen und haben festgestellt, dass es 1, 2, 3, 4, 5, 6 Items gibt, von denen ursprünglich 13 vorhanden waren.
  • Auf Seite 1 haben Sie noch 2, also bleiben 7 Items von den ursprünglich 13 übrig.
  • Das Item ist nun bei Punkt 25.
  • Durch das Entfernen der schlechteren Items könnte der Wert bereits über Punkt 30 oder Punkt 32 liegen.
  • Also, zunächst würde ich hier im Rahmen der Klausur schreiben, dass Sie sagen, zur Probe drin lassen.
  • Ja, ich komme gleich auf Sie zurück.
  • So, jetzt gibt es zunächst keine Wortmeldung, aber dann.
  • Unter dem Aspekt, ob der Test wirklich das ist, was ich messen möchte, und auf der anderen Seite dem Aspekt, dass also eine deutlich, wie soll ich sagen, rechtsorientierte Antwort möglich ist.

Also straffälligen, fremden Menschen mit einem gewissen Misstrauen zu begegnen, bedeutet denn Rechtsextremismus, wenn es zufällig Asylanten sind?

  • Ich finde es schwierig.
  • Also, ich finde diese ganze Kombination mit dem straffälligen auf der einen Seite sozusagen eine Ablenkung vom Thema, aber auch meiner Meinung nach total zu Lasten dessen, dass es wirklich um das Missbrauchsmittel geht.
  • Sie stellen die Frage der Validität, und das stellen Sie zu Recht.
  • Das muss man in gesonderten Studien überprüfen.
  • Also, man kann dann schauen, ob das hier, das Item 4, man sollte straffälligen Asylbewerbern mit Misstrauen begegnen, und ich antworte dann ja, stimme sehr zu.
  • Kriege ich den höchsten Score? Das stimmt, also beispielsweise sechs Punkte.

Und dann stellt sich halt die Frage, ist das Gesamttestergebnis wirklich repräsentativ für rechtsextreme Haltung?

  • Und das könnte ich herausfinden, wenn ich zum Beispiel den Leuten noch einen Rechtsextremismus-Test gebe und dann die Ergebnisse korreliere und schaue, was misst eigentlich meinen Test von dem, also inwiefern misst er etwas Ähnliches wie der Rechtsradikalismus-Test.
  • Aber die Frage der Validität stellen Sie zu Recht.
  • Aber es übersteigt im Moment noch ein wenig den Horizont dieser Aufgabe.
  • Aber behalten Sie das bitte im Hinterkopf.
  • Gut, so viel dazu haben wir noch.
  • In dem Fall könnte man doch eigentlich auch einfach so Teufeln reintun, wo dieses Asylbewerber nicht drinsteht.
  • Das heißt, ich begegne straffälligen Personen mit Misstrauen.
  • Wo man einfach diesen Ausländerstreik rausnimmt, die aber sonst denen halt nicht gleich bleiben.
  • Und das könnte man mit denen dann korrelieren und schauen, ob sie das rausrechnen oder nicht.

Okay, würden Sie aber das Item in dieselbe Skala mit reinpacken?

Welches Problem hätten Sie dann potenziell?

  • Dass die Leute dahinter kommen.
  • Wenn sie aufmerksam sind, vielleicht.
  • Aber die Items beziehen sich im Moment alle auf straffällige Asylbewerber.
  • Und wenn Sie das einmal nicht schreiben, dass es Asylbewerber sind…
  • Nicht, dass die Leute denken, die Items…
  • Drehen sich alle um straffällige Asylbewerber.
  • Und dann kommt mal eins, da steht da nichts mehr von straffälligen Asylbewerbern, sondern von straffälligen generell.
  • Und die denken im Kopf aber, oh, es geht hier ja um straffällige Asylbewerber, also ist auch das gemeint.
  • Nein, nein, so alle fünf Fragen mal oder alle vier.
  • Okay, müsste man gucken.
  • Das wäre eine potenzielle Möglichkeit.
  • Oder Sie machen es auf einem extra Blatt.
  • Kann man verschiedene Modi finden, wie man es macht.
  • Okay.

Ist das nicht ein völlig anderes Konstrukt, oder?

Also Einstellung gegenüber Straftätern versus Einstellung gegenüber straffälligen Asylbewerbern?

  • Das ist eine Frage, die man empirisch klären müsste, ob das etwas Unterschiedliches ist.
  • Muss man empirisch prüfen.

Kann man das dann im selben Test machen, oder müsste man zwei verschiedene Skalen verwenden?

  • Üblicherweise würde man wahrscheinlich zwei verschiedene Skalen verwenden.

Okay, gut.

  • So viel dazu.
  • Ich gehe gleich mal weiter im Text.
  • Beim letzten Mal habe ich Ihnen versprochen, ich bringe Ihnen noch etwas mit.
  • Eine Trennschärfeberechnung.
  • Das Versprechen löse ich hiermit ein.
  • Hier finden Sie eine repräsentative Klausuraufgabe.
  • Repräsentativ deshalb, weil sie wirklich schon so gelaufen ist.
  • Sie dürfen sicher sein, dass Ihre Klausur strukturell ähnlich sein wird.
  • Also, wir haben hier wieder den Verkehrspsychologen, der für seine Untersuchung eine kurze Skala zur Attraktivität riskanten Fahrens mit dem Motorrad diesmal erfasst.
  • Diese Skala umfasst vier Items.
  • Sie sehen das hier.
  • Item 1, 2, 3, 4.
  • Das Antwortformat ist eine fünfstufige Rating-Skala.
  • Hohe Zahlen bedeuten hohe Merkmalsausprägungen.
  • Zusätzlich wurde erfasst, ob und gegebenenfalls wie viele Unfälle diese Versuchspersonen im letzten Kalenderjahr mit dem Motorrad hatten, in der Spalte Unfälle.
  • Es ergaben sich die folgenden Daten.
  • Sie stellen hier fest, was Ihnen gegeben wird. Offensichtlich sind es vier Items, das steht sogar im Text. Aber Sie sehen es auch daran, Item 1, 2, 3 und 4, die die Attraktivität riskanten Fahrens mit dem Motorrad erfassen.
  • Sie sehen darüber hinaus, dass an diesem Fragebogen in der Beta-Version sage und schreibe acht Personen teilgenommen haben.
  • Acht Personen.
  • Das sehen Sie einfach, indem Sie hier unten sich das anschauen.
  • Also, acht Personen haben Sie befragt.
  • Sie haben von diesen acht Personen nicht nur ihre Einstellungen, also nicht nur die Attraktivität riskanten Fahrens mit dem Motorrad erfasst, sondern Sie haben auch die Spalte Unfälle.

Was ist das für eine Variable?

Wie nennt man das häufig?

Das ist eine Kriteriumsvariable.

  • Das ist ein Außenkriterium.

Ihre intuitive Hypothese lautet vermutlich wie, wenn Sie jetzt die Autorin dieser Studie wären?

Bitte?

  • Je riskanter man fährt, desto mehr Unfälle.
  • Jetzt schauen wir mal so, Pi mal Daumen, ohne dass Sie irgendwas gerechnet haben.
  • Glauben Sie mir, Sie können mit diesem kleinen Datensatz diese Hypothese so ansatzweise stützen.
  • Sagen Sie bitte nicht nur das Ergebnis, sondern auch, wie Sie darauf gekommen sind.
  • Bitte.
  • Richtig.
  • Das heißt, da scheint es irgendwie einen Zusammenhang zu geben.
  • Gut.
  • Also, das sehen Sie schon mal so.
  • Rein mit dem Auge, wenn Sie mit einem verständigen Blick darauf schauen.
  • Gut.

Was schätzen Sie?

  • Hier zum Beispiel, nehmen wir hier die Frage, lautet Aufgabe 4, Unterteil D.
  • Da sollen Sie berechnen, die Validität der Skala hinsichtlich des Kriteriums Unfallhäufigkeit.

Was glauben Sie, wie wird die ungefähr sein?

  • Also sie lautet nicht Punkt 90, das ist von einer anderen Aufgabe.
  • Also, wenn Sie so etwas sehen, frage ich mich manchmal, wie das zustande kommt.
  • Sie sollen hier die interne Konsistenz berechnen, das haben wir noch nicht besprochen, das ist Grundmaß Alpha.
  • Das ist eine Reliabilitätsschätzungsart.
  • Dann kann man hier die Reliabilität schätzen, mit der Testhalbierungsreliabilität. Kommen wir noch darauf, gucken wir uns jetzt nicht an, ist ein Vorgriff.
  • Da kommen überall recht hohe Werte raus.
  • Und jetzt hat jemand zum Beispiel bei der einen Reliabilitätsart, interne Konsistenz, einen sehr hohen Wert, also Punkt 90 errechnet, was richtig wäre. Die Testhalbierungsreliabilität soll dann irgendwie Punkt 10 sein oder so.
  • Ja, Sie wissen, es gibt verschiedene Reliabilitätsschätzungsarten, und manchmal sind die auch unterschiedlich.
  • Hier gibt es aber keinen Grund dafür, dass die groß unterschiedlich sind, also sollten Sie bei so etwas misstrauisch werden.
  • Falls bei Ihnen da unterschiedliche Ergebnisse rauskommen.
  • Oder Sie sollten aufgrund Ihres intuitiv-statistischen Empfindens misstrauisch werden, wenn Sie sich den Datensatz anschauen und Sie…
  • Ja, das gibt's wirklich.
  • Sie sollten auch aufgrund dieser besagten intuitiven Fähigkeit. Wenn Sie den Datensatz anschauen und gebeten werden, die Validität zu berechnen und es kommt ein extrem geringer Wert heraus, dann sollten Sie misstrauisch werden und denken, was ich hier sehe, spricht doch für einen hohen Zusammenhang.
  • Ja, ich ermuntere Sie ausdrücklich, nicht so stumpf daran zu gehen, ich spule mein Schema F in der Klausur ab und tippe mir die Finger rund, und dann kommt schon ein Ergebnis heraus, das schreibe ich auf, sondern machen Sie auch ruhig mal einen Plausibilitäts-Check, so ungefähr, wie wir es jetzt gemacht haben.
  • Ich verrate Ihnen, die Kriteriumsvalidität ist Punkt 94.
  • Das ist eine extrem hohe Außenkriteriumsvalidität.
  • Aber diejenigen unter Ihnen, die sich das angeschaut haben, haben aufgrund besagter Fähigkeit schon erahnen können, dass es eine hohe Korrelation geben dürfte.
  • Nichts anderes ist die Außenkriteriumsvalidität.
  • Also, wie sieht es jetzt aus, worauf ich eigentlich hinaus wollte, weshalb ich Ihnen das jetzt in dieser Form zeige, ist die korrigierte Trennschärfe für Item 2.
  • Beim letzten Mal habe ich ein Beispiel gegeben, wie man das rechnet.
  • Ich möchte Sie jetzt bitten, mir zu sagen, wie ich das berechnen muss.
  • Bitte, Sie wissen es.
  • Ich glaube, man nimmt jetzt Item 2 aus dieser Gruppe der Items raus.

Okay, also erstmal, was muss ich da jetzt hinschreiben?

Ich nehme Item 2 aus der Gruppe der Items raus.

  • Ja, das stimmt.

Aber ja, wo schreibe ich jetzt was hin?

  • Ich stelle mich jetzt mal ganz blöd.

Also, erklären Sie es mir bitte.

  • Das ist jetzt sozusagen das, was in der Klausur auf Sie zukommt.
  • Das heißt, das sollten Sie bis zum 16. Juli ein wenig fixer beantworten können.
  • Juli ein wenig fixer beantworten können.

Freiwillige vor?

Haben Sie die Idee?

  • Ich sehe nicht die Summe der Elemente von Person 1 zusammen und ziehe dann im nächsten Schritt dieses Element 2-1 ab, und das ergibt dann die korrigierte Differenz.
  • Okay, also ich wiederhole mal, was Sie gesagt haben.
  • Ich setze hier ein Summenzeichen.
  • Summe von 1 bis 4.

Können Sie mir ein bisschen helfen?

  • 7.
  • Wichtig ist jetzt, das machen Sie richtig, ist okay, hier nicht jetzt das Kriterium mit aufsummieren.
  • Das Kriterium ist was anderes.
  • Das haben sie nicht gemacht, aber ich sage es dazu, weil das immer wieder passiert und ich frage mich, wie viel kann man verstanden haben von dieser ganzen Sache, wenn man jetzt hier bei den, wenn man die Testergebnisse für die einzelnen Personen aufaddiert, Item 1 plus Item 2 plus Item 3 plus Item 4, wenn man dann noch das Kriterium dazu addiert, das zeigt mir dann ganz klar, dass derjenige offensichtlich nicht voll dabei war.
  • Ja, also ich möchte Sie da sehr ermuntern zu schauen, was bitte Sie aufsummieren.
  • Also es geht jemals darum, erstmal das Testergebnis für die einzelne Person, also nennen wir Person 1 war der Uli und der hat den Testwert von 7.

Was könnte er minimal haben, was könnte er maximal haben?

  • Minimal 4, weil das geringste, was ich ankreuzen kann, ist hier in dem Antwortmodus 1 und bei 4 Items wäre das also 4.

Und was kann er maximal haben?

  • 20, 4 mal 5.
  • Okay, also der scored hier ziemlich niedrig insgesamt.
  • Das Testergebnis von Uli hinsichtlich Attraktivität riskanten Fahrens mit dem Motorrad ist so, dass der Knabe sehr vorsichtig fährt.
  • Und siehe da, er hat auch keinen Unfall gehabt.
  • Jetzt gucken wir uns die anderen an.
  • Sagen Sie mir bitte die Werte für die nächsten.
  • 9 einverstanden.
  • Ja, der Stift.
  • 9, 10.
  • Ich vertraue Ihnen jetzt einfach.
  • Ja.
  • 8.
  • Ja.
    1. 19.
  • 9.
    1. 15.
  • Okay, das heißt, das sind die Testergebnisse für die einzelnen Personen, nämlich 8 sind es ja an der Zahl.
  • Und wir sehen so, wenn wir uns das jetzt hier mal angucken, die Testergebnisse korrelieren mit den Unfällen.
  • Da sehen wir also die Leute hier, die extrem rasen, die haben auch mehr Unfälle.
  • Hier, der rast auch ziemlich, hatte nur einen Unfall.
  • Ein Glück für ihn, der hier ist auch ziemlich am Rasen, hatte auch einen Unfall.
  • Die anderen sind alle keine Unfäller.
  • Gut, also plausibel spricht für eine hohe Kriteriumsvalidität und siehe da, wenn man es ausrechnet, kommt genau das raus.
  • So, aber jetzt ging es ja um die korrigierte Trennschärfe für Item 2.
  • Nächster Schritt bitte.

Wie mache ich es?

  • Summe ohne 2.
  • Das ist also dann 7-1 ist 6, 9-2 ist 7, 10-2 ist 8, 20-5 ist 15, 8-1 ist 7, 19 minus 5 ist 14, 9 minus 3 ist 6, 15 minus 3 ist 12.

So, und jetzt?

Was mache ich jetzt?

Was war die Trennschärfe und die korrigierte Trennschärfe im Prinzip von ihrer statistischen Natur her?

Was war das?

  • Korrelation eines Items mit dem restlichen Item.
  • Richtig, Korrelation eines Items, das war ja die Idee.
  • Die korrigierte Trennschärfe gibt an, inwiefern ein Item das misst korrelativ, was der Verbund der anderen Items misst.
  • Sie erinnern sich.
  • Jetzt müssen wir dieses theoretische Wissen abbilden hier in dieser Tabelle.

Und was muss ich da wie korrelieren?

Bitte?

  • Na ja, die letzte Spalte, die wir im Brot geschrieben haben, mit der zweiten Spalte von Item 2.

Diese Spalte sagen Sie korrelieren mit?

  • Mit der zweiten Spalte, wo Item 2 steht.
  • Exakt, genau.

Wenn ich die Korrelation ermittle von den Wertepärchen, ich will ja wissen, inwiefern hängt Item 2 korrelativ zusammen mit dem Verbund der anderen Items?

  • Also korreliere ich die Werte von Item 2 mit den Summenwerten der anderen Items ohne Item 2.
  • Das ist ja die korrigierte Trennschärfe.
  • Die unkorrigierte würde ich berechnen, wenn ich einfach Item 2 korreliere mit dieser Spalte.
  • Aber in dieser Spalte steckt ja Item 2 noch mit drin.
  • Deshalb korrigiere ich um den Einfluss von Item 2, indem ich die Summe, also die Testergebnisse der Personen ohne Item 2 berechne.

Das heißt, was gebe ich in den Taschenrechner ein, den Sie sich mittlerweile hoffentlich besorgt haben und die Bedienungsanleitung studiert haben?

Haben Sie?

  • Gut, dann brauche ich darauf ja nicht mehr einzugehen.

Was gebe ich wie in den Taschenrechner ein?

  • Sie müssen ja jetzt ein Ergebnis irgendwie produzieren.
  • Ich will ja als Korrektur von der Klausur danach ein Ergebnis sehen.
  • Das sind Sie mir jetzt noch schuldig.
  • Also theoretisch, hatten wir gesagt, kam aus Ihren Reihen, es wird korreliert.

Wie funktioniert das mit dem Taschenrechner?

Wie korrelieren Sie das jetzt?

  • Bitte.
  • Richtig.
  • Also sagen Sie mir mal so, wie ich anfangen müsste einzugeben.

Welche Werteparke denn?

  • Eins und sechs.
  • Einverstanden.
  • Zwei und sieben.
  • Zwei und acht und so weiter.
  • Richtig.
  • Genau das ist es.
  • Und dann spuckt Ihnen der Taschenrechner das Ergebnis aus und Sie haben, weil die Korrelationsformel im Taschenrechner hinterlegt ist, geben Sie nur diese Wertepärchen ein, die gerade von Ihrer Chromelithonin geschildert.
  • Und dann spuckt er Ihnen einen Wert aus und der lautet Punkt 87.
  • Heftig, eine hohe Trennschärfe.
  • Aber das wäre das Ergebnis.
  • So einfach.
  • Okay, also die Berechnung einer korrigierten Trennschärfe haben wir jetzt, wie ich denke, vollumfänglich hier erläutert und das kommt in jeder Klausur dran, können Sie sich darauf verlassen.

Okay, also hier ein weiteres Beispiel.

  • Übrigens ist das Beispiel entnommen dieser Klausur von 2003, was Sie auch downloaden können als PDF-Datei auf meiner Homepage.
  • Da werden Sie es dann finden, Sie brauchen es nicht abschlagen.
  • Gut.
  • Eine Frage noch, bitte.

Ja, was muss ich jetzt so genau in die Taschenrechner eingeben und bis wo funktioniert das?

  • Ja, was Sie genau eingeben müssen, ist genau das, was wir gerade gesagt haben, nämlich die Wertepaare.

Ja, aber wie?

In welcher Form?

In welcher Form?

  • Ja, die Formel brauchen Sie auch nicht.
  • Sie müssen nur wissen, wie Ihr Taschenrechner arbeitet.
  • Dann können Sie es machen.
  • Das sind ja immer zwei Zahlen zusammen und dann speichert das der Taschenrechner wieder.
  • Der hat das in seinem Arbeitsspeicher drin.
  • Der merkt sich das.
  • Also die Frage, wie statistisch eine Korrelation aussieht, wissen Sie, das ist eine Punktewolke und man braucht immer eine x-Koordinate und eine y-Koordinate und exakt die haben Sie hier mit den Wertepärchen.

Also spätestens jetzt gewinnt derjenige, der sich mit seinem Taschenrechner auskennt.

Ja, Sie lachen.

  • Noch, ja.
  • Gut, wenn Sie das vertiefend üben wollen, Sie finden das wie gesagt in jeder Klausur als Beispiel, können Sie gerne tun.
  • Sie haben jetzt ja mehrere Beispiele, wenn Sie sich sie herunterladen.
  • Da macht Übung den Meister, wie bei fast allen Sachen, die man lernen kann.
  • Ich möchte Sie sehr ermuntern, jetzt schon en passant die ersten Sachen, die Sie rechnen können, und das können Sie jetzt, einzuüben.

Haben Sie da die Ergebnisse drin?

Bitte?

Haben Sie die Ergebnisse da mit drin stehen, dass man sie selber korrigieren kann?

  • Nein, die stehen nicht mit drin.

So, jetzt möchte ich einen Sprung machen in die nächste Wolke.

  • Mindmap-technisch gesprochen.
  • Wir nähern uns einem wichtigen Thema, nämlich der ersten großen Testtheorie.
  • Wenn Sie wollen, dem Klassiker unter den Testtheorien, nämlich der klassischen Testtheorie.
  • Bitte.
  • Ich habe mal eine Frage zu der Klasse.

Wäre es denn möglich, dass Sie hier ein bisschen reinsteigen?

  • Dann könnte man wenigstens wissen, ob man richtig liegt oder nicht.
  • Aber ich glaube, so ist der Fall, wo die Ergebnisse dabei stehen.
  • Also ich müsste mich sehr täuschen, aber ich…

Sie meinen, die stehen dabei?

  • Vielleicht habe ich die auch noch eingestellt.
  • Nein, bei einer.
  • Also nicht bei allen, aber ich glaube mich zu erinnern, dass bei einer die Ergebnisse dabei stehen.
  • Ja, das ist möglich.
  • Ich schaue das noch mal nach.
  • Es kann sein, dass da bei einer oder so habe ich mal die Ergebnisse mit beigepackt.
  • Und sonst ist das im Prinzip Schema F.
  • Ja, aber dann kann man sich besser kontrollieren, ja, ob man das…
  • Ich denke darüber nach bis zum nächsten Mal.
  • Das hat Vor- und Nachteile.
  • Ich gehe nochmal in mich.
  • Gut, also die klassische Testtheorie.
  • Wichtig.
  • Mit der machen wir nachher auch noch eine kleine Übung, weil es so Spaß macht.
  • Naja, das heißt, wir können es versuchen.

Was besagt die klassische Testtheorie?

  • Sie sehen, Die klassische Testtheorie wird auch bezeichnet als Messfehlertheorie und das Ganze basiert auf Grundannahmen.
  • Zur Herleitung des klassischen testtheoretischen Modells werden die folgenden fünf, man kann sie dabei auch zu drei oder vier zusammenfassen, Axiome benötigt.
  • Axiome sind Grundannahmen.
  • Dabei handelt es sich um Festsetzungen bzw.
  • Definitionen, deren empirische Adäquatheit zunächst unbewiesen bleibt.
  • Das heißt, wir müssen es zunächst mal zur Kenntnis nehmen, dass es die gibt und ob die angemessen sind, das ist eine andere Frage.
  • Das wird ein Kritikpunkt nachher sein an der klassischen Testtheorie, weil man das im wissenschaftlichen Bereich ja ungerne hat, dass es eine Axiomatik gibt, die nicht überprüft werden kann.
  • Können Sie schon mal den Hinterkopf behalten.

Also wie lauten die fünf Aktionen kurz und schmerzlos?

  • Sie lauten so, wie es hier steht.
  • Und wir schauen uns jetzt jedes einzelne von diesen fünf mal an.
  • Das erste Aktion besagt, hier abgekürzt, xj gleich wy plus ej.

Was heißt das?

  • Das ist also sehr einfach, wenn Sie sich das anschauen.
  • Das bedeutet zunächst mal nichts anderes.
  • Das j ist immer der Index einer Person, also zum Beispiel von Utah.
  • Der xj-Wert ist der gemessene Wert einer Person j, also zum Beispiel das Testergebnis von einer Person, die Jutta heißt, und ein IQ-Testergebnis ist von 130.
  • Also xj könnte 130 sein im IQ-Testbeispiel, nämlich der IQ von Jutta, die hat 130.
  • wj ist der wahre Wert der Person j, also Sie sehen schon, der wahre Wert gibt es jetzt, und es gibt den ej, den Fehlerwert einer Person j.
  • Das besagt nichts anderes als der alte Physiklehrerspruch, wer misst, misst, misst, zumindest teilweise.
  • Sie erinnern sich, Ihr Physiklehrer hat Ihnen damals erzählt, bitte schreiben Sie nicht das Display ab, wenn Sie Aufgaben berechnen und Zwischenschritte machen.

Weil Display abschreiben, weshalb ist das ungünstig?

Warum stößt sich der Physiker dran, wenn Sie bei Ergebnissen das Display abschreiben?

  • Das Display vom Taschenrechner hat acht Ziffern oder so.

die muss man sich halt wissen, zu 5 Prozent oder so.

  • Exakt.
  • Es gibt eine gewisse Messungenauigkeit und wenn Sie das Display abschreiben vom Taschenrechner, dann suggerieren Sie eine Exaktheit der Messung, die es in realiter nicht gibt.
  • Deshalb gibt das Punktabzug zu Recht.
  • Und ähnlich ist es auch in der Psychologie.
  • Das heißt, jede Messung Auch und gerade in der Psychologie hat in der Regel einen gewissen Messfehler und deshalb sollten Sie auch die Zwischenergebnisse und Endergebnisse in Testtheorie-Klausuren nach einer vorgegebenen Art und Weise runden.
  • Steht auf jeder Klausur drauf.
  • Zwischenergebnisse drei Stellen nach dem Komma, Endergebnisse zwei Stellen nach dem Komma, nicht mehr.
  • Alles andere ist Effekthascherei.
  • Das heißt, wir müssen bei jeder Messung damit leben, dass ein wenig Messfehler dabei ist.

Sie erinnern sich an die Grafik?

  • Wenn wir das Auge Gottes hätten und die wahren Werte, die wahren Merkmalsausprägungen in den Personen erkennen könnten, hätten wir ein perfektes Diagnostikum.
  • Das haben wir nicht.
  • Wir brauchen Testergebnisse als diagnostische Krücken und Indikatoren für die Merkmalsausprägungen der zu testenden Personen.
  • Und die bekommen wir über die Messergebnisse.
  • Das Messergebnis, also hier im Beispiel Utah IQ 130, wäre hier xj.
  • Was wir eigentlich gerne hätten, wäre aber nicht das Messergebnis von der Person, sondern wir würden gerne in unseren Träumen den wahren Wert der Intelligenz von dieser Person j, also Jutta, beispielsweise kennenlernen.
  • Das heißt, wir wollen eigentlich den wahren Wert, bekommen aber einen gemessenen Wert.
  • Der wahre Wert hätte den Vorteil, er ist absolut messfehlerfrei.
  • Davon träumen wir nachts als Diagnostiker.
  • Diese Träume gehen in der Regel nicht in Erfüllung.
  • Das heißt, wir müssen mit dem gemessenen Wert leben, der eventuell messfehlerverunreinigt ist.
  • Das ist im Prinzip die Grundaussage von dem ersten Axiom.
  • Das heißt, im Beispiel, ich habe es eigentlich gerade schon gesagt, aber wiederholend, das beobachtete Intelligenz-Testergebnis einer Person setzt sich zusammen aus ihrer wahren Intelligenz und Messfehler-Effekten, zum Beispiel wegen Müdigkeit oder Unkonzentriertheit, Und das Konzept des Messfehlers umschließt, bedeutet folgendes, Messfehler umfassen die Gesamtheit aller unsystematischen, das ist wichtig, und nicht kontrollierbaren oder vorhersagbaren potenziellen Einflussgrößen auf das Messergebnis.
  • Gut.
  • Das zweite Axiom, kommen wir schon zum nächsten.
  • Das besagt, bei häufiger Messwiederholung ist der ermatete Mittelwert, also das µ, steht hier für Mittelwert, der Messfehler 0.
  • Also der Mittelwert der Fehler, also µ von e, ist gleich 0.
  • Das bedeutet nichts anderes, dass bei wiederholten Testanwendungen unter identischen Bedingungen kommt es zu einem Fehlerausgleich über die Ausmittlung von Fehlerschwankungen und der gemittelte Testwert bei einer Person über alle Messungen entspricht dem wahren Wert dieser Person nahezu vollständig.
  • Bei mehreren Testungen theoretisch mittelt sich der Fehler aus.
  • Ich mache mal einen Fehler nach oben, mal diagnostizieren, sagen wir Jutta hat einen IQ von 125, mal diagnostiziere ich ihr meinetwegen 128, mal diagnostiziere ich 123.
  • Das ist jetzt ein rein theoretisches Beispiel, weil wahrscheinlich hätte die Dame gerade in diesem Intelligenzbereich einen hohen Lerneffekt von den vorherigen Testungen, aber rein theoretisch gesprochen.
  • Der Fehler ist mal drüber, mal drunter.
  • Letztlich mittelt er sich aus.
  • Das ist die Annahme.

Dann haben wir noch das dritte Axiom.

  • Die Höhe des Messfehlers E ist unabhängig vom wahren Ausprägungsgrad T des getesteten Merkmals.
  • Das heißt, wahrer Wert und Fehlerwert sind unkorreliert.
  • Hier ist der Ausprägungsgrad T, den nennt man auch W oder wahren Wert.
  • Das ist egal, das findet man nicht konsistent in der Literatur.
  • Ich meine damit aber den wahren Wert.
  • Und was hier gesagt wird ist, Nichts anderes als beispielhaft gesprochen, Fehlereinflüsse durch die Tagesform sind bei Personen mit hoher und niedriger Intelligenz in gleicher Weise wirksam, sodass es zwischen der Merkmalsausprägung, also dem wahren Wert und dem Messfehler, den ich bei dieser Person mache, einen korrelativen Nullzusammenhang gibt.
  • Da wir schon relativ fortgeschritten in der Zeit sind, möchte ich das jetzt nicht weiter ausführen, sondern Ihnen noch ein praktisches Beispiel geben.
  • Noch ist nicht zu Ende.
  • Das sieht so aus.
  • Sie finden folgende Aufgabe vor.
  • Das ist ein Beispiel aus dem Herrn Rost Lehrbuch.
  • Sie haben folgendes gegeben, die Messwerte einer Variablen X.
  • Hier wird etwas gemessen.
  • Sie haben jetzt hier, und das macht das Beispiel theoretisch, Also Sie sehen den Messwert x hier in einer…
  • Sie haben hier fünf Personen, den Messwert x haben Sie.
  • Sie haben darüber hinaus die wahren Werte derselben Variablen tx, also die wahren Werte wissen Sie ja in der Praxis nicht, aber hier sind sie jetzt mal theoretisch angegeben.
  • Sie haben also den Messwert von einer Person.
  • Sie haben auch den wahren Wert von einer Person.
  • Wie gesagt, unrealistisch hat man normalerweise nicht.
  • Und das Ganze von fünf Personen pro Bande Nummer 1 bis 5.
  • Tabellarisch sieht das so aus, wie hier dargestellt.
  • Also denkbar einfach.
  • Also viel einfacher kann die Tabelle eigentlich nicht sein.
  • Jetzt lautet aber die Anweisung.
  • Prüfen Sie, ob für den Messfehler der Messwerte x die beiden Axiome 2 und 3 der klassischen Testtheorie, die ja eine Messfehlertheorie ist, gelten.
  • Jetzt müssen Sie sich noch kurz erinnern, was war jetzt nochmal Axiom 2 und was war Axiom 3.
  • Darüber haben wir ja gerade gesprochen.
  • Und um Ihr Verständnis zu testen, möchte ich Sie bitten, genau diese Aufgabe jetzt zu machen.

Vielen Dank.

Zunächst einmal, welchen Zwischenrechenschritt müssen Sie unternehmen, damit Sie das überprüfen können?

  • Sie sehen schon, da ist ja was abgedeckt.
  • Die Werte in beiden Spalten aufsummieren, hier.

Sagen Sie?

Jede Spalte aufsummieren, also 2 plus 0 plus 5?

Durch fünf Teilen, sagen Sie?

  • Okay.
  • Und dann die beiden Endwerten von beiden Spalten vergleichen.
  • Die Endwerten von beiden Spalten vergleichen.

Und welches Axiom soll das prüfen?

Axiom 2 oder 3 oder beide?

  • Axiom 2.
  • Wiederholen Sie bitte nochmal, was Axiom 2 besagt.
  • Das ist der Erwarten für Mikrowert.
  • Genau, das haben sie richtig wiedergegeben, aber bei dem Weg bin ich noch nicht so glücklich.
  • Da möchte ich nochmal rumfragen.

Sie vielleicht?

  • Ich muss erstmal den Messfehler für jede einzelne Person ermitteln.
  • Ah, okay.

Also Sie wollen da noch eine dritte Spalte aufmachen, ja?

Okay, die überschreiben Sie, Messfehler, und sagen Sie mir dann die Messfehler?

  • Ja, 1, minus 1, minus 1, minus 1.
  • Einverstanden.
  • Also, Ihre Kommilitonin hat eine gute Idee.
  • Sie sagt ja, okay, die klassische Testtheorie hat ja, wenn Sie so wollen, drei Möglichkeiten.
  • Etwas kann der wahre Wert sein, der hat überhaupt keinen Messfehler, den hätten wir gerne.
  • Was wir in der Regel aber haben, das ist die zweite Kategorie, ist der gemessene Wert.
  • Und wir haben, da der gemessene Wert in der Regel nicht dem wahren Wert identisch ist, einen Messfehler.
  • Und die drei verhalten sich natürlich so, Ich habe hier bei der Person gemessen 2, der wahre Wert ist also 1, ist aber 1, das heißt ich mache einen Messfehler um einen Punkt, deshalb ist der Messfehler 1.
  • Ich habe hier bei Person 2 einen Messwert von 0, der wahre Wert wäre aber 1 gewesen, das heißt ich habe einen Messfehler von minus 1.
  • Also Sie sehen, diese beiden Spalten addiert müssen den Messwert ergeben.
  • Oder Sie könnten auch sagen, Wenn Sie von dem gemessenen Wert den Messfehler abziehen, muss der wahre Wert rauskommen.
  • Also diese drei, wenn Sie so wollen, Kategorien gibt es ja in der klassischen Testtheorie nur, da haben wir gerade darüber gesprochen.
  • So, jetzt, wie beantworten Sie, um das zu Ende zu bringen, wie beantworten Sie jetzt hier oder wie überprüfen Sie, Ah, die Aktion mit 2 und 3.
  • Anhand dieses Minidata-Ansatzes.
  • Bitteschön.
  • Also 2 kann ich ja überprüfen, indem ich die Messfehler einfach aufsummiere.

Genau, was kommt dann raus?

Also Sie summieren den Messfehler auf, wie machen Sie das?

  • 1 minus 1.
  • Also 1 plus minus 1.
  • 0, 0.
  • Plus 0.
  • Plus 1 ist 1, minus 1 ist 0.
  • Richtig.
  • Das heißt, die Summe der Messfehler ist 0.
  • Was Sie eben bewiesen haben.
  • Gut.
  • Also Aktion 2 scheint zu stimmen.

Wie sieht es jetzt mit Aktion Nummer 3 aus?

  • Da geht es nicht bei einer Person, wenn man die öfter misst.
  • Und da sind es ja jetzt verschiedene Personspersonen.
  • Ja, okay.
  • Das ist ein guter Hinweis.
  • Die klassische Testtheorie meint beides.
  • Die meint beides.
  • Guter Hinweis, ja.

Frau Schöning?

  • Beim Axiom 3, da geht es ja darum, dass es die unterschiedlichen Ausbringungen sind und das sehe ich jetzt.
  • Ich hätte jetzt nicht gerechnet, weil ich Messwerte mit 2 und 0 habe als Ausbringung und 10 und 8 und das 14 immer nur eine Differenz von 1 bzw.
  • also Plus Minus.
  • Okay, ja, okay, das ist natürlich der Kennerblick, das ist die intuitive Erkenntnis, die ich eben meinte.
  • Würden Sie es für das Normalvolk auch nochmal wiederholen bitte, weil das ist hier Beyond Expectation.
  • Das ist eine High-Level-Antwort, die ich hier bekommen habe.
  • Ganz toll, möchte ich gerne das alles verstehen.
  • Ich habe geschaut, dass die ersten beiden Personen Messwerte haben, die relativ niedrig sind und weichen trotzdem plus oder minus eins ab und die beiden unteren Personen haben sehr hohe Messwerte.
  • Das heißt, die haben sehr hohe Ausprägungen, die anderen haben niedrige Ausprägungen, aber trotzdem ist die Abweichung genauso hoch.
  • Okay, das ist der Kennerblick.

Aber wie kann man jemandem, der sich jetzt fürchtet, wenn er das hört, was Sie sagen, wie kann man demjenigen eine Handlungsanweisung geben, das zu errechnen, wenn man es schon nicht sieht?

Wie kann ich das errechnen, das Axiom Nummer 3?

  • Also Sie sehen nur, wissen aber nicht, wie man es rechnet.
  • Das ehrt Sie sehr, aber manchmal sieht man es nicht, da muss man rechnen.

Also wie kann ich es errechnen?

Was sagt das Axiom Nummer 3?

  • Es wäre eine Korrelation zwischen dem wahren Wert und dem Messfehler.
  • Korrelation wahrer Wert und Messfehler, okay.
  • Also gibt wieder Wertepaare ein.
  • 1, 1, 1, minus 1, 5, 0, 9, 1, 9, minus 1.

Was kommt da wohl raus, wenn Sie das eingeben in Taschenrechner?

  • Null, exakt.
  • Bitteschön.
  • Aber es sollte doch der Testwert und der Messfehler sein.

Bitte?

  • Es sollte doch der Testwert und der Messfehler sein, nicht der wahre Wert und der Messfehler, die unkorreliert sind.

Okay, was kommt da raus?

  • Kommt auch nur raus.
  • Hier in dem Beispiel geht beides, ja.
  • Aber es soll der Testwert und der Messfehler sein.
  • R, T, E, also Testwert…

Ja, wie war's?

Wie war's?

  • Sagen Sie es mir.
  • Ich habe mich jetzt gerade verwirren lassen.

Wie genau lautet das?

Welche Spalten muss ich korrelieren?

Den Warnwert und den Fehlerwert, oder?

Okay, wo steht hier der Warewert?

  • Der zweite, genau, in der zweiten Spalte und dann der Messfehler.
  • Der Messfehler, okay.

Die zwei, oder?

  • Machen wir das, kommt raus.

Was sollte rauskommen?

Was kommt raus?

  • Null, exakt.

Ja?

  • Okay, und die nächste Aufgabe, Sie sehen das hier, wäre gewesen, berechnen Sie die Reliabilität.
  • Das haben wir noch nicht gemacht, das machen wir, sobald wir das durchgenommen haben.
  • Aber für heute entlasse ich Sie und wünsche Ihnen eine schöne Woche.

Bis zum nächsten Mal.