Persönlichkeits-Psychologie (2)

Meine Bitte an Sie ist, die Lautstärke auf Arbeitsniveau runter zu pegeln.

Dankeschön.

So, ich möchte vorab, das kennen Sie, sind Sie von mir so gewohnt, organisatorische Fragen vorab klären.
Ein wichtiger Punkt.
Mich erreichen in letzter Zeit häufiger E-Mails, die Folgendes anliegen haben.

Könnten Sie mir bitte sagen, ob die Folien schon online sind?

Also, die Frage hat mich überrascht.
Ich möchte Ihnen aus mehrerlei Gründen erläutern, warum.
Der erste Grund, weshalb mich diese Folie überrascht, ist, wenn Sie online sind, können Sie es ja nachschauen an der Stelle, wo Sie stehen, wenn Sie da stehen.
Und die andere ist, das möchte ich hier nochmal klärend sagen, damit Sie in Zukunft nicht mehr die Notwendigkeit sehen, diese Art von E-Mails an mich zu schreiben, Wenn ich die Folien habe, stelle ich sie online.
Wenn ich sie noch nicht habe, kann ich sie noch nicht online stellen.
Sie dürfen davon ausgehen, dass ich, sobald ich sie habe, die auch online stelle.
Und wenn Sie nachschauen möchten, tun Sie es bitte an der gewohnten Stelle.
Wenn Sie da sind, wunderbar.
Wenn nicht, habe ich sie noch nicht fertig und deswegen auch noch nicht online gestellt.
Das heißt, ich hoffe mit dieser Aussage den Gegenstand, für die E-Mails, die ich gerade genannt habe, überflüssig gemacht zu haben.

Ist das von Ihrer Seite auch so?

Ist die Angelegenheit so für Sie geklärt?

Oder richten sich da noch Fragen an mich in diesem Punkt?

Gut, das scheint nicht der Fall zu sein.
Dann können wir das abhaken.
Der nächste Punkt betrifft die Nebenfächler unter Ihnen.
Also es geht um die Klausuranmeldung.
Wir hatten vereinbart, dass Sie als Hauptfächlerin und Hauptfächler sich anmelden, wie gewohnt, beim Prüfungsamt, um an dieser Klausur, die für die Hauptfächler stattfinden wird, am 17.
Juli, 10 bis 12, genau hier, daran hat sich nichts geändert, ich sehe keinen Protest, es bleibt so, für die Nebenfächler gibt es eine Anmeldeliste, die ich im Folgenden jetzt rumgeben werde.
Diese Anmeldeliste enthält folgende Informationen, Ihren Namen, Ihre Matrikelnummer und Ihre Unterschrift sowie die Daten der Klausur.
Für die Nebenfächler findet diese Klausur statt am 10.07., also eine Woche vor den Hauptfächlern.
Und zwar auch hier.
Das heißt, am 10.07.
entfällt die Vorlesung.
Die Hauptfächler können sich noch mal vorbereiten für die Klausur.
Und die Nebenfächler können dann schon zu diesem Zeitpunkt ihr erworbenes Wissen hier in der Klausur demonstrieren.
Ich werde in den folgenden Wochen diese Anmeldeliste kursieren lassen.
Das mache ich vielleicht bis Mitte Juni und dann wird diese Liste geschlossen, damit wir wissen, wie viele Leute für wie viele Klausuren wir sorgen müssen für die Nebenfächer am 10.
Juli.

Gibt es dazu noch Fragen?

Bitteschön.

Also Sie können mitschreiben.

Ich wiederhole das nochmal, das habe ich auch schon mehrfach gesagt, aber einmal vielleicht noch.
Die Klausur für die Nebenfächler beinhaltet einen Teil zu dieser Vorlesung und einen Teil zur Vorlesung, die Herr Schneewind noch gehalten hat im letzten Semester, nämlich Persönlichkeitspsychologie 1.
Die Fragen werden ungefähr hälftig in diese Klausur eingehen.
Herr Schneewind wird auch letztmalig bei dieser Klausur noch für seinen Teil die Fragen mit einbringen.
Das heißt, wenn Sie die Vorlesung bei ihm besucht haben, können Sie gerne teilnehmen, dann haben Sie eine gute Wahrscheinlichkeit zu bestimmen.

Gut, ich lasse das kursieren.

Bitte lassen Sie mir das am Ende wieder zukommen und lassen Sie es durch die Reihen gehen, damit alle die Möglichkeit haben, sich einzutragen, wie sie möchten.
Bitte schön.

Keine weiteren Fragen?

Gut, dann gehen wir weiter im Inhaltlichen vor.
Wir sind stehen geblieben.
Sie erinnern sich an die Insel der Forschung.
Über die hatten wir gesprochen.
Wir haben auch über Definitionen von Tests gesprochen.
Wir werden jetzt etwas stärker methodisch reinschauen, in Analogie zu Asendorf Kapitel 3.
Ich habe mir allerdings erlaubt, meine eigenen Folien und eigene Ideen und Erklärungskonzepte zu verwenden, weil ich von denen inhaltlich überzeugt bin.
Was Asendorf schreibt, ist natürlich genauso richtig.
Er fasst es anders zusammen.
Ich präsentiere Ihnen das auf meine Weise.
Aber wir sind jetzt inhaltlich verortet im Asendorf Kapitel 3.
So, ich zeige Ihnen mal ein paar Begriffe.
Wir müssen ein paar Begriffe klären, bevor wir uns richtig kompetent unterhalten können über das, was Tests machen.

Zunächst mal schauen wir uns mal an, was sind eigentlich Test-Items?

Ich habe Ihnen hier mal eine Definition mitgebracht und ein paar Beispiele.
Also ein Test-Item ist zunächst mal die einzelne zu bearbeitende Aufgabe eines Tests.
Und Sie sehen hier rechts ein grafisches Item aus dem mittlerweile recht veralteten Ravens Progressive Matrices von 1956.
Offensichtlich handelt es sich hier um ein Item aus einem Leistungstest, das sehen Sie allein daran.
dass es nur offensichtlich nur eine richtige Lösung gibt.
Allein das spricht schon dafür, dass es ein Leistungstest ist.
Ob sie auf die Lösung kommen, davon gehe ich mal aus, weil das eines der einfachsten Items ist.
Also ein Item ist, egal ob es jetzt in welchem Modus es angeboten wird, ob jetzt nun bildlich oder in sprachlicher Form, es könnte auch in akustischer Form vorgegeben werden beispielsweise, ist egal, für die Definition egal, es geht um eine einzelne zu bearbeitende Aufgabe.
Das nennt man Test-Item.
So, Sie haben ein weiteres Testitem aus einem ganz weltbekannten Test, dem TAT.

Was ist das für ein Testverfahren offensichtlich?

Zu welcher Testklasse gehört der?

Projektiv, genau.
Also die Instruktion lautet hier, erläutern Sie, worüber die beiden Herren sich unterhalten.
Und Sie sehen, das ist wieder ein sehr mehrdeutiges Item-Material.
Die können sich über Fußball unterhalten, über das andere Geschlecht, über Karriereaufstiegspläne, über alles.
Und das ist wieder die Mehrdeutigkeit, in der man hofft, das hervorzulocken, was sie gerade umtreibt, und so über sie eine diagnostische Aussage treffen zu können.
Auch das ist ein Item.
Ein weiteres projektives Item.
ist der Klassiker Rohrschachttest.
Wir hatten es schon eingangs mal erwähnt, in der ersten Stunde der Vorlesung, glaube ich.
Was ich häufiger gehört habe, als ich das hier mal gefragt habe, ich werde das nicht noch mal tun, weil ich das schon getan habe, an anderer Stelle, war zum Beispiel, das ist ein Werner.
Ein Werner, die Comicfigur, diese friesische Comicfigur.
Ja, sozusagen, das ist das Motorradreifen und das hier ist diese Figur, Also Sie sehen, die Mehrdeutigkeit des Item-Materials ist zumindest ein interessantes Phänomen.
Hinsichtlich der Validität kann man verschiedener Meinung sein, aber es scheint interessant zu sein, was da passiert beim projektiven Testen.

Das heißt, wir können zusammenfassen.

Bei der Verschiedengestaltigkeit der Items, die wir jetzt gerade in einem kurzen Abriss gesehen haben, Wir haben ein Matrizen-Item gesehen, ein sprachlich formuliertes Item habe ich nicht mit reingenommen, weil die kennen sich schon aus den klassischen Tests, wie ich gehe gerne auf Partys und so weiter, ist es Ihnen bekannt, oder projektives Verfahren.
Trotzdem ist allen Test-Items etwas gemeinsam.
Die bestehen nämlich aus einem Stimulus- und aus einem Reaktionsteil.
Und das können wir uns im Folgenden anschauen.
Wie kann der Fragenstamm, also der Stimulus-Teil sein, was ist der Die Reizvorlage, die dem Probanden gegeben wird, die kann aussehen aus einer Frage, also sprachlich formuliert einfach eine Aussage, einem Bild, einer Geschichte, eine Zeichnung, eine Rechenaufgabe oder in irgendeiner Form eine Testsituation.
Diese Stimuli, diese Reize werden vorgegeben und die Reaktion des Probanden wird in irgendeiner Form aufgenommen und diese irgendeine Form kann man exemplarisch spezifizieren, z.B.
indem man sagt, es gibt Ankreuzalternativen, was der Klassiker ist.
Eine leere Zeile, schreiben Sie dazu, wie Sie das empfinden, oder ist ein Lückentext da, eine Antwortskala oder ein weißes Blatt.
Oder dass man sagt, bitte antworten Sie spontan, erzählen Sie, was Sie da sehen, was stellt das Bild für Sie dar.
All das sind Modi, in denen man Reaktionen der Probanden auf die vorgegebenen Stimuli aufnimmt.
und wie die Logik funktioniert, und das schauen wir uns gleich mal an.

Aber die Begriffe, die wir noch klären müssen, ist nun, was ist eine Testskala noch?

Wir haben einen Testeitem, jetzt kommt eine Testskala und nachher kommen noch weitere Begriffe, die klären wir zunächst.
Also eine Skala ist zunächst mal ein Satz von Items, das heißt also mehrere Items, die meist Bestandteil eines Tests sind, die spezifischen mit der jeweiligen Testskala verbundenen Skalierungseigenschaften genügen.
Das heißt, ich kann nur Items zu einer Skala zusammenfassen, die in irgendeiner Form auch etwas Ähnliches messen sollen.
Eine Skala ist insofern ein Verbund von Items, der dazu geeignet ist, ein ähnliches Konstrukt zu messen.
Das klassische Beispiel für Extraversionen, ich gehe gerne auf Partys, das wäre ein einzelnes Item.
Wenn Sie daraus eine Skala Extraversion machen wollen, und ich weiß, das, was ich jetzt sage, ist vielleicht für die Hauptfächler, sind das die Basics, aber ich sage es bewusst nochmal für den Nebenfächler, um Ihnen zu ermöglichen, dass Sie auf einen ähnlichen Stand kommen wie die Hauptfächler in diesem Punkt.
Eine Skala ist insofern ein Verbund von Items.
Im Beispiel, ich gehe gerne auf Partys, war das Einzelitem.
Wenn ich dazu noch die Items dazutue, ich bin gerne in Gesellschaft anderer Menschen oder alleine fühle ich mich eher unwohl.
Wenn ich diese Items noch dazunehme, die auch intendieren, Extraversionen zu messen, dann kann ich aus diesem Verbund von Items der hoffentlich dazu geeignet ist, Extraversionen zu messen, eine Testskala machen.
Üblicherweise misst man Konstrukte wie Extraversion oder die anderen vier der Big Five aufgrund dessen, dass sie recht abstrakt und breit sind, mit mindestens zehn bis zwölf Items.
Also die Testskala umfasst üblicherweise zehn bis zwölf Items, dann erst kommt man auf eine Chromebox Alpha, was ein Schätzwert ist für die interne Konsistenz und damit für die Reliabilität, kommt man erst auf akzeptable Werte.
Also Sie wissen ab jetzt, was eine Testskala ist.

Was ist nun eine Testbatterie?

Das ist wieder ein höheres Abstraktionsniveau.
Wir hatten erst Einzelitem, wie besprochen, verbund von Einzelitems Testskala.
Wenn ich jetzt mehrere Skalen kombiniere, dann komme ich zu dem, was eine Testbatterie ist.
Also es ist eine Kombination von Einzeltests, die ja wieder aus klassischerweise Testskalen bestehen.
Und diese Kombination von Einzeltests nehme ich vor, mit dem Ziel, die Validität des mit einem einzelnen Test gemessenen Merkmals zu erhöhen.
Okay, also das ist nun eine Testbatterie.

So, was ist jetzt die …

Wir wollen Persönlichkeit beschreiben.
Das ist eine der Baustellen der Persönlichkeitspsychologie, haben wir festgeschrieben.
Das heißt, wir wollen auch Persönlichkeit …
Um Persönlichkeiten vernünftig beschreiben zu können, brauche ich in der empirisch fundierten Persönlichkeitspsychologie, und die betreiben wir ja, brauche ich eine Möglichkeit, unterinterindividuelle Unterschiede auch zu messen.
Und das mache ich, wie üblich in der Wissenschaft, aufgrund der Fundierung theoretisch.
verankert.
Und demzufolge liegt im Messen eine Messtheorie zugrunde.

Wovon geht die aus?

Das schauen wir uns im Folgenden an.

Die Grundfrage der Messtheorie ist, welche empirischen Sachverhalte können durch welche numerischen Strukturen angemessen abgebildet werden?

Also wir wissen, Menschen unterscheiden sich in gewissen Dimensionen.
Wenn wir uns unterscheiden, heißt das, der empirische Sachverhalt, zum Beispiel sind vielleicht Sie intelligenter als ich, Wenn Sie intelligenter sind als ich, unterscheiden wir uns in der Dimension Intelligenz.
Das ist ein empirischer Sachverhalt.
Und diese empirische Sachverhalte wollen wir jetzt nun der Gestalt erfassen können, dass wir dieser Unterschiedlichkeit Zahlen zuordnen können.
Also empirischen Sachverhalten werden numerische Strukturen zugeordnet.
Und diese Zuordnung mündet in die Abbildung eines empirischen Relativs, dass sie intelligenter sind als ich, in ein numerisches Relativ.
Sie kriegen vielleicht 140 und ich vielleicht…
naja, überlegen Sie sich eine Zahl, die Sie angemessen halten.
Also dieser Unterschiedlichkeit ordnen wir Zahlen zu.

Wie ist nun die Beziehung idealerweise gestaltet zwischen der Unterschiedlichkeit und der Zahl?

Nun die Beziehung zwischen empirischem Relativ und numerischem Relativ soll homomorph sein, das heißt gleichförmig.
Das heißt so groß wie wir in echt uns in unserer Intelligenz unterscheiden, genauso soll es auch in den Zahlen abgebildet werden.
Wenn das funktioniert, dann macht das Spaß und Sinn.

So, das heißt, warum brauchen wir überhaupt eine Theorie fürs Testen?

Wir haben die Messtheorie uns eben jetzt angeschaut.
Da müssen wir noch ein bisschen detaillierter schauen, weshalb es notwendig ist.
Was wir brauchen ist, oder was wir haben, ist eine Theorie über verschiedene Arten von Tests, ihren Aufbau und ihre Konstruktionsprinzipien.
Das ist das Stichwort Testtheorie.
Was Testpraxis ist, wissen Sie, nämlich Tests anwenden.
Demzudem liegt eine Testtheorie zugrunde.
Und die benötigen wir aus verschiedenen Gründen, die wir im Folgenden jetzt noch beleuchten werden.
Das heißt, die Testtheorien, das ist im Plural, das ist kein Fehler, es gibt verschiedene.
Wir lernen jetzt hier für die Belange dieser Vorlesung nur eine Testtheorie kennen, das ist die klassische Testtheorie.
Es gibt aber andere, zum Beispiel die probabilistische Testtheorie, die in den letzten Jahren stark im Aufschwung begriffen ist.
Die ist aber aufgrund ihrer Komplexität anzuraten, dass Sie sich damit erst im Hauptstudium beschäftigen.
Das werden wir jetzt hier noch nicht tun.
Also die Testtheorien beschäftigen sich mit dem Zusammenhang von Testverhalten und dem zu erfassenden Personenmerkmal.
Das ist anders ausgedrückt als das, was wir gerade gesagt haben mit der homomorphen Beziehung zwischen empirischem und numerischem Relativ.
Der Zusammenhang von Testverhalten, jetzt schlagen wir die Brücke zurück, was wir gerade gesagt haben, es gibt Stimuli und es gibt Reaktionen des Probanden.
Also Zusammenhang des Testverhaltens ist offensichtlich, wie derjenige auf die im Test vorgegebenen Stimuli reagiert, also zum Beispiel welche Kreuzchen ersetzt.
Das ist das Testverhalten.
Die Auswertung des Testverhaltens führt zu einem Testergebnis.
Also hier geht es darum, wie hängt das Testergebnis zusammen mit dem wirklich intendierten zu erfassenden Personenmerkmal.
Das heißt, inwiefern korrespondiert die Zahl von IQ 140 mit meiner, also in dem Fall beispielsweise mit Ihrer wirklichen Intelligenzausprägung.
Und idealerweise würde natürlich die Zahl 1 zu 1 korrespondieren mit der Merkmalsausprägung, die in Ihnen wirklich vorliegt.
Offensichtlich erkennen Sie, wenn das immer so wäre, dann bräuchte man nicht großen Theorie-Korsett.
Sie können jetzt wahrscheinlich schon intuitiv erahnen, diese Theorie braucht man unter anderem deshalb, weil wir in der Psychologie nicht völlig exakt messen können.
Die Frage ist inwiefern auch zum Beispiel Physiker völlig exakt messen können, aber sie können es auf jeden Fall mit einer höheren Präzision, zumindest in den meisten Anwendungsfeldern im Vergleich zu unserer wissenschaftlichen Disziplin.
Da das aber bei uns relativ schwierig ist, brauchen wir eine theoretische Absicherung dafür, für das, was wir tun.
Weil Persönlichkeitsdiagnostik wird ja tagtäglich weltweit wahrscheinlich zigtausendfach betrieben.
Offensichtlich scheint das zu gehen, aber man muss sich auch der Einschränkungen bewusst sein.
Deswegen schauen wir uns nochmal eine weitere Ausdrucksweise an, wie diese Merkmalsausprägungen zusammenhängen mit den numerisch zugeordneten Strukturen.
Das heißt, Testtheorien befassen sich mit der Frage, wie die empirischen Testwerte und die zu messenden tatsächlichen Merkmalsausprägungen zusammenhängen.
Und die Wunschvorstellung war, wie gesagt, dass sie sehr eng zusammenhängen, idealerweise 1 zu 1 korrespondieren.
Man kann es umformulieren, indem man sagt, Testtheorien beschäftigen sich auch mit der Frage nach den Anforderungen, denen ein Test genügen muss.
Und vielleicht klingelt da bei Ihnen schon was in Richtung Gütekriterien, was Sie schon mal gehört haben.
Um aufgrund eines Testergebnisses auf die tatsächliche Ausprägung des getesteten Merkmals schließen zu können.
Und aus diesen Vorgaben der Testtheorien kann man die Gütekriterien und deren Berechnung ableiten.
Aber Sie sehen, Schön wäre es, wenn wir eine psychologische Diagnostik machen könnten, also zumindest jetzt vom Exaktheitsanbruch schön.
Wenn man den Leuten quasi direkt in den Kopf reinschauen könnte, wie Mediziner mit einem bildgebenden Verfahren.
Wenn wir sozusagen den psychologischen Röntgenblick hätten, wie intelligent die Person ist, wie die Persönlichkeitsausprägung ist.
Das mag vielleicht aus Big-Brother-Erwägungen heraus nicht wünschenswert sein.
Wissenschaftlich, was die Erkenntnis angeht, wäre es natürlich toll.
Denn was wir jetzt im Moment machen, ist alles andere als der direkte Zugang.
Wir benutzen einen Umweg.
Wir geben den Personen Stimuli vor.
Teststimuli, wie besprochen.
Diese Personen reagieren auf diese Stimuli.
Und aus der Reaktion, also aus dem Testergebnis, aus dem Testverhalten, schließe ich wiederum zurück auf die Merkmalsausprägung in der Person.
Das heißt, der direkte Weg wäre, wie gesagt, der psychische Röntgenblick, der im Moment unmöglich ist.
Die testdiagnostische Alternative, die im Moment betrieben wird, ist dieser Umweg.
Stimuli vorgeben, Reaktionen beachten, von den Reaktionen, die ins Testergebnis münden, zurückschließen zur Person und ihrer Merkmalsausprägung.
Ja, das sehen Sie genau in dieser Abbildung zusammengefasst.
Wir haben ein Personmerkmal, zum Beispiel eine hohe Intelligenz im Beispiel bei Ihnen.
Ich gebe dieser Person mit dem Personenmerkmal Intelligenz.
den Intelligenztest vor, der vielfältige Items, vielfältige Testskalen und gleichzeitig auch eine Testbatterie ist in der Regel, gebe ich vor, auf jeden Fall vielfältige Stimuli.
Ich erhalte hoffentlich vielfältige Reaktionen.
Das mündet also in das Testverhalten oder Sie könnten hier auch sagen Testergebnis im Fall eines Intelligenztests.
Jetzt sehen Sie aber hier schon, hier steht jetzt das Personenmerkmal beeinflusst.
Das steht nicht determiniert zu 100 Prozent.
sondern es steht beeinflusst das Testverhalten.
Zum Beispiel korrespondiert ist die Beziehung zwischen Testergebnis, also numerischem Relativ und empirischem Relativ, dann nicht homomorph, wenn die Person an dem Tag schreckliches Kopfweh hat und diesen Test trotzdem machen muss oder unkonzentriert ist.
Oder nebenbei befindet sich Baustellenlärm, der die Person beeinflusst.
Und dazu führt, dass sie nicht den Wert erzielt in dem Testergebnis, der eigentlich ihrer Merkmalsausprägung im Intelligenzbereich entspricht.
Das heißt, Sie sehen, hier steht beeinflusst.
Und dieses Beeinflussen, also man wünschte sich in einer idealen Welt, dass hier steht, determiniert eins zu eins.
Aber das ist nicht der Fall.
Wir unterliegen Störquellen.
Damit müssen wir leben lernen als Psychologen.
Das ist in den meisten Fällen so.
Auf jeden Fall schließen wir zurück im Rahmen der Testauswertung auf die Ausprägung des Personenmerkmals.
Und wie gesagt, schön wäre es, wenn wir jetzt eigentlich das Personenmerkmal direkt quasi mit dem Röntgenblick erkennen können.
Das ist nicht der Fall, deshalb müssen wir uns dieses Umweges bedienen.
Und gleichzeitig, und das ist die Verknüpfung zum Thema Gütekriterien, muss der Test gewisse Gütekriterien erfüllen, über die wir heute auch noch sprechen werden.
damit ich diesen Schluss überhaupt machen kann.
Hier wird ein Schluss durchgeführt.
Ein Schluss vom Testergebnis zurück auf das Personenmerkmal.
Und damit ich das machen darf, muss der Test gewisse qualitative Herausforderungen meistern.
Wenn der Test diese Hürden nicht meistert, darf ich den Schluss nicht machen und meine Diagnostik ist nicht mehr aussagekräftig.
Es ist mir wichtig, dass Sie verinnerlichen, wir machen einen Schluss, wie er hier im Bogen auch grafisch dargestellt ist.
Und den darf man nicht ohne weiteres vornehmen.
Da muss man als wissenschaftlich arbeitender, seriöser Psychologe prüfen, ob das erlaubt ist, ob das mit dem vorhandenen Testmaterial eine gangbare Möglichkeit ist, eine akzeptable.
Das heißt, wir können es auch noch mal, das ist eine Folie von einem Kollegen, Herrn Canning aus Münster, die ich gerne bringe, weil ich finde, er hat es grafisch gut zusammengefasst.
Sie haben wieder hier eine Verbindung zwischen einem tatsächlich existierenden Personenmerkmal, also einem empirischen Relativ, um die Begrifflichkeit von eben aufzugreifen.
Beispiel war Intelligenz.
Es gibt durch das Testverfahren eine Abbildung des Merkmals im Messergebnis, das wäre das numerische Relativ.
Und diese Abbildung im numerischen Relativ erziele ich über diesen Prozess der Messung.
So, jetzt kommt aber potenziell Sand ins Getriebe durch die Störquellen, die jetzt aufgeführt sind und die pfeilartig einwirken auf den Prozess der Messung.
Diese Störquellen kann man verschiedenen Kategorien zuordnen, zum Beispiel Kategorie Proband selber, Diagnostiker oder Messinstrument.
Schauen wir es uns im Detail an.
Störeinflüsse, die eine homomorphe Abbildung des empirischen Relativs im numerischen Relativ beeinflussen können oder ausmachen können, sind Tagesform des Probanden, Motivation des Probanden oder andere Merkmale, zum Beispiel, dass der Proband besonders geneigt ist, sozial erwünscht in einem Persönlichkeitstest sich zu benehmen.
All das gefährdet die 1 zu 1 Abbildung von empirischem Relativ im numerischen Relativ.
Fehlerquellen können zusätzlich, also und oder, vorliegen im Bereich des Diagnostikers, der hinsichtlich der Objektivität in der Durchführung, der Auswertung und der Interpretation Störvariable sein kann.
Das Messinstrument kann die Messung negativ beeinflussen, indem die Reliabilität ungenügend ist oder die Validität und oder beide.
Also Sie sehen schon hier, das ist nur kurz grafisch zusammengefasst, welche Störquellen überblicksartig auf diesen Prozess der Messung, das heißt der Abbildung des empirischen Relativs im numerischen Relativ präsent sein können.
Und wenn Sie so wollen, sind das unsere diagnostischen Herausforderungen, die wir bewältigen müssen.
Wir müssen als Testkonstrukteure hier dran arbeiten, dass das Messinstrument was taugt.
An der Objektivität hinsichtlich dieser drei Aspekte kommen wir gleich noch im Detail dazu.
Durchführung, Auswertung, Interpretation.
Also möglichst die Subjektivität aus dem Verfahren rausnehmen.
Und wir sollten darauf achten, dass der Proband adäquat motiviert ist, aufgeklärt darüber, was in diesem Testverfahren richtiges und erwünschtes Verhalten ist und auch was es nicht ist.
Wir müssen über soziale Erwünschtheitsbremsen nachdenken.
Es gibt da bei sozialer Erwünschtheit unterschiedliche Ansichten.
Manche sagen, man sollte es kontrollieren oder versuchen zu kontrollieren.
Die andere Richtung sagt, nein, das ist halt Teil der Persönlichkeit.
Wir lassen es einfach drin.
Es ist auch keine Verfälschungsgefahr.
Das kann man wiederum diskutieren.
Auf jeden Fall müssen wir bewusst sein, Seiten des Probandens können genauso gut Störeinflüsse zum Tragen kommen, die die Homomorphie der Abbildung vom empirischen Relativ im numerischen Relativ gefährdet.
Und wir tun gut daran, das A zu wissen und B nach Möglichkeit zu kontrollieren oder auszuschalten, falls möglich.
Also was wir machen, ist ein komplexer Prozess in der psychologischen Diagnostik.
der ihren ganzen Einsatz erfordert.
Gut.
Schauen wir uns ein paar Grundvoraussetzungen an, dass ich überhaupt interindividuelle Unterschiede erfassen und interpretieren kann.
Sie wissen, bei der Persönlichkeitspsychologie ist ja genau das der Gegenstand.
Sie wissen, Die Grundbegrifflichkeiten, Itemscaler, Batterie, Sie wissen, wie Testtheorien funktionieren, warum man eine Theorie braucht, wie der Abbildungsprozess idealerweise funktioniert, wie man vorgeht, weil man zieht Schlüsse.
Sie wissen auch, bei Persönlichkeitspsychologie geht es um interindividuelle Differenzen und ihre Erfassung.
Und Sie wissen, man braucht messtheoretische Vorrichtungen oder Voraussetzungen, dass man das machen darf.
Und die schauen wir uns jetzt auch im Detail an.
Standardisierung ist zunächst mal eins.
Das ist vielleicht jetzt eher noch für Sie als Nebenfächlerin was Neues als für die Hauptfächler.
Aber wie gesagt, ich wiederhole das gerne für die Nebenfächler.
Standardisierung.
Messwerte aus Tests können inter- und intera-individuell nur dann sinnvoll miteinander verglichen werden, wenn die jeweiligen Untersuchungsbedingungen konstant gehalten werden bzw.
identisch sind.
Das bedeutet einfach zum Beispiel im Intelligenztestbeispiel Wenn da nebenbei eine Großbaustelle ist, die Lärm verursacht und sich die Probanden deshalb nicht konzentrieren können, ist das ein Störeinfluss, der macht die Vergleichbarkeit der Testergebnisse zunichte.

Warum sind häufig Experimentallabore in so fensterlosen Räumen akustisch abgeschirmt?

Na ja, aus dem Grund.
Man möchte, dass die Unterschiedlichkeit der Verhaltensweisen einer Person, zum Beispiel Reaktionszeitexperimentchen am Computer, Also die Allgemeinpsychologen fragen ja danach, wie funktioniert der Mensch allgemein.
Die wollen das idealerweise rückführen auf die Manipulation der UV.
Also beispielsweise die Reaktionszeiten.
Ich kann Ihnen ein Beispiel erzählen.
Ich war früher hier wie in der Allgemeinen 2.
Also allgemeine Psychologie interessiert mich auch.
Die haben Überraschungsforschung betrieben, weil Überraschung ist eine Emotion.

Haben Sie schon mal gehört, ne?

Also Überraschung ist eine der Emotionen.
Und die sollte untersucht werden.
Und es ging darum, Versuchspersonen am Computer in so einem vier Quadratmeter kleinen, akustisch und visuell abgeschirmten Versuchslabor stumpfsinnige Bewegungen nachmachen zu lassen, die der Computer vorgab.
Zum Beispiel, wenn da ein Viereck im Monitor kommt, tippen sie auf die Taste, wenn ein Dreieck kommt, auf die Taste.
Das macht man dann so fünf Minuten und auf einmal kommt so eine fette Vogelspinne als Reiz.
Es geht ja um Überraschungen, also muss man irgendwie auch Überraschungen erzeugen und Sie können mir glauben, das hat funktioniert.
Und die Instruktion war halt, es war halt aber in einem Quadrat, also insofern die Instruktion war, wenn Quadrate kommen, dann bitte auf die Taste tippen.
Und das hat natürlich in der Regel die Reaktionszeit enorm erhöht, weil erstmal die Kinnlade runtergefallen ist.
Das ist ein Beispiel, okay.

Und worauf möchte man jetzt zurückführen, dass diese Reaktionszeiterhöhung zustande kam?

Natürlich auf die Manipulation der unabhängigen Variablen, Stimulusvorgabe.
Und das funktioniert nur dann sinnvoll.
Also, dass sich Menschen interindividuell unterscheiden in ihrer Schreckhaftigkeit, das wurde hier nicht kontrolliert.

Der Persönlichkeitspsychologe würde jetzt fragen, okay, bei welchen Leuten war die Reaktionszeit Latenz, also die Verzögerung, bis derjenige diese instruktionsgemäße Übung oder Aufgabe erfüllt hat?

Bei welchen war die besonders hoch?

War das eher bei den Leuten, die ängstlicher sind?

Das wäre eine persönlichkeitspsychologische Hypothese, aber der Allgemeinpsychologe hat damals danach gefragt, oder meine Kollegen damals haben danach gefragt, wie stark führt ein Schema diskrepanter Reiz, aber Schema diskrepant ist das Fachwort für überraschend, Schema diskrepanter Reiz dazu, dass die Latenz erhöht wird.
Und dann hat man einfach variantsanalytisch geschaut und interessante Ergebnisse gefunden.
Aber dieses Experiment, wie klassische Laborexperimente auch, deshalb habe ich es auch als Beispiel genannt, finden unter standardisierten Bedingungen statt, weil man möchte ja, wenn Reaktionszeiten erhöht sind, möchte man das zurückführen auf die unabhängige Variable hier, Vorgabe einer Vogelspinne als quadratischer Reiz und nicht darauf, dass sich jemand erschrocken hat, weil draußen Baulärm ist oder ähnliches.
Man will Störeinflüsse ausschließen.
Das ist ein Teil der Standardisierung.

Differenzierung führen wir auch durch.

Uns geht es ja um interindividuelle Differenzen, auch im Unterschied zu allgemeinen Psychologen.
Das heißt, Test- und Durchführungsbedingungen sollten so gestaltet sein, dass sich die Merkmalsträger im interessierenden Verhalten maximal voneinander unterscheiden und gleichzeitig geringe Unterschiede hinsichtlich irrelevanter Variablen bestehen.
Erklärt sich selber.
Objektivität ist eben schon gefallen.
Für die Hauptfächer auch wieder eine Wiederholung.
Das heißt, die zwischen den Merkmalsträgern auftretende Varianz muss unabhängig von der Person des Versuchsleiters registrierbar sein, etwa indem es feste Durchführungs- und Auswertungsvorschriften gibt.
Das heißt, indem man den subjektiven Einfluss, den ein diagnostischer Auswerter hat, reduziert durch Standardisierung der Prozesse.
Das heißt ganz konkret im Beispiel, wenn zwei Personen sich hinsichtlich ihrer Intelligenz unterscheiden, angenommen Sie machen den Intelligenztest mit zwei Personen, zum Beispiel mit Ihnen beiden, und da kommt dann raus 140 und 145, dann muss ich, wenn ich Sie nochmal teste mit einem anderen Intelligenztest, auch auf die Ergebnis kommen.
Das heißt, die Merkmalsunterschiedlichkeit kann von Ihnen diagnostiziert werden und von mir und wenn das übereinstimmt, ist das eine gute Sache und spricht für die Objektivität.
Reliabilität ist nun die Messpräzision.
Das heißt, Merkmalsausprägungen müssen zum Beispiel zeitlich stabil sein.
Das wäre Retest-Reliabilität.
Sie können auf Deutsch auch gerne Test-Wiederholungs-Reliabilität sagen.
Das heißt, bei einer Messwiederholung bei gleichen Personen unter gleichen Bedingungen zu ähnlichen Ergebnissen führen.
Bei einem konstanten Merkmal.
Bei Stimmung zum Beispiel nicht.
Stimmungen können schwanken, aber Persönlichkeitsmerkmale im engeren Sinne sollten über kürzere Zeiten nicht so stark schwanken.
Also bei Reliabilität geht es um Messpräzision.
In einem anderen Wort misst der Test das, was er misst, präzise.
Davon zu differenzieren ist die Grundfrage, die der Validität zugrunde liegt.

Die lautet nämlich, misst der Test das, was er messen soll?

und zu messen vorgibt.
Das ist eine andere Frage.
Bitte differenzieren Sie das von der Grundfrage der Reliabilität.
Das heißt, bei der Validität muss belegt sein, dass der Test auch wirklich das misst, was er messen soll.
Validiert werden kann ein Test entweder mit einem Außenkriterium oder einem Indikator für ein solches Außenkriterium, zum Beispiel ein anderer Test, wobei Test mit Test zu validieren eigentlich nur ein Notbehelf ist.
den man häufig aber nicht entgehen kann, weil man für zum Beispiel Intelligenz keine guten Außenkriterien findet.
Also Sie können hernehmen bei Intelligenz zum Beispiel Schulleistung.
Schulleistung ist aber auch nicht nur kognitive Leistungsfähigkeit, wie Sie sich vorstellen können.

Welche Sachen messen wohl noch intellektuelle Leistungsfähigkeit?

Naja, das wird dann schon schwieriger.

Gut, Trennschärfe.

Ich habe Ihnen hier eine grafische Visualisierung von Trennschärfe, die Sie hoffentlich dazu animiert, das Konzept zu verinnerlichen, denn dazu ist es da.

Was heißt Trennschärfe?

Kurze Frage vorab.

Haben Sie dazu schon mal was gehört als Hauptvechler?

Also der Begriff ist Ihnen geläufig.
Ich habe nickende Gesichter gesehen.

Dann können wir es bei einer kürzeren Erläuterung belassen.

Trennschärfe ist ein ganz wichtiger testtheoretischer Begriff, an dem Sie nicht vorbeikommen und den Sie verstehen sollten, wenn Sie ein umfassendes Wissen in dem Bereich erwerben wollen.
Also eine Trennschärfe.
Wichtig ist zunächst mal, es heißt die Trennschärfe eines Items.
Also Sie wissen, es gibt Itemskalen und Testbatterien.
Die Trennschärfe bezieht sich auf Einzel-Item-Ebene.
Die Trennschärfe eines Items gibt an, wie gut das gesamte Testergebnis aufgrund eines einzelnen Items vorhersagbar ist.
Also eines Items dieser Testskala.
Die Trennschärfe ist ein Kennwert dafür, in welchem Ausmaß die Differenzierung der Versuchspersonen in Löser und Nichtlöser, da reden wir gleich noch drüber, durch das Item mit demjenigen durch die Skala als Ganzes übereinstimmt.

Was ist ein Löser und ein Nichtlöser?

Na gut, das ist nun im Intelligenz- und Leistungstestbereich ist das ganz einfach.
Da gibt es ja nun offensichtlich richtige Lösungen.
Und da ist der Begriff Löser und Nichtlöser intuitiv verständlich.

Was heißt das jetzt aber bei Persönlichkeitstest im engeren Sinne?

Wenn Sie ankreuzen, ich gehe gerne auf partystarke Zustimmung, sind Sie dann ein Löser oder ein Nichtlöser?

Das ist verwirrend.
Das liegt an der Begrifflichkeit, nicht an Ihnen, dass Sie es vielleicht nicht sofort verstehen.
Man hat einfach diese Begrifflichkeit Löser und Nichtlöser aus dem Leistungstestbereich übertragen in den Persönlichkeitsbereich im engeren Sinne, also auf klassische Persönlichkeitstests.
Und das heißt hier, Löser zustimmend zu Merkmal in hoher Merkmalsausprägung.
Das heißt, wenn Sie ankreuzen würden, ich gehe gerne auf Partys starke Zustimmung, dann wären Sie in dem Fall ein Löser, auch wenn das keine knifflige Intelligenztestfrage war.
Ist einfach aus historischen Gründen gewachsen, diese Begrifflichkeit, Löser versus Nichtlöser.
Umso höher die Trennschärfe, desto besser misst das Item das, was auch die Skala misst.
Um Ihnen das zu veranschaulichen.
Wir hatten ja eingangs gesprochen über die Skala-Extra-Version mit Pi mal Daumen.
Angenommen, wir würden die konstruieren und sagen, wir wollen ein akzeptables Chroma aus Alpha haben, nehmen wir zehn Items her.
Also zehn einzelne Items werden zu dieser Skala-Extra-Version zusammengefasst.
Jetzt heißt Trennschärfe, wie die Folie hinter mir verdeutlicht, ist die Trennschärfe eines Items.
Das heißt, für jedes dieser einzelnen Items in der Skala Extraversion, die wir jetzt fiktiv gemeinsam konstruieren, gibt es eine Trennschärfe.

Wie kann ich die nun berechnen?

Gibt es da Vorwissen, an das wir anknüpfen können?

Sie hatten zum Beispiel vorher gesagt, Sie kennen das Konzept.

Können Sie das auch schon erläutern?

Das war, okay, so tiefgehend war das Wissen nicht.
Dann erläutere ich Ihnen ein Beispiel.
In der Testtheorie funktioniert viel über Korrelation.
Deshalb ist es ganz wichtig, dass Sie die Grundbegrifflichkeit, was ist eine Korrelation, verinnerlicht haben.
Denn wenn das geschehen ist, verstehen Sie viele der Berechnungen, die in den Testtheorien gemacht werden, verstehen Sie dann.
Das heißt, einmal investiert ins Verständnis und die Zinsen und Zinseszinsen kriegen Sie dann im Laufe des Studiums.
Konkret, eine Trennschärfe ist nichts anderes als eine Korrelation.
Diese zehn Items sollen alle extra Versionen messen, deshalb sind sie in dieser Skala drin.
Wenn ich das jetzt wörtlich nehme, was hier auf der Folie steht, die Trennschärfe ist ein Kennwert dafür, in welchem Ausmaß das Item mit denjenigen durch die Skala als Ganzes übereinstimmt, dann muss ich eigentlich nichts anderes machen als aus diesem Pool von zehn Items eins rausnehmen, dann habe ich hier eins und da noch neun.
Und korrelieren, inwiefern hängt dieses Einzelne, was ich rausgenommen habe aus dem Verbund, zusammen mit dem, was die anderen neun erfassen.
Und wenn es jetzt darum geht, diesen Zusammenhang zu erfassen, siehe da, dann sind wir wieder beim Thema Korrelation.
Das heißt, ich korreliere die Messung, die das einzelne Item macht, mit dem Verbund der verbleibenden neuen Items.
Und dann komme ich auf die Trennschärfe.
Wenn da eine hohe Trennschärfe rauskommt, dann misst das einzelne Item in einem hohen Maß das, was der Verbund der anderen neuen Items misst.
Und ein SPSS ist ja so ein cleverer Rechenknecht, der spuckt Ihnen das ganz schnell aus, wenn Sie es anfordern.
Aber SPS ist in meinen Augen ein sehr leistungsfähiges Programm.
Es ist aber wichtig, dass Sie verstehen, was im Prinzip im Hintergrund passiert, um dann auch wirklich mit dem Datenwust, den Sie da auf den Mausklick kriegen, auch wirklich was anfangen zu können und den richtig zu verstehen.
Aber ich denke, was das Thema Trennschärfe angeht, dürfte sich da schon ein Verständnis aufgebaut haben.

Das ist jetzt genau der Punkt.

Ihre Kommilitonin sagt jetzt, gut, wenn jetzt die Trennschärfe sehr hoch ist, beispielsweise Punkt 80, dann, wir reden gleich noch drüber, im Verlauf dieser Veranstaltung wahrscheinlich, dann, wie würden Sie intuitiv sagen, was passiert dann oder was ist dann die Gefahr?

Ja, bitte?

Dass die Items redundant sind?

Und welchem Gütekriterium widerspricht das?

Welchem Nebengütekriterium, falls Sie es schon mal gehört haben?

Es widerspricht der Ökonomie.
Wir haben eben über Messqualität gesprochen, über Abbildung, empirisches Relativ, numerisches Relativ.
Da gibt es viele Störquellen, unter anderem Tests, die keine hohe Qualität aufweisen.
Sie werden merken, wenn Sie sich weiter mit dem Thema beschäftigen, gute Tests weisen in der Regel, wenn Sie komplexe Sachen messen, zum Beispiel Persönlichkeit, eine gewisse Länge auf.
Trotzdem, also zum Beispiel ein umfassender Persönlichkeitstest ungefähr 200 Items.
Das dauert dann halt, den auszufüllen, dauert halt eine gewisse Weile, eine halbe bis eine Dreiviertelstunde.
Grundsätzlich ist es aber so, dass wir möglichst wenig gute Items rausfinden wollen, rausfiltern wollen als Testkonstrukteure.
um eine möglichst aussagekräftige Diagnostik zu machen.
Das heißt, es geht uns darum, dass der ökonomische Gedankengang sozusagen, da es findet sich der BWL-Denke in der Psychologie, insbesondere in der Testdiagnostik wieder, möglichst gute Items zu finden und gleichzeitig möglichst wenige, um eine fundierte Aussage zu machen.
Aber Sie sehen bei einem komplexen Konstrukt, wie eingangs gesagt, ungefähr 200 Items, scheinbar kommt man mit weniger schwerlich aus.
Das heißt, hochwertige Diagnostik impliziert einen gewissen Aufwand, der damit einhergeht.
und um den kommen wir nicht drum rum.
Grundsätzlich ist aber das, was Sie sagen, genau richtig.
Wenn die Items zu stark korrelieren, dann riecht das vielleicht ein bisschen nach Redundanz und Redundanz widerspricht der Ökonomie, also diesem Grundsatz, den wir gerade besprochen haben, so dass es sein könnte, dass man ein Item da, dass man die Skala auch kürzen könnte, ohne dass sie an Aussagekraft und diagnostischer Relevanz verlieren würde.
Auf eine Berechnung jetzt von Trennschärfen im Beispiel möchte ich jetzt hier in dieser Vorlesung verzichten.
Das ist Kerngeschäft der Testtheorie.
Ich möchte oder ich wünsche mir nur, dass Sie die Grundidee verinnerlichen und sich kompetent dazu äußern können, was die Trennschärfe grundsätzlich macht.

Was sind so übliche Trennschärfen, die man häufig findet in internationalen Persönlichkeitstests, die auch im deutschen Sprachraum vorhanden sind?

Bitte schön.
Redundanz, das Wort Redundanz heißt, es ist sozusagen doppelt vorhanden, es ist mehrfach vorhanden.

Also haben Sie einen guten Begriff?

Überflüssig, ja überflüssig ist vielleicht ganz gut.
Also es gibt dazu, da fällt mir was ein, Nee, das passt nicht so gut in den Kontext.
Redundanz heißt aber auf jeden Fall überflüssig zu viel.
Wiederholend, wenn ich…
Gut, ich denke, kannst du stehen lassen.
So, schauen wir uns überblicksartig an, auch wieder eine Abbildung von Herrn Canning aus Münster, den ich hier gerne mit seiner Arbeit wiedergebe, weil ich finde, dass das sehr überschaubar gemacht hat.
Phasen der Konstruktions von Tests, also Sie sehen hier fünf Phasen, wie er das zusammenfasst.
Zunächst mal geht es darum in Phase 1, Items zu konstruieren und ein vorläufiges Instrument zusammenzustellen.
Also Sie sehen das hier ganz, der ist auch humorvoll, der Kollege.
Der Item-Wort lautet hier jeweils bla bla bla.
Und es gibt einen gebundenen Antwortmodus, der vierstufig ist.
Also das sind die Stimuli.
Hier auf diese Art und Weise abgekürzt, hier werden die Reaktionen verbucht.
In der Phase 2 geht es dann darum, Skalen zu bilden und unpassende Items zu eliminieren.
Das ist zum Beispiel auf Grundlage dessen, was Sie gerade gedacht haben, Verdacht von Redundanz.
Dann entscheidet man sich dafür, die Skala zu kürzen, weil es keinen Mehrwert liefert, jetzt zusätzliche Items reinzunehmen.
Das wäre dieser Schritt, der üblicherweise hier in Phase 2 zu verorten ist.
Also sehen dann hier haben wir Skala 1, zum Beispiel Extraversion, Neurotizismus, Offenheit und eliminiert sind diese Items hier, die fallen raus.
Jede Testkonstruktion.
Sie können davon ausgehen, wenn Sie einen Test neu konstruieren, Pi mal Daumen von den Items, von denen Sie am Anfang noch gedacht haben, dass sie was taugen, fliegen 50 Prozent raus.
Ja, also Items eliminieren, peu a peu die besten raus zu selektieren, ist ein Prozess, der mit der Testkonstruktion einhergeht.
Dann haben wir die Phase 3.
Wir würden natürlich gerne dann wissen, die Reliabilität jeder Skala.
Und dann kann es immer noch sein, dass wir noch Items eliminieren.
Also peu a peu fallen immer noch Items raus.
Und dann interessiert uns in Phase 4 die Validität, von der ich ja schon gesagt hatte, dass sie ganz besonders wichtig ist für die Qualität eines Testverfahrens.
Und die Validität, da kommen wir wieder zurück zu dem Thema Korrelation, für das ich sehr werben möchte, dass Sie das verinnerlichen, was das ist.
Denn da kommt sie nämlich schon wieder.
Validität wird häufig korrelativ berechnet oder geschätzt.
Sie sehen also hier Scala X, zum Beispiel extra Version der Zusammenhang zu anderen Messinstrumenten, das wäre also wieder Test mit Test zu validieren, oder mit beruflicher Leistung und so weiter und so fort, wird auch wieder in Wunderts Korrelativ bestimmt.

So, und dann kommt noch Phase 5, Normen erstellen.

Das heißt, Merkmalsausprägungen innerhalb von Personen gleichen Geschlechts- und gleicher Altersgruppe vielleicht mit dem gleichen Bildungshintergrund zu vergleichen und einzuordnen.
Und wenn Sie das gemacht haben, dann haben Sie ein Testverfahren am Markt.
Das Ganze haben wir jetzt hier in drei Minuten besprochen.
Es dauert üblicherweise mehrere Jahre, bis Sie das alles gemacht haben.
Also enorm viel Zeit und wenn Sie es gut machen wollen, in der Regel auch enorm viel Geld.
So.
Über die Folien möchte ich hinweggehen.
Ich möchte einordnen.
Zunächst mal noch ein paar statistische Indizes, ganz grob.
die im Zusammenhang mit Testtheorie und Testkonstruktion und damit auch mit Persönlichkeitstest zusammenhängen.
Wir haben eben gesprochen.
Ah ja, da hatten Sie die Frage gestellt und dann hatte ich den Punkt vergessen.
Jetzt nehme ich den Faden da wieder auf.
Trennschärfe, da gibt es nur korrigierte und unkorrigierte Formen.
Auf die möchte ich hier im Detail nicht eingehen.
Was da der Unterschied ist, das würde jetzt hier zu weit führen.
Aber Sie können zur Kenntnis nehmen, die Trennschärfe, abgekürzt hier RIT, ist niedrig, wenn sie Unterpunkt, das ist ja auch wieder eine Korrelation wie gesagt, niedrig Unterpunkt 30, mittel 30 bis 50 und hoch über Punkt 50.
Item Schwierigkeit, das ist wieder dieselbe Logik wie bei Lösern und Nichtlösern, ist eine Übertragung aus dem Bereich Leistungstest in den Persönlichkeitsbereich.
Die Schwierigkeit ist einfach, Na gut, ich sage es Ihnen ganz praxisnah.
Wenn eine Matheaufgabe von vielen Leuten gelöst wird, also von fast allen, dann ist sie wahrscheinlich leicht.
Und wenn sie von fast keinem mehr gelöst wird, ist sie wahrscheinlich schwierig.
Und genau das kann man auch mit diesem Schwierigkeitsindex ausdrücken.
Und man hat diesen Begriff aus dem Leistungsbereich wiederum übertragen auf den Persönlichkeitsbereich.
Wenn Sie alle ankreuzen, ich gehe gerne auf Partys, dann wäre das Item ein leichtes Item, auch wenn das keine Leistung ist, auf Partys zu gehen.
Also der Schwierigkeitsmesswerte-Bereich kann auch wieder liegen zwischen 0 und 1.
Und es geht bei der Testkonstruktion darum, Items auszuwählen, die eine gewisse Mindestanforderung an die Trennschärfe haben, die eine gewisse Anforderung an die Schwierigkeit haben, die müssen auch heterogen sein, sonst funktioniert die Messung nicht so gut, und die den Hauptgütekriterien genügen.
Um Ihnen eine grobe Einordnung zu geben in das, wie diese Werte aussehen können und wie man die dann klassifiziert, habe ich hier die Tabelle von Fisseni, einem mittlerweile emeritierten Persönlichkeitspsychologen und Diagnostiker aus Bonn, mal wiedergegeben.
Über Trennschärfen haben wir gesprochen, über Schwierigkeiten.
Da sehen Sie hier, wie die Werte einzuschätzen sind.
Objektivität, also Auswertungsobjektivität kann man quantifizieren in Zahlen.
Hier sehen Sie die Werte.
Reliabilität, muss ich dazu sagen, unter Punkt 80 niedrig.
Das ist ein bisschen strikt.
Also man kann sagen, im Persönlichkeitsbereich sind Werte um Punkt 80 sehr erfreulich.
was die Reliabilität angeht.
Im Intelligenzbereich ist man strenger und sagt, da wäre es schön, wenn man Punkt 90 hätte, um glücklich zu sein.
Wenn wir uns die Validitäten anschauen, das wäre jetzt also die Kriteriumsvalidität, es gibt ja verschiedene Arten von Validität, worüber wir noch sprechen werden, findet man hier, Werte unter Punkt 40 sind gering, 40 bis 60 Mittel und Höherpunkt 60 ist hoch.
Wobei im Persönlichkeits- und Intelligenzbereich erreicht man diese Werte mit Außenkriterien ganz selten.
Man kann sie sehr wohl erreichen, wenn man andere Tests als quasi Außenkriterien hernimmt.
Aber mit anderen Außenkriterien ist es ganz schwierig, das zu erzielen.
Und Größe der Eichstichprobe, das hat natürlich zu tun mit dem Normierungsprozess.
Unter 150 ist klein.
Das wäre üblicherweise so eine Diplomarbeit-Stichprobe.
150 bis 300, mittel über 300 hoch.
Wenn Sie einen Persönlichkeitstest auf den Markt bringen wollen, der einigermaßen bevölkerungsrepräsentativ und gut normiert ist, brauchen Sie in der Regel mindestens 1.000 Personen.
Also ein sehr guter Persönlichkeitstest, zum Beispiel der NeopDR, der ist mit 10.000 Personen gelaufen.
Der 16 PFR von Herrn Schneewind ist mit einer super Stichprobe gelaufen.
Vom Umfang her waren es, glaube ich, 1.800 Leute, die mit einem Markt- und Meinungsforschungsinstitut erhoben wurden.
Was natürlich ein Kostentreiber ist.
Aber da wissen Sie ungefähr, in welcher Größenordnung man das einzuordnen hat, wenn man im Persönlichkeitstestbereich da was machen will.
Da sind diese Kriterien hier ein bisschen soft dagegen.
So, jetzt schauen wir uns noch eine Messfehlertheorie an.
Dazu möchte ich eingangs noch sagen, wir haben über die homomorphe Art der Abbildung des empirischen Relativs im numerischen Relativ gesprochen.
Wir wissen, es kann Sand ins Getriebe kommen, quasi in diesem Messprozess.
Das heißt, es kommen Messfehler rein.
Und eine wichtige Theorie zum Messen ist die klassische Testtheorie.

Ist Ihnen die schon mal über den Weg gelaufen?

Da sehe ich jetzt keine zustimmenden Gesichter.

Sie sagen ja oder nein?

Ja, okay, Sie haben schon Vorwissen.

Wer hat da schon Vorwissen?

Würden Sie bitte die Hand heben?

Okay, das sind, okay.
Diejenigen, die die Hand gehoben haben, das waren vielleicht so 20 Personen, haben das so ein bisschen zögerlich getan.
Das heißt, daraus interpretiere ich mal aus Ihrer Reaktion, schließe ich auf die Merkmalsausprägung Kenntnisse in Testtheorien und verorte die als eher erweiterungsfähig.
Okay, vielleicht habe ich jetzt einen Fehlschluss gemacht, aber ich traue mich mal, das so zu interpretieren.
Das heißt, Messfehler können passieren und die klassische Testtheorie, auch KTT abgekürzt, ist nun nichts anderes als eine Theorie darüber, wie Messfehler sich, sagen wir mal, verhalten können.

Also Sie kennen den alten Physiklehrerspruch, wer misst, misst, misst, Ist er Ihnen über den Weg gelaufen vielleicht?

Auf jeden Fall stimmt er im Kern.
Also mein Physiklehrer, das war so ein bisschen so ein Scherzkeks und der hat das gebracht und er hat Recht in der Sache.
Deshalb war es zum Beispiel in der Physikklausur verpönt, wenn man schwierige Klausuren berechnet hat mit Taschenrechner, das Display abzuschreiben, also mit acht Nachkommastellen.

Sie erinnern sich?

Warum hat da der Physiklehrer gesagt, es gibt Punktabzug?

Wenn Sie im Endergebnis so 8 Nachkommastellen-Ergebnisse angeben, bei einer einfachen Berechnung, was weiß ich, zur Gravitation oder so, bitteschön.
Das ist der gemessene Wert, also die Konstante, von der man aufgeht, eh immer nur auf 2-3 Nachkommastellen gemessen worden ist und die wie so schon Rundungsfehler dann drin sind.
Exakt, das ist der Punkt.
Also man suggeriert damit eine höhere Genauigkeit, wenn man das Endergebnis zum Beispiel bei so einem Gravitationsexperiment mit so vielen Nachkommastellen angibt, die gar nicht vorhanden ist.
Ja, und da stößt sich dann der Physiker dran.
Weil man soll nichts vortäuschen, was nicht so ist.
Man soll nicht vortäuschen, man könnte so genau messen, wie das Taschenrechner-Display das angibt.

Okay?

Und das gilt in der Psychologie auch.
Das heißt, auch die Physiker wissen, oder Naturwissenschaftler generell, wer misst, macht zumindest teilweise auch einen Messfehler.
Natürlich wünscht man sich, dass dieser Messfehler möglichst klein ist.
Aber wenn schon die Physiker davon ausgehen, dann müssen wir als Psychologen zum jetzigen Stand unserer Disziplin auch davon ausgehen, dass es den gibt.
Und deshalb gibt es diese klassische Testtheorie, die nichts anderes ist als eine Theorie darüber, wie der Messfehler sich verhält.
Und die schauen wir uns jetzt im Folgenden an.
Weil die Implikationen hat, das ist natürlich wichtig, für das, wie wir Persönlichkeitsmerkmale erfassen.
Und wie wir Persönlichkeitstestergebnisse interpretieren können.
Das heißt, wir leiten kurz mal her, das klassische testtheoretische Modell, was an die Messtheorie, die wir schon besprochen haben, anknüpft.
Und das Ganze wird in axiomatischer Form.
Was ein Axiom ist, besprechen wir gleich.
Oder vielleicht am besten sogar jetzt, denn die Folie gibt es hierher.
Axiome Hier ist es mal in fünf eingeteilt, sind Festsetzungen, das heißt Definitionen, deren empirische Adäquatheit zunächst unbewiesen bleibt.
Das heißt, es sind Aktionen, es sind willkürliche Setzungen.
Und wenn Sie sagen, etwas wird willkürlich so gesetzt, dann sind Sie als empirische Sozialwissenschaftlerin wahrscheinlich dabei, dass Sie sagen, okay, naja, Dogmen wollen wir aber nicht haben in unserer Disziplin, das müssen wir schon überprüfen, ob das stimmt.
Und ich bin da ganz bei Ihnen, wenn Sie so denken.
Das ist ein Kritikpunkt an der klassischen Testtheorie, die dazu geführt hat, dass man sich mittlerweile sehr stark für die probabilistische Testtheorie, die neuere Version war, auf die wir hier nicht ordentlich eingehen, aber dass man sich auf die stärker konzentriert hat, weil die einige theoretische Vorteile hat.
Aber zunächst mal gehen wir zu den Klassikern zurück.
Ich sage Ihnen, 95 Prozent aller weltweit auch taugigen Tests sind nach der klassischen Testtheorie konstruiert.
Das heißt, die klassische Testtheorie ist ein wahrer Klassiker, zu dem Sie etwas sagen können sollten.

Also Axiome sind Grundannahmen, die zunächst nicht bewiesen werden, willkürliche Setzungen.

Es gibt einen fixen Gesamtüberblick jetzt über diese fünf Axiome.
Man kann die auch zu drei oder vier zusammenfassen.
Meistens, ich finde es am besten, man macht es dann feingliedriger mit fünf.
Sie sehen hier also jetzt kryptische Abkürzungen.
Das erste Axiom, springen wir mal weiter, besagt folgendes.
Ein Wert X setzt sich zusammen aus einem wahren Wert und einem Fehlerwert.

Was heißt der Index?

J steht für eine Person, wenn Sie so wollen, für die Person Jutta.
Das heißt, die Person Jutta macht einen Test und erhält ein Intelligenztestergebnis von sagenhaften 130.
Die klassische Testtheorie sagt, dieses numerische Relativ setzt sich zusammen aus einem Anteil der Jutas wahre empirische vorhandene Intelligenz wiedergibt und ein Messfehler wird, denn sie wissen ja, wer misst, misst, zumindest auch teilweise, Klammer zu, misst, und ein Messfehleranteil.
Das heißt, Flapp sich formuliert, an dem Messergebnis von Juta ist was wahres dran und ist auch Blödsinn dabei.

Beispiele haben wir eben schon genannt.

Nochmal kurz zusammenfassen.
Das beobachtete Intelligenztestergebnis einer Person setzt sich zusammen aus ihrer wahren Intelligenz und Messfehler-Effekten, zum Beispiel wegen Müdigkeit, Unkonzentriertheit, schlechtem Testverfahren.
Sie erinnern sich an die eingangs gezeigte Folie von meinem Kollegen.

Was heißt nun Messfehler?

Wenn die KTT eine Messfehler-Theorie ist, dann sollten wir kurz noch darüber reden, was ist ein Messfehler?

Ein Messfehler ist nämlich, oder umfasst die Gesamtheit aller unsystematischen und nicht kontrollierbaren oder vorhergesagten potenziellen Einflussgrößen auf das Messergebnis.
Also wichtig ist hier der Sachverhalt, dass es sich um einen unsystematischen Einfluss handelt.
Zweite Aktion.

Was ist die zweite Grundannahme?

Der bei häufiger Messwiederholung erwartete Mittelwert, hier µ genannt, der Messfehler ist 0.

Was heißt das jetzt?

Ganz einfach.
Das heißt, dass bei wiederholten Testanwendungen unter identischen Bedingungen zu einem Fehlerausgleich kommt und der gemittelte Testwert bei einer Person über alle Messungen dem wahren Wert nahezu entspricht.
Da gibt es ein Problem, wenn man das überprüft, nämlich Reaktivität der Messung.
Der Gedanke, der theoretische Gedanke, der dabei, was heißt Reaktivität der Messung, während des Messens ändert sich der Sachverhalt bei der Person.
Wenn ich Ihnen jetzt einen Intelligenztest vorgebe, fiktiv, in zwei Stunden nochmal und weitere zwei Stunden später nochmal, dann haben Sie natürlich unterwegs was gelernt, sodass sich Ihr Ergebnis allein deshalb ändern wird.
Stellen Sie sich bitte jetzt mal vor, schrecklicherweise, Sie würden nichts dabei lernen.
Dann würde das Axiom davon ausgehen, bei der ersten Messung mache ich vielleicht einen Fehler dahingehend, dass ich Ihre Fähigkeit überschätze, weil Sie gut geraten haben.
Sagen wir mal, Sie hätten einen IQ-Wert von 130 und im ersten Testverfahren erhalten Sie den Wert 138.
Dann hätten Sie sozusagen, wurde der wahre Wert 130, ist in der 138 drin, plus ein positiver Messfehler zu Ihren Gunsten von 8 IQ-Punkten.
Dann kann es sein, zwei Stunden später, angenommen Sie hätten nichts gelernt, also die Messung wäre nicht reaktiv, unterschätze ich Ihre Leistungsfähigkeit, weil Sie bei den Aufgaben, die Sie nicht mehr geschafft haben, diesmal schlecht geraten haben, um 120.
Und beim nächsten, bei der dritten Messung, bin ich vielleicht bei 132.
Dann kann ich also aus den Messungen 138, 120 und 132, wenn ich die drei Werte mittele, Also wenn ich die zusammenrechne und durch drei teile, dann bin ich so Pi mal Daumen bei ungefähr 130 und dann entspricht der gemittelte Wert der Testergebnisse, die sie erzielt haben, annähernd ihrem wahren Wert.

Was hat das mit diesem zweiten Axiom zu tun?

Es geht davon aus, dass sich bei wiederholter Messung die Messfehler zu Null rausmitteln.
Nach dem Motto, nach mehrmaliger Messung dass das gemittelte Testergebnis ihrem wahren Wert entspricht.
Weil der Fehler, so sagt das zweite Axiom, zu null tendiert.

Okay?

Das steckt an der Denke im zweiten Axiom.

So, das dritte Aktion geht nun auf einen anderen Aspekt ein.

Es sagt nämlich, die Höhe des Messfehlers ist unabhängig vom wahren Ausprägungsgrad des getesteten Merkmals.
Das heißt, wahrer Wert und Messfehlerwert sind unkorreliert.
Also wie hoch der Messfehler ist, den ich mache bei jeder einzelnen Messung, hat nichts mit ihrer Merkmalsausprägung und nichts mit ihrer Merkmalsausprägung per se, also dem empirischen Relativ, zu tun.
Zum Beispiel Fehlereinflüsse durch die Tagesform sind bei Personen mit hoher und niedriger Intelligenz in gleicher Weise wirksam.
Ob das so sinnvoll ist, in allen Fällen, das kann man jetzt kritisieren, kann man hinterfragen, ist auch gut, wenn Sie das tun, das entspricht bester wissenschaftlicher Gepflogenheit.
Aber wir nehmen es zunächst mal so hin, es ist ja ein Aktion.
Das vierte Aktion besagt, Die Höhe des Messfehlers ist unabhängig vom Ausprägungsgrad der Warenwerte T anderer Tests.
Das heißt im Beispiel, die Messfehler eines Intelligenztests sollten zum Beispiel nicht mit Testangst oder Konzentrationsfähigkeit korrelieren.

Tja, ob das so ist, darf bezweifelt werden.

Und schließlich das fünfte Axiom.

Die Messfehler bei verschiedenen Testanwendungen sind voneinander unabhängig.
Das heißt, ihre Messwerte sind unkorreliert.
Das heißt, Personen, die bei einer Testanwendung besonders müde sind oder hohe Testangst haben, sollten bei einer Testwiederholung keine analogen Effekte zeigen.
Weil der Messfehler zum Zeitpunkt 1, wo ich müde war und der mein Ergebnis verzerrt hat, hat nichts zu tun, so sagt das Axiom, mit dem Messfehler zum Zeitpunkt 2.
Und dann bin ich ja wieder frisch beispielsweise.
Insofern, Messfehler heißt ja unsystematisch, hatten wir ja gesagt, nicht systematische Einflüsse.
Deshalb glauben die klassischen Testtheoretiker, so es sie in dieser Form noch gibt, dass das fünfte Axiom auch seine Berechtigung hat.
So, also Sie haben jetzt über fünf willkürliche Annahmen und grundsätzliche Konzepte etwas erfahren.
Zum einen, weil das wichtig ist und zum anderen, weil man daraus jetzt mathematisch exakt die exakte Herleitung erspare ich Ihnen, aber weil man daraus Schlüsse ziehen kann, die für die psychologische Diagnostik und damit für uns als Persönlichkeitspsychologen wichtige Implikationen haben.
So, das sehen Sie jetzt nämlich an der Folie Ableitung aus den Axiomen.
Aus diesen fünf Axiomen kann man jetzt mathematisch korrekt, wenn man die Axiomatik für gültig erachtet, was in manchen Punkten fraglich ist, aber wenn man sie für gültig erachtet, kann man Folgendes herleiten.
nämlich das Gütekriterium Reliabilität.
Die ist nämlich folgendermaßen definiert.
Die Reliabilität R gibt den Anteil der Varianz der wahren Werte und der Varianz der beobachteten Werte an.
Das heißt, ich zeige Ihnen das mal folgendermaßen.
Also das ist, ich zeige Ihnen das gleich noch mit einer kleinen Animation auf der nächsten Folie.
Das sollten Sie verinnerlichen.

Wenn man Sie fragt, was ist Reliabilität?

Dann wäre es schön, wenn Sie den Merksatz parat hätten, ist die Varianz, der Anteil der Varianz der wahren Werte an den beobachteten Werten.
Denn Sie wissen, es gibt ja in der klassischen Testtheorie diese drei Kategorien, wenn Sie so wollen.
Es gibt beobachtete Messwerte.
Die beobachteten Messwerte sind ja in der Regel Messfehler behaftet, weil Sie ja mit jeder Messung, Sie erinnern sich an den Physiklehrerspruch, einen Fehler machen.
der unterschiedlich groß sein kann.
Das heißt, das ist die Varianz der beobachteten Werte.
Also wir sagen im Intelligenztestbeispiel, ich teste Sie alle in Intelligenz, habe von jedem von Ihnen ein Testergebnis, diese Daten, da kann ich eine Varianz berechnen, die dann voll ist, einfach eine einfache Deskriptivstatistik ergibt und meinetwegen 200 IQ-Ergebnisse in SPSS sein und sage, liebes SPSS, gib mir eine Varianz aus.
Wenn ich das mache, habe ich die Varianz der beobachteten Werte.
So, und jetzt ist es so, wenn ich jetzt auch noch Ihre wahren Werte wüsste, denn der Diagnostiker möchte ja gerne den wahren Wert, wenn Sie so wollen, umzingeln, einkreisen, möglichst kleinen Bereich rausschälen, wo man sagen kann, zu 95 Prozent.
Das ist das Thema Konfidenzintervalle.

Liegt der wahre Wert in Intelligenz einer Person in diesem Intervall, zum Beispiel zwischen 125 und 135?

Damit kann ich arbeiten als Diagnostiker.
Also ich möchte aufgrund von den beobachteten Werten, die ich habe, den Wertebereich der bewahren Werte möglichst eng umzingeln.
Das ist die Idee.
Ja, das heißt, zurückzukommen auf die Folie, die direkt hinter mir steht.
Varianz der Warenwerte haben wir nicht direkt.
Aber angenommen, ich hätte sie in einer fiktiven Welt, ich hätte schon diesen Mechanismus, dass ich ihnen auf dem Kopf zusehen kann, wie intelligent sie sind.
Dann könnte ich die Werte auch hernehmen, auch wieder in SPSS eingeben, die Varianz berechnen und dann diese beiden Varianzen zueinander in Beziehung setzen, genau wie es hier in der Formel genannt ist.
Und wenn ich das gemacht habe, dann könnte ich die Reliabilität auf diese Art und Weise schätzen.
Das heißt aber, von der Grunddenke, selbst wenn Sie die Varianz der wahren Werte nicht direkt haben, sollten Sie diese Gleichung verinnerlichen.
Weil sie im Kern das wiedergibt, was die klassische Testtheorie, also die Theorie, mit denen fast alle Tests arbeiten, ausdrückt.
Das heißt, wir haben hier ganz einfach die Formel nochmal angegeben.
Die wahre Varianz wird ins Verhältnis gesetzt zur Gesamtvarianz.
Also Sie können auch sagen, wahre Varianz ist nichts anderes als ein Begriff für die Varianz der wahren Werte, wie eben bezeichnet.
Und die Gesamtvarianz ist die Varianz der beobachteten Werte, also die Varianz der Testergebnisse.

Und Sie sehen, wie ist demzufolge wohl der Wertebereich der Reliabilität?

Da kann er eigentlich nur zwischen 0 und 1 schwanken.
Und Sie sehen dann, die Reliabilität ist dann perfekt.
Das heißt, die Messpräzision ist auf höchstem Niveau, wenn die wahre Varianz, der Anteil der wahren Varianz an der gesamten Varianz den Wert 1 ergibt.
Wenn nämlich die gesamten, wenn der Fehler 0 wird.
Also wenn ich überhaupt keinen Messfehler mache, dann wird dieser Quotient 1.
Macht Sinn, wenn ich messe, je präziser, umso weniger Messfehler ich mache, mache ich überhaupt keinen Fehler, messe ich maximal präzise, also kommt hier 1 raus.
Also Sie sehen, die Beschäftigung mit den 5 Axiomen erlaubt dann diese Schlussfolgerung, die Sie jetzt gerade hinter mir projiziert sehen.
Das heißt, ein Reliabilitätskoeffizient von zum Beispiel Punkt 80, was wir hier als wünschenswerte Zielgröße für einen Persönlichkeitstestskala definiert hatten, gibt also demzufolge an, dass die beobachtete Varianz der Testwerte zu 80 Prozent auf wahre Unterschiede den wir ja auf der Spur sind als Diagnostiker, den wahren Unterschied, aber wir machen ja den Umweg, wie Sie wissen, und dieser Umweg ist fehleranfällig, zurückzuführen und zu 20% auf Fehlervarianz beruht, also Störeinflüsse, Messfehler.
Und diese Übungsaufgabe, Sie sehen das auch hier unten, diese Folien entstammen meiner Vorlesung Testtheorien, diese Übungsaufgaben machen wir jetzt nicht.
Weil rechnen können brauchen Sie es noch nicht direkt, aber Sie dürfen sich darauf freuen, das kommt im Hauptstudium auf Sie zu.
Ist aber auch nicht weiter schwierig.
Die Formel sollte Sie als versierte Mathematiker aus der Schule auf keinen Fall abschrecken.
Das ist ja ein richtig easy Quotient.
So.
Wie Sie gesehen haben, wir machen viele Aussagen über Messfehler in der klassischen Testtheorie und deshalb ist es auch gerechtfertigt zu sagen, die klassische Testtheorie ist eine Messfehlertheorie.
weil sie genau über diesen Gegenstand ja Aussagen macht.
Wichtig ist hier für uns als Persönlichkeitspsychologen ist die Grundüberlegung, psychologische Diagnostik und Tests, also auch Persönlichkeitstests, nicht verantwortlicherweise ohne Betrachtung des Messfehlers betreiben zu können.
Das heißt, aufgrund der Schlusslogik, Stimulusvorgabe, Reaktion der Probanden, Rückschluss von der Reaktion auf die Merkmalsausprägung.
Aufgrund dieser Logik und des Grundwissens, was Sie erworben haben, Sie denken an den Physiklehrerspruch, es ist so, dass wir wissen müssen, dass wir Messfehler machen.
Und diese Messfehler, die wir machen, müssen wir einbeziehen in die verantwortliche Diagnose, die wir zum Beispiel über die Persönlichkeit eines Probanden fällen.
Das heißt, wir dürfen nicht den Messfehler nicht außer Augen lassen, denn er schmälert die Aussagekraft unserer Diagnose.
Je größer der ist, desto wackeliger ist unsere Diagnose.
Das müssen wir wissen.
Ganz konkretes Beispiel.
Auf Grundlage von Testverfahren werden Schulkarrieren entschieden, unter anderem.

Wenn es darum geht, kommt ein Kind auf die Sonderschule oder kann es in der Regel Hauptschule verbleiben?

Da werden Weichen gestellt im Lebenslauf einer Person.
Hier ein Beispiel eines Schülers.
Wenn Sie jetzt einen Intelligenztest vorgeben, oder man macht es dann in der Regel zwei, verschieden, und Sie können das Konzept des Messfehlers nicht richtig verstehen oder noch nicht richtig verstehen, ist Ihre Diagnose wackelig.
Und bitte bedenken Sie, anhand dieser Diagnose können Sie wichtige Weichen im Leben von Menschen stellen.
Insofern muss man, wenn man verantwortlich vorgeht, wissen, was man tut.
Und wissen, was man tut, heißt, sich bewusst zu sein der Schwächen im diagnostischen Prozess, will sagen, des Messfehlers.
Deshalb braucht man zum Beispiel auch Konfidenzintervalle.

Wie ist zum Beispiel das 95-prozentige Konfidenzintervall einer Person, die den IQ-Wert 120 hat?

Das können Sie jetzt nicht wissen, weil Sie die Rohdaten nicht haben, aber das zu berechnen, müssen Sie zügig imstande sein.
So versucht man, die wirkliche Aussagekraft und die Implikationen, die die Diagnosen haben, die auf Grundlage der Tests durchgeführt werden, die wir nutzen, kritisch einzuschränken.
Das heißt kompetenter Umgang zum Beispiel mit dem Messfehler.

Okay?

Also der Physiklehrerspruch ist schon auch stark berechtigt.
Trotzdem führt er Messungen nicht ad absurdum per se.
Das ist auch klar.
Aber man muss zumindest wissen, dass es dieses Phänomen Messfehler gibt und dass wir damit kompetent umgehen müssen und es auf keinen Fall übergehen können.

Gut.

Das heißt, wir fassen noch mal zusammen, was ist ein Standardmessfehler in drei verschiedenen Formulierungen.
Suchen Sie sich dann bitte die aus, die Ihnen am besten zusagt.
Hauptsache, Sie verinnerlichen das Konzept, was dahinter steht.
Also der Standardmessfehler ist derjenige Anteil an der Streuung eines Tests.
Also es gibt offensichtlich wieder interindividuelle Unterschiede.
Wir unterscheiden uns zum Beispiel im Bereich Extraversion.
Ich gebe wieder die Daten von Extraversion für uns alle untereinander in SPSS ein und sage, liebes SPSS, berechnen wir die Varianz.
Wenn wir uns unterscheiden, gibt es eine Varianz.
Sie wissen, wenn wir alle gleich wären, in Extraversion hätten wir die Varianz von 0.
ist also derjenige Anteil an der Streuung eines Tests, also wenn Sie wollen auch der Varianz eines Tests, der zu Lasten seiner gewöhnlich nicht perfekten, also unvollständigen Reliabilität geht.
Also, Sie sehen schon wieder, wenn die Reliabilität nicht gleich 1 ist, muss irgendwo ein Messfehlerchenanteil noch dabei sein, der unterschiedlich groß oder klein sein kann.
Er ist gleichzeitig auch ein Maß für den Anteil der Fehlerstreuung an der Streuung von Messwerten.
So kann man es auch fassen.
Oder er gibt die Streuung der beobachteten Werte um die entsprechenden wahren Werte bei Messwiederholung einer Person an.
Auch so können Sie es fassen.
So, jetzt gehe ich auf ein Phänomen ein, was auch noch der Hasenlob aufgegriffen hat.
Es hat zu tun mit dem Punkt Reliabilität und Testlänge.
Wir hatten schon gesprochen darüber, Tests, also umfängliche Persönlichkeitstests, haben häufig so eine Länge von ungefähr 200 Items.
Sie wissen, prinzipiell wollen wir möglichst kurze und aussagekräftige Tests haben.
Offensichtlich hat sich aber gezeigt, dass man eine gewisse Länge braucht, um für so ein komplexes Konstrukt wie Persönlichkeit Aussagen auf solider Basis treffen zu können.
Das heißt, wir schauen uns jetzt mal an, wie hängt die Testlänge zusammen mit der Reliabilität.
Sie wissen, wir wollen eine möglichst hohe Reliabilität ja haben, damit wir eine gute Ausgangsvoraussetzung dafür haben, auch eine hohe Validität, die ich ja mal so flapsig als das Allerheiligste bezeichnet habe, zu erreichen.
Okay.
Schauen wir es uns an.
Es lässt sich zeigen, dass zum Beispiel mit der Verdopplung der Testlänge, das heißt der Itemzahl, Wichtig ist, in Einheiten von homogenen beziehungsweise äquivalenten Testaufgaben, also die Aufgaben müssen gleiche Qualität haben, sonst funktioniert das nicht.
Das funktioniert nicht mit schlechten Aufgaben.
Eine Vervierfachung der wahren Varianz einhergeht, während sich die Fehlervarianz nur verdoppelt.
Das heißt, wenn ich die Extraversionsskala mit zehn Items verdopple, habe ich ja eine Extraversionsskala mit dann 20 Items, die wie gesagt die gleiche Qualität haben müssen wie die ersten 10.
Dadurch steigt die wahre Varianz stärker an als die Fehlervarianz und wenn das so ist, können Sie gerade noch mal mental den kleinen Quotienten, den wir gerade besprochen haben, zücken und Sie werden feststellen, oh, wenn das so ist, na dann wächst ja, muss ja die Reliabilität größer werden, weil das was im Zähler steht, wird ja größer als das was im Nenner steht, demzufolge wird der Quotient größer.
Das kann man sich jetzt zunutze machen.
Deshalb werden Tests gelegentlich verlängert, um sie reliabler zu bekommen.
Sehen Sie hier, da die Reliabilität als Anteil der wahren Varianz an der Gesamtvarianz definiert ist, würde dies eine Verdopplung der Reliabilität bedeuten.
Diese mathematische Ableitung hat sich auch empirisch gut bestätigen lassen, was für eine Angemessenheit der Axiome der klassischen Testtheorie spricht.
Also hier gibt es empirische Unterstützung für die Axiomatik, an anderer Stelle gibt es auch Kritik für die Axiomatik.
Aber die klassische Testtheorie ist vielleicht keine perfekte Betrachtungsweise, aber sie ist enorm praktisch handhabbar und praktisch nützlich.
Und das zeigt sich hier.
Es gibt da eine Formel, die brauchen Sie jetzt aber nicht auswendig lernen, da reicht es mir, wenn Sie im Kern verstanden haben, worum es dabei geht.
Praktische Berechnungen folgen wieder im Hauptstudium.
Die Herren Spearman und Brown haben sich zusammengetan und wollten jetzt gerne wissen, was passiert eigentlich, die wird auch übrigens Prophecy-Formel genannt, weil ich prophezeie, was passieren wird mit meiner Reliabilität zu meinem Konstrukt, was ich empirisch untersuche, wenn ich es verkürze oder verlängere.
Es geht gleichermaßen.
Sie können damit sozusagen simulieren, was wäre, wenn.

Was wäre zum Beispiel mit meiner Reliabilität?

mit meiner Reliabilität, wenn ich die Itemanzahl verdoppeln würde, verdreifachen würde, vervierfachen würde oder auch halbieren würde.
Das funktioniert auch.
Das können Sie mit dieser Formel simulieren.
Die Spearman-Braum-Formel macht also Aussagen darüber, wie der Zusammenhang zwischen Ausgangsreliabilität, Testverlängerung, das kann auch eine Testverkürzung sein, wenn Sie sagen, der Testverlängerungsfaktor ist 0,5, ist es de facto eine Testhalbierung.
Und der neuen Reliabilität, die dann zu erwarten wäre, lässt sich wie folgt berechnen.
Sie sehen das hier.
Wenn man das grafisch veranschaulicht, und das möchte ich gleich in einer der folgenden Folien tun, dann zeigt sich, dass der Reliabilitätszuwachs, wenn Sie es technisch formulieren wollen, die inkrementelle Reliabilität, Das Inkrement ist sozusagen der Zugewinn.
Den Begriff gibt es auch im Bereich Validität.
Inkrementelle Validität gibt es auch, also ein Validitätszuwachs.
Umso größer ist, je geringer die Ausgangsreliabilität ist.
Das will sagen, wenn Ihr erster Wurf des von Ihnen konstruierten Testverfahrens nichts getaugt hat, das wäre noch nicht mal schlimm, das ist häufig der Fall im Rahmen einer Testkonstruktion, dann ist es relativ einfach, durch eine Testverlängerung das vielleicht unakzeptable Reliabilitätsniveau, sagen wir von Punkt 60 zu Ihrem persönlichen Extraversionstest zum Beispiel, zu heben auf Punkt 80.
Das geht noch relativ leicht.
Aber es wird ziemlich schwierig, wenn Sie schon von Punkt 80 starten und Sie wollen auf Punkt 85 oder Punkt 90 kommen.
Grafisch veranschaulicht sieht es dann so aus.
Sie sehen das hier.

Also Sie erkennen zunächst mal, hier ist dieser Testverlängerungsfaktor abgetragen.

Also die Verkürzung ist jetzt hier nicht aufgeführt, weil der Faktor immer größer 1 ist.
Sie sehen hier Faktor 1, 2, 3, 4, Verfünffachung.
Und Sie sehen hier den Reliabilitätskoeffizienten des verlängerten Testes.
Also den sehen Sie hier jeweils in den Linien.
Und das Ausgangsniveau.
Das Ausgangsniveau, angenommen Ihr erster Wurf des Tests, hatte eine Reliabilität von Punkt 5.
Das ist ja nicht so der Bringer, wenn ich das mal so sagen darf.
Dann können Sie herausfinden, anhand dieser schicken Formel, was muss ich tun, um zumindest auf Punkt 7 zu kommen, damit ich mich von meinem Diplomarbeitsbetreuer nicht schämen muss.

Also angenommen Sie Ihre entwickelte Extraversionsskala hat zum ersten Entwicklungsschritt nur eine Reliabilität von Punkt 5 und Sie sagen aber unter Punkt 7 kann ich gar nicht gut schlafen, wie lange muss ich die Skala dann verlängern?

Dann kommen Sie hier ungefähr auf den Faktor 2,3.
Das heißt, wenn Sie bisher 10 Items hatten, dann brauchen Sie, um auf Punkt 7 zu kommen, insgesamt 23 Items, um auf das 0,7er Level zu kommen.
Dann müssen Sie sich also noch 13 gute Items überlegen.
Okay, so funktioniert es.
Und Sie sehen daran, dadurch, dass die Steigung der Kurven, die hier aufgeführt sind, sich unterscheidet.
Die steilste Steigung ist jeweils bei der Kurve, die das geringere Ausgangsniveau abbildet.
Also das Inkrement an Reliabilität, was ich durch Testverlängerung erwirtschaften kann, ist dann besonders hoch, wenn ich auf niedrigem Level anfange.
Sie sehen, das hier ist eine stärkere Steigung als da oben.
Also Sie sehen schon, wenn ich einen Persönlichkeitstest habe mit einer Reliabilität von Punkt 90, das ist meines Erachtens ganz selten der Fall, dass es das überhaupt gibt, dann brauche ich, um den auf 95 zu trimmen oder vielleicht sogar auf 96, 97, muss ich absolut unökonomische Verlängerungen durchführen, wenn ich es überhaupt schaffe, so viele Items zu finden.

Okay?

Das ist eine grafische Veranschaulichung dessen, was die Spearman-Brown-Formel leistet.
So, und ich würde vorschlagen, das bietet sich jetzt an als Zäsur.
Wir beenden die heutige Sitzung.
Ich wünsche Ihnen zwei schöne Wochen.
Beim nächsten Mal ist ja wieder Feiertag.
Das heißt, wir sehen uns in zwei Wochen wieder.
Bis dahin alles Gute.

Persönlichkeits-Psychologie (2)

Key points Points Clés Dicas

Persönlichkeits-Psychologie (2)

Persönlichkeits-Psychologie (2)

Dankeschön.

Könnten Sie mir bitte sagen, ob die Folien schon online sind?

Ist das von Ihrer Seite auch so?

Ist die Angelegenheit so für Sie geklärt?

Oder richten sich da noch Fragen an mich in diesem Punkt?

Gibt es dazu noch Fragen?

Also Sie können mitschreiben.

Gut, ich lasse das kursieren.

Keine weiteren Fragen?

Zunächst mal schauen wir uns mal an, was sind eigentlich Test-Items?

Was ist das für ein Testverfahren offensichtlich?

Zu welcher Testklasse gehört der?

Das heißt, wir können zusammenfassen.

Aber die Begriffe, die wir noch klären müssen, ist nun, was ist eine Testskala noch?

Was ist nun eine Testbatterie?

So, was ist jetzt die …

Wovon geht die aus?

Die Grundfrage der Messtheorie ist, welche empirischen Sachverhalte können durch welche numerischen Strukturen angemessen abgebildet werden?

Wie ist nun die Beziehung idealerweise gestaltet zwischen der Unterschiedlichkeit und der Zahl?

So, das heißt, warum brauchen wir überhaupt eine Theorie fürs Testen?

Warum sind häufig Experimentallabore in so fensterlosen Räumen akustisch abgeschirmt?

Haben Sie schon mal gehört, ne?

Und worauf möchte man jetzt zurückführen, dass diese Reaktionszeiterhöhung zustande kam?

Der Persönlichkeitspsychologe würde jetzt fragen, okay, bei welchen Leuten war die Reaktionszeit Latenz, also die Verzögerung, bis derjenige diese instruktionsgemäße Übung oder Aufgabe erfüllt hat?

Bei welchen war die besonders hoch?

War das eher bei den Leuten, die ängstlicher sind?

Differenzierung führen wir auch durch.

Die lautet nämlich, misst der Test das, was er messen soll?

Welche Sachen messen wohl noch intellektuelle Leistungsfähigkeit?

Gut, Trennschärfe.

Was heißt Trennschärfe?

Haben Sie dazu schon mal was gehört als Hauptvechler?

Dann können wir es bei einer kürzeren Erläuterung belassen.

Was ist ein Löser und ein Nichtlöser?

Was heißt das jetzt aber bei Persönlichkeitstest im engeren Sinne?

Wenn Sie ankreuzen, ich gehe gerne auf partystarke Zustimmung, sind Sie dann ein Löser oder ein Nichtlöser?

Wie kann ich die nun berechnen?

Gibt es da Vorwissen, an das wir anknüpfen können?

Können Sie das auch schon erläutern?

Das ist jetzt genau der Punkt.

Ihre Kommilitonin sagt jetzt, gut, wenn jetzt die Trennschärfe sehr hoch ist, beispielsweise Punkt 80, dann, wir reden gleich noch drüber, im Verlauf dieser Veranstaltung wahrscheinlich, dann, wie würden Sie intuitiv sagen, was passiert dann oder was ist dann die Gefahr?

Ja, bitte?

Dass die Items redundant sind?

Und welchem Gütekriterium widerspricht das?

Welchem Nebengütekriterium, falls Sie es schon mal gehört haben?

Was sind so übliche Trennschärfen, die man häufig findet in internationalen Persönlichkeitstests, die auch im deutschen Sprachraum vorhanden sind?

Also haben Sie einen guten Begriff?

So, und dann kommt noch Phase 5, Normen erstellen.

Ist Ihnen die schon mal über den Weg gelaufen?

Da sehe ich jetzt keine zustimmenden Gesichter.

Sie sagen ja oder nein?

Wer hat da schon Vorwissen?

Würden Sie bitte die Hand heben?

Also Sie kennen den alten Physiklehrerspruch, wer misst, misst, misst, Ist er Ihnen über den Weg gelaufen vielleicht?

Sie erinnern sich?

Warum hat da der Physiklehrer gesagt, es gibt Punktabzug?

Okay?

Also Axiome sind Grundannahmen, die zunächst nicht bewiesen werden, willkürliche Setzungen.

Was heißt der Index?

Beispiele haben wir eben schon genannt.

Was heißt nun Messfehler?

Wenn die KTT eine Messfehler-Theorie ist, dann sollten wir kurz noch darüber reden, was ist ein Messfehler?

Was ist die zweite Grundannahme?

Was heißt das jetzt?

Was hat das mit diesem zweiten Axiom zu tun?

Okay?

So, das dritte Aktion geht nun auf einen anderen Aspekt ein.

Tja, ob das so ist, darf bezweifelt werden.

Und schließlich das fünfte Axiom.

Wenn man Sie fragt, was ist Reliabilität?

Liegt der wahre Wert in Intelligenz einer Person in diesem Intervall, zum Beispiel zwischen 125 und 135?

Und Sie sehen, wie ist demzufolge wohl der Wertebereich der Reliabilität?

Wenn es darum geht, kommt ein Kind auf die Sonderschule oder kann es in der Regel Hauptschule verbleiben?

Wie ist zum Beispiel das 95-prozentige Konfidenzintervall einer Person, die den IQ-Wert 120 hat?

Okay?

Gut.