Loading AI tools
Testgütekriterium für komplexe Modelle Aus Wikipedia, der freien Enzyklopädie
Validität (lateinisch validus „kräftig“ „wirksam“; englisch validity; auch: Gültigkeit) ist (neben der Reliabilität und der Objektivität) ein Gütekriterium für Modelle, Mess- oder Testverfahren.
Validität bezeichnet in der Empirie die inhaltliche Übereinstimmung einer empirischen Messung mit einem logischen Messkonzept. Allgemein ist dies der Grad an Genauigkeit, mit der dasjenige Merkmal tatsächlich gemessen wird, das gemessen werden soll.[1] Bezüglich Modellen und Hypothesen bezeichnet Validität die Übereinstimmung von Prognose respektive Schlussfolgerungen und Daten.
Dabei unterscheidet man zwischen einem Repräsentationsschluss (wenn das Testverhalten repräsentativ für Gesamtverhalten ist) und einem Korrelationsschluss (wenn das Verhalten im Test mit dem Verhalten außerhalb der Testsituation korreliert).[2] Je nachdem, welche Variable als Kriterium für das Verhalten außerhalb der Testsituation verwendet wird, unterscheidet man zwischen inhaltlicher, prädiktiver oder Konstruktvalidität.[3]
Die Validität gehört zu den sogenannten Hauptgütekriterien für Messinstrumente. Sie ist ein Maß dafür, ob die bei der Messung erzeugten Daten wie beabsichtigt die zu messende Größe repräsentieren. Nur dann können die Daten sinnvoll interpretiert werden.
Neben der Validität gehören die Objektivität (Unabhängigkeit der Ergebnisse von den Messbedingungen) und die Reliabilität (Zuverlässigkeit, formale Genauigkeit der Messung) zu den drei Haupt-Gütekriterien. Sie bauen aufeinander auf: Ohne Objektivität keine Reliabilität, ohne Reliabilität keine Validität.
Es gibt verschiedene Aspekte der Validität und zugeordnete Mess- und Schätzverfahren.
Vor allem für psychologische Tests finden diese Gütekriterien als Bewertungskriterien der Qualität Anwendung. Ein Test muss so konstruiert sein, dass Durchführung, Auswertung und Interpretation unabhängig vom Testleiter oder den Untersuchungsbedingungen sind (Objektivität) sowie das Testergebnis sich auch mit dem gleichen oder einem vergleichbaren Test bestätigt (Reliabilität). Die Validität oder Gültigkeit ist darauf bezogen, dass z. B. durch einen Intelligenztest wirklich Aspekte der Intelligenz gemessen werden und diese Messung eine Vorhersage der Leistungsfähigkeit im realen Leben (z. B. Ausbildungserfolg oder Berufserfolg) erlaubt. Solche Vorhersagen sind messungsbedingt mit einem Fehler versehen und nur Wahrscheinlichkeitsaussagen – zugleich wird an einigen Inhalten auch Kritik geübt, vgl. z. B. Kritik am Intelligenzbegriff.
In ihren Technical recommendations for psychological tests and diagnostic techniques (1954) schlug die American Psychological Association vier Arten der Validität vor, diese sind Inhaltsvalidität, Konstruktvalidität und prognostische sowie diagnostische Kriteriumsvalidität, von denen „historisch und praktisch gesehen […] die kriteriumsbezogene Validität der bedeutsamste Aspekt“[4] ist. „Die Übereinkunft durch ein Rating ist wie alle Übereinkünfte nicht etwas Abgeschlossenes, sondern kann einem ständigen Wandel unterworfen sein. […] Es bleibt dabei jedem Testinterpreten überlassen, dieses Kriterium anzuerkennen oder zu verwerfen bzw. nach einem besseren zu suchen.“[5]
Inhaltsvalidität (engl. content validity) wird angenommen, wenn ein Verfahren zur Messung eines bestimmten Konstrukts oder Merkmals die bestmögliche Operationalisierung dieses Konstrukts ist. Das ist zum Beispiel bei Interessen- und Kenntnistests der Fall: Eine Klassenarbeit oder Führerscheinprüfung repräsentieren direkt die zu messenden Fähigkeiten. Daher spricht man auch von logischer oder trivialer Validität. Ob Inhaltsvalidität gegeben ist oder nicht, entscheiden Experten per Rating.
Unter dem Begriff Konstrukt werden theoretische Eigenschaftsdimensionen (latente Variablen) verstanden. Konstruktvalidität bezieht sich auf die Zulässigkeit von Aussagen aufgrund der Operationalisierung über das gesamte dahinter liegende Konstrukt. Dies ist in der Regel dann der Fall, wenn der Bedeutungsumfang des Konstruktes vollständig, präzise und nachvollziehbar abgebildet ist. Als empirische Indikatoren der Konstruktvalidität gelten die konvergente sowie diskriminante (oder auch: divergente) Validität:
Sowohl konvergente als auch diskriminante Validität müssen gegeben sein, um einen vollständigen Nachweis der Konstruktvalidität zu gewährleisten. Das empirische Vorgehen bei der konvergenten und diskriminanten Validität sind Spezialfälle der Kriteriumsvalidität.
Bei der Multitrait-Multimethod-Analyse werden die konvergente Validität und die diskriminante Validität anhand einer einzigen Stichprobe miteinander verglichen. Dabei wird verkürzt gesagt erwartet, dass die konvergente Validität größer ist als die diskriminante Validität.
Faktoren für eine verminderte Konstruktvalidität können sein:[6]
Kriteriumsvalidität bezieht sich auf den Zusammenhang zwischen den Ergebnissen des Messinstruments und einem empirischen Kriterium (Schnell, Hill & Esser, 2005, S. 155). Zum Beispiel: Ein Forscher untersucht den Zusammenhang seines neuen Intelligenztests mit den Schulnoten der Probanden, um die Gültigkeit seines Tests zu prüfen. Von „innerer (Kriteriums)validität“ wird dabei dann gesprochen, wenn als Kriterium ein anderer, als valide anerkannter Test herangezogen wird. Sofern als Kriterium ein objektives Maß (zum Beispiel psychophysiologische Maße oder ökonomische Größen) oder ein Expertenrating herangezogen wird, wird von äußerer (Kriteriums)validität gesprochen. Auch lässt sich unterscheiden nach dem Zeitpunkt, zu dem Übereinstimmung mit dem Kriterium vorliegen soll:
Augenscheinvalidität, auch als face validity bezeichnet, hängt davon ab, ob ein Messinstrument auch Laien plausibel erscheint. Augenscheinvalidität sagt nichts über die tatsächliche Validität, also die Inhalts-, Kriteriums- und Konstruktvalidität aus, sondern bestimmt über die Akzeptanz für ein Messverfahren. Auch sehr wenig valide Messinstrumente (wie z. B. unstrukturierte Einstellungsinterviews) erfreuen sich hoher Augenscheinvalidität und werden in der Praxis deshalb häufig eingesetzt.
Aufbauend auf den auf einzelne Konstrukte bezogenen Operationalisierungen ziehen in den meisten empirischen Studien Forscher erst in der statistischen Auswertung und danach im Hinblick auf ihre Kausalhypothesen Schlussfolgerungen über Ursache-Wirkungs-Zusammenhänge. Die Begriffe der statistischen, internen und externen Validität beziehen sich auf das Zustandekommen, die Gültigkeit und die Übertragbarkeit dieser (induktiven) Schlüsse. Der Validitätsgrad dieser Schlüsse lässt sich jeweils nur diskutieren und abschätzen, niemals beweisen, und es ist darum – wie gehabt – sinnvoller, eher vom Validitätsgrad zu sprechen als vom Vorhandensein (oder Nicht-Vorhandensein) dieser Validitätsformen.
Für Aussagen oder in empirischen Studien gezogene Schlussfolgerungen (in der Regel über Ursache-Wirkungs-Verhältnisse) wird ein hoher Grad an statistischer Validität angenommen, wenn die Reliabilität und Teststärke der Messinstrumente und gewählten statistischen Verfahren hoch ist und allgemein die Fehlervarianz begrenzt wurde, die mathematischen Annahmen der statistischen Methoden nicht verletzt wurden und nicht einzelne Signifikanzen (zum Beispiel aus einer Korrelationsmatrix) „herausgefischt“ wurden (Fishing).
Für Aussagen oder in empirischen Studien gezogene Schlussfolgerungen wird ein hoher Grad an interner Validität angenommen, wenn Alternativerklärungen für das Vorliegen oder die Höhe der gefundenen Effekte weitestgehend ausgeschlossen werden können. Interne Validität (oder Ceteris-paribus-Validität) liegt vor, wenn die Veränderung der abhängigen Variable eindeutig auf die Variation der unabhängigen Variable zurückgeführt werden kann (keine Alternativerklärung). Um dies zu gewährleisten, müssen Störvariablen kontrolliert bzw. durch verschiedene Methoden wie Elimination, Konstanthaltung und Parallelisierung ausgeschaltet werden. Damit die Effekte nicht auf Merkmale der Probanden zurückgeführt werden können, müssen diese zufällig den Versuchsbedingungen zugeteilt werden.
Die interne Validität wird gefährdet durch:[6]
Im Englischen existiert hierzu die Eselsbrücke THIS MESS. Dieses Akronym bezieht sich auf acht Faktoren, die Gefährdungen der internen Validität darstellen, nämlich Testing (vgl. Reaktivität), History (Geschichte), Instrument change (Veränderung beim Messinstrument), Statistical Regression toward the mean (Regression zur Mitte), Maturation (Reifung), Experimental mortality (Ausfall), Selection (Selektion durch mangelhafte Randomisierung) und Selection Interaction (Wechselwirkung zwischen Selektion und einem anderen Faktor, z. B. Reifung nur in der Experimentalgruppe).[7]
Die externe Validität – auch Allgemeingültigkeit, Verallgemeinerungsfähigkeit oder ökologische Validität (vgl. Ökologischer Fehlschluss) – bezeichnet die Übereinstimmung von tatsächlichem und intendiertem Untersuchungsgegenstand. Grundidee ist hier die Frage nach der Generalisierbarkeit (Induktion). Nach der klassischen Sicht haben Aussagen oder in empirischen Studien gezogene Schlussfolgerungen einen hohen Grad an externer Validität, wenn sich (a) die Resultate auf die Grundgesamtheit verallgemeinern lassen, für die die Studie konzipiert wurde, und (b) über das konkrete Setting der Studie hinaus auf andere Designs, Instrumente, Orte, Zeiten und Situationen übertragen lassen, also allgemeingültig, verallgemeinerungsfähig sind. Die häufigste Gefährdung der personenbezogenen externen Qualität (a) liegt in praktischen Problemen bei der Rekrutierung der Informationsträger, also der Personen, die befragt werden, oder der für ein Experiment benötigten Versuchspersonen. Ist ihre Teilnahme erzwungen oder freiwillig? Wie haben sie von der Teilnahmemöglichkeit erfahren (durch Zeitungsanzeige, Aushang usw.)? Was motiviert sie zur Teilnahme (interessiert sie das Thema, brauchen sie das Geld usw.)? Dies sind Filter, die die Qualität der Stichprobe einschränken können. Die häufigste Gefährdung der situationsbezogenen externen Qualität (b) liegt in der Künstlichkeit von Laborexperimenten.[8]
Die externe Validität erhöht sich mit jeder erfolgreichen Replikation der Befunde, denn durch die Wiederholung mit anderen Probanden (Altersgruppe, Geschlecht, Kultur usw.) oder Variationen der Versuchsbedingungen werden die Einschränkungen für die Gültigkeit der Befunde geringer. Beispiel: Solange Pawlow nur gezeigt hatte, dass Hunden beim Erklingen einer Glocke das Wasser im Munde zusammenläuft, wenn die Glocke zuvor oft genug gleichzeitig mit der Gabe von Futter erklang, hat er eben nur das gezeigt. Vom Phänomen der klassischen Konditionierung kann man erst sprechen, wenn viele Arten von Subjekten viele Arten von bedingten Reaktionen auf viele Arten von bedingten Reizen zeigen. Für die statistische Auswertung von Replikationsstudien steht die Methode der Metaanalyse zur Verfügung.
Aus dieser klassischen Sicht stehen interne und externe Validität im Widerstreit: Ein hohes Maß an interner Validität erreicht man am besten durch hochkontrollierte und deshalb recht künstliche (Labor-)Bedingungen. Besonders realitätsnahe Forschungsdesigns, wie sie für eine möglichst hohe externe Validität ratsam scheinen, bergen hingegen die Gefahr unkontrollierbarer oder übersehener Störeinflüsse. Aus einer deduktivistischen Perspektive ist dies jedoch nur ein scheinbarer Widerspruch. Da beide Kriterien aus einer induktivistischen Forschungslogik heraus entwickelt wurden, steht die Generalisierung empirischer Befunde (bspw. aus einem Experiment) im Vordergrund. Hier ist die Frage nach der Replizierbarkeit der Ergebnisse unter verschiedenen Bedingungen mit verschiedenen Stichproben eine sinnvolle Frage. Eine deduktivistische Forschungslogik verfolgt jedoch ein anderes Ziel. Hier wird versucht, eine (allgemeingültige) Theorie anhand einer speziellen Vorhersage zu falsifizieren, nicht, wie in einer empiristischen Forschungslogik, eine Theorie durch genügend Beobachtungen zu verifizieren. Widerspricht nach dieser Logik die Beobachtung der Theorie, gilt diese als falsifiziert. Hierbei ist es irrelevant, ob die Ergebnisse in irgendeiner Weise „repräsentativ“ sind. Bestätigt sich die Vorhersage einer Theorie in einem Experiment, gilt die Theorie als bewährt, muss aber weiteren Prüfungen unterzogen werden. Einwände, die die Gültigkeit der Ergebnisse des Experiments in Frage stellen, sind Einwände gegen die interne Validität des Experiments.
Das Forschungsdesign hat einen großen Einfluss auf die Zulässigkeit und Gültigkeit der Kausalschlüsse, darum werden die Validitäten bei experimentellen und quasi-experimentellen Forschungsdesigns immer kritisch hinterfragt.
Der Begriff „Validität“ bezieht sich in der biologischen Nomenklatur auf die formale Gültigkeit eines Taxons (eine systematische Einheit von Lebewesen). Gültigkeit erlangt ein Taxon wenn beispielsweise deren Erstbeschreibung den entsprechenden formalen Ansprüchen genügt (in der Botanik als „gültige Publikation“ bezeichnet). Diese formalen Ansprüche sind in den einzelnen Bereichen der biologischen Nomenklatur erfüllt, wenn die jeweiligen Regel eingehalten worden sind. In der botanischen Nomenklatur sind diese im Internationalen Code der Nomenklatur für Algen, Pilze und Pflanzen (ICNafp) geregelt,[9] in der zoologischen Nomenklatur in den Internationalen Regeln für die Zoologische Nomenklatur (ICZN). Für weitere Regelwerke siehe auch Internationale Regelwerke zur Nomenklatur. Diese Regeln werden von entsprechenden Kommissionen aufgestellt und weiterentwickelt. Im Falle der zoologische Nomenklatur ist dies die International Commission on Zoological Nomenclature. Valide (gültige) Taxa können außer durch Erstbeschreibungen auch durch Wiedererlangung der Gültigkeit von irrtümlich synonymisierten Taxa entstehen. In diesen Fällen wird dies als Revalidisierung bezeichnet. Auch Neukombinationen von mindestens binären Namen können zu validen Taxa führen, z. B. durch die Einordnung einer Art in eine andere Gattung. Außerdem können durch Änderung der Rangstufe neue Taxa entstehen. So kann beispielsweise eine Unterfamilie in den Rang einer Familie erhoben werden. Umgekehrt kann die Validität eines Taxons verloren gehen, etwa wenn es als Synonym zu einem Taxon erkannt wird, welches nach den gültigen Regeln Priorität hat. Auch durch die Veränderung einer Rangstufe kann die Validität verloren gehen. Aufgrund formaler Mängel bei der Erstbeschreibung eines Taxons kann dieses von der jeweils zuständigen Kommission als nicht valide eingestuft werden. Derartige Namen werden als Nomen nudum bezeichnet. Jede vom Autor beabsichtigte Änderung des Status eines Taxons muss seit 1999 in der entsprechenden Veröffentlichung gekennzeichnet werden, etwa als "spec. nov." (species nova) oder "n. sp." für neue Art, "stat. rev." (status revidiert) oder "rev. stat." für wiederhergestellte, somit wieder valide Taxa, als "comb. nov." oder "n. comb." für neukombinierte, mindestens binominale Taxa. Aber auch für Taxa, die ihre Gültigkeit verloren haben, muss dies gekennzeichnet werden, beispielsweise als "n. syn." oder "syn. nov." für neues Synonym. In welcher Art die Kennzeichnung genau erfolgen soll, ist nicht genau definiert, allerdings muss sie eindeutig und gebräuchlich sein.[10]
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.