Zusammenfassung
Intern, extern, ökologisch, statistische Schlussvalidität, Konstrukt, Kriterium, Inhalt, Augenschein, nomologisch, strukturell, inkrementell, konsequential: was jede Validitätsart bedeutet, wann sie relevant ist und wie man sie in der angewandten Forschung einordnet. Dazu: moderne integrierte Frameworks, qualitative Vertrauenswürdigkeit, das KI-Kontaminationsproblem und warum Ihre Metriken Sie möglicherweise belügen.
„Ist das valide?" ist eine der häufigsten Fragen in der Forschung und eine der unspezifischsten. Validität ist eine Familie verwandter Konzepte, die jeweils eine andere Art adressieren, wie Forschung schiefgehen kann. Die Lösung für ein Validitätsproblem sieht oft völlig anders aus als für ein anderes. Die Unterscheidungen zu verstehen trennt rigorose Forschung von Forschung, die sich nur rigoros anfühlt.
Die moderne Validitätstheorie hat das klassische „Typen"-Modell längst hinter sich gelassen. Seit Messick (1995) [2] und Kane (2013) [21] betrachtet das Feld Validität als einheitliches Konzept: nicht als Eigenschaft des Instruments, sondern der Interpretationen und Verwendungen von Scores. Ein Fragebogen ist nicht „valide" oder „invalide". Bestimmte Schlussfolgerungen aus den Daten sind mehr oder weniger durch verfügbare Evidenz für bestimmte Zwecke gestützt. Derselbe System Usability Scale (SUS) Score kann gut validiert sein für den Vergleich zweier Prototypen in einer Laborstudie, aber schlecht validiert für die Vorhersage von Markterfolg.
Dennoch bleiben die klassischen Typen als praktisches Vokabular nützlich. Sie benennen die spezifischen Arten, wie Dinge schiefgehen. Die folgenden Kategorien sind in drei Bereiche gegliedert: ob Ihr Studiendesign Ihre Schlussfolgerungen stützt, ob Ihre Messungen erfassen, was Sie glauben zu erfassen, und ob Ihre qualitative Arbeit vertrauenswürdig ist.
Validität im Studiendesign
Interne Validität
Interne Validität fragt, ob Ihre Ursache-Wirkungs-Schlüsse innerhalb der Studie standhalten [1]. Wenn Sie behaupten, ein redesignter Checkout-Flow habe Warenkorbabbrüche reduziert, dann ist interne Validität die Frage, ob es tatsächlich das Redesign war, oder ob eine gleichzeitige Preisänderung, ein saisonaler Effekt oder eine Verbesserung der Server-Geschwindigkeit den Rückgang verursacht hat. Die Hauptbedrohungen sind konfundierende Variablen, Selektionsbias und Reifungseffekte. Ohne interne Validität erzählen Sie eine Kausalgeschichte, die Ihre Daten nicht stützen.
Häufige Bedrohungen in UX und Marktforschung umfassen Reifung (Nutzer*innen werden durch wiederholte Exposition während einer Längsschnittstudie kompetenter), History (externe Ereignisse, etwa ein Update der Konkurrenz oder ein Nachrichtenzyklus, beeinflussen das Verhalten während des Studienzeitraums) und Selektionsbias (Rekrutierung von Teilnehmenden, die technikaffiner oder markenfreundlicher sind als die tatsächliche Zielgruppe).
A/B-Tests [5] haben eigene Bedrohungen der internen Validität: der Flicker-Effekt (das Testing-Tool verursacht visuelle Verzögerungen, die eine Variante beeinflussen), Sample Ratio Mismatch (ungleiche Traffic-Verteilung zwischen Bedingungen) und Neuheits- oder Primacy-Effekte (temporäre Reaktionen auf Veränderung statt echter Präferenz).
Externe Validität
Externe Validität fragt, ob Ihre Ergebnisse über die spezifischen Bedingungen Ihrer Studie hinaus generalisierbar sind. Sie haben einen Usability Test mit 8 Teilnehmenden in Wien durchgeführt, alle 25–35 Jahre alt, alle technikaffin: Gelten diese Ergebnisse für Ihre tatsächliche Nutzerbasis im ländlichen Deutschland? Externe Validität bricht zusammen, wenn Ihre Stichprobe, Ihr Setting oder Ihr Zeitpunkt zu eng sind. Die klassische Spannung im Forschungsdesign: eng kontrollierte Studien (hohe interne Validität) opfern oft externe Validität und umgekehrt [4].
Populationsvalidität ist eine spezifische Subdimension, die betrifft, ob Ihre Stichprobe die Zielpopulation repräsentiert. Eine Renten-App ausschließlich mit Studierenden zu testen, verletzt die Populationsvalidität, unabhängig davon, wie gut das Studiendesign sonst ist. Diese Unterscheidung ist wichtig, weil eine Studie hohe ökologische Validität (realistisches Setting) haben kann und trotzdem an der Populationsvalidität scheitert (falsche Personen).
Temporale Validität fragt, ob Ergebnisse über die Zeit hinweg Bestand haben. Munger (2023) argumentiert, dass sozialwissenschaftliches Wissen „verfällt", wenn sich die Welt verändert. Ein Befund von 2015 über Hamburger-Menu-Präferenzen gilt möglicherweise nicht mehr für die gestenbasierten Interaktionsmuster von 2026. In sich schnell verändernden digitalen Produktumgebungen verdient temporale Validität explizite Berücksichtigung [6].
Ökologische Validität
Ökologische Validität ist eine spezifische Form der externen Validität und fragt, ob Ihre Studienbedingungen die reale Nutzung widerspiegeln. Ein Usability Test in einem ruhigen Labor, während eine Facilitatorin über die Schulter schaut, entspricht nicht der Art, wie Menschen Ihre App tatsächlich nutzen. Sie nutzen sie in einer vollen Straßenbahn, abgelenkt, mit einer Hand. Ökologische Validität ist der Grund, warum Diary Studies, Feldstudien und unmoderierte Remote-Tests existieren. Wenn Ihre Methode den Kontext entfernt, der Verhalten formt, sind Ihre Ergebnisse zwar technisch sauber, aber praktisch nutzlos.
Forschung, die Labor- und Remote-Tests vergleicht, zeigt unter günstigen Bedingungen keine signifikanten Unterschiede, aber unter schwierigen Betriebsbedingungen (Dual-Task-Anforderungen, schlechte Usability) treten bedeutsame Differenzen auf [7]. Marcilly et al. (2024) fanden, dass steigende Testfidelität nicht zwangsläufig die Fehlererkennung verbessert: Low-Fidelity-Tests identifizieren Ease-of-Use- und Sicherheitsprobleme effizient, während High-Fidelity-Simulationen kontextabhängige Probleme aufdecken [8].
Statistische Schlussvalidität
Statistische Schlussvalidität betrifft die Frage, ob der gefundene statistische Zusammenhang real ist [1]. Haben Sie tatsächlich einen echten Effekt entdeckt, oder ist Ihr Ergebnis ein falsch-positives Resultat durch zu viele Vergleiche? Haben Sie einen realen Effekt übersehen, weil Ihre Stichprobe zu klein war? Dieser Typ wird in der angewandten UX Research oft übersehen, ist aber relevant, wann immer Sie quantitative Ergebnisse berichten. Häufige Bedrohungen sind niedrige statistische Power, verletzte Testvoraussetzungen und aufgeblähte Fehlerraten durch multiples Testen.
Im A/B-Testing leidet die statistische Schlussvalidität unter der verbreiteten Praxis, gleichzeitig mehrere Hypothesen zu testen und viele Metriken und Segmente ohne Korrektur zu untersuchen. Simpsons Paradoxon (aggregierte Ergebnisse kehren sich bei Segmentierung um) und unterpowerte Tests verschärfen das Problem. Der häufigste Fehler in der Praxis ist es, statistische Signifikanz als ausreichend für Validität zu behandeln. Beides ist für vertrauenswürdige Ergebnisse erforderlich.
Wenn Sie sich bei Stichprobengröße oder Effektgröße unsicher sind, geht hier zuerst etwas schief.
Für den Zusammenhang zwischen Stichprobenentscheidungen und Validitätsaspekten, siehe Stichprobengrößen: Jenseits der magischen Zahlen.
Messvalidität
Konstruktvalidität
Konstruktvalidität fragt, ob Sie das theoretische Konzept messen, das Sie zu messen beabsichtigen [3]. Wenn Ihr Fragebogen beansprucht, „Nutzerzufriedenheit" zu messen, erfasst er dann tatsächlich Zufriedenheit, oder greift er etwas anderes auf, wie Ease of Use oder Markenloyalität? Konstruktvalidität ist die tiefste und schwierigste Form der Messvalidität. Sie erfordert sowohl theoretische Klarheit darüber, was Sie mit einem Konstrukt meinen, als auch empirische Evidenz, dass Ihr Instrument es erfasst [2]. Schlecht definierte Konstrukte führen zu Metriken, die alle berichten, aber niemand vertraut.
Messick (1995) argumentierte, dass alle Validität im Grunde Konstruktvalidität ist und dass Inhalts-, Kriteriums- und die übrigen Typen lediglich verschiedene Evidenzquellen sind, die zum übergeordneten Konstruktvaliditätsargument beitragen. Zwei fundamentale Bedrohungen gelten für jede Messung: Konstruktunterrepräsentation (das Maß ist zu eng, es fehlen wichtige Dimensionen) und konstruktirrelevante Varianz (das Maß erfasst sachfremde Faktoren). Diese Zwillingsbedrohungen bieten ein handlungsorientierteres Diagnose-Framework als die klassischen Typen allein.
Borsboom, Mellenbergh und van Heerden (2004) schlugen ein noch schärferes Kriterium vor: Ein Test ist valide, wenn (a) das Merkmal existiert und (b) Variationen im Merkmal kausal Variationen in den Messergebnissen erzeugen [9]. Das erzwingt unbequeme Fragen über UX-Konstrukte. Existiert „User Experience" als reale psychologische Entität? Verursachen Variationen darin Variationen in UEQ-Scores, oder sind die Scores Artefakte von Antworttendenzen, sozialer Erwünschtheit und Item-Formulierungen?
Konvergente und diskriminante Validität
Konvergente und diskriminante Validität sind die zwei Seiten der Konstruktvalidität in der Praxis. Konvergente Validität bedeutet, dass Ihr Maß mit anderen Maßen desselben Konstrukts korreliert: wenn Ihre Zufriedenheitsskala mit dem NPS korreliert, ist das konvergente Evidenz. Diskriminante Validität bedeutet, dass Ihr Maß nicht zu hoch mit Maßen anderer Konstrukte korreliert: wenn Ihre Zufriedenheitsskala genauso stark mit einer Usability-Skala korreliert, misst sie möglicherweise nicht spezifisch Zufriedenheit. Sie brauchen beides. Ein Maß, das mit allem korreliert, misst nichts Bestimmtes.
Nomologische Validität
Nomologische Validität fragt, ob sich ein Konstrukt innerhalb seines breiteren theoretischen Netzwerks wie vorhergesagt verhält [3]. Wo konvergente und diskriminante Validität isolierte paarweise Beziehungen testen, testet nomologische Validität ein Muster von Beziehungen. Eine „Brand Trust Scale" sollte positiv mit Kaufabsicht und Loyalität korrelieren, negativ mit Markenwechsel, und keinen Zusammenhang mit Demografien wie Alter zeigen. Wenn das gesamte Muster passt, ist das Konstrukt wie erwartet in sein theoretisches Netzwerk eingebettet.
Das ist in der Praxis relevant, weil eine Skala gute konvergente Validität mit einem verwandten Maß zeigen kann, während sie sich im breiteren Netzwerk nicht theoriekonform verhält. Kusano, Napier und Jost (2025) argumentierten kürzlich, dass nomologische Validität gegenüber strikter Messinvarianz in der kulturvergleichenden Forschung priorisiert werden sollte, und bieten damit eine praktische Alternative, wenn traditionelle Invarianzkriterien zu restriktiv sind [10].
Lim (2024) schlug eine Typologie vor, die nomologische und prädiktive Validität als eigenständige Kategorien neben den klassischen Typen behandelt und sequentiell über den Forschungsprozess abbildet [11].
Strukturelle (faktorielle) Validität
Strukturelle Validität untersucht, ob die empirische Faktorenstruktur eines Maßes mit der theoretischen Struktur des Konstrukts übereinstimmt. Wenn Ihr UX-Fragebogen theoretisch Effizienz, Erlernbarkeit und Zufriedenheit als drei Dimensionen messen soll, sollte eine konfirmatorische Faktorenanalyse drei korrelierte Faktoren mit erwartungsgemäßen Itemladungen ergeben [12].
Als Schankin et al. (2022) eine psychometrische Evaluation des UEQ durchführten (N = 1.121, 23 Produkte), fanden sie, dass seine sechs Skalen besser in zwei Higher-Order-Faktoren kollabierten, nämlich pragmatische und hedonische Qualität [13]. Das ist strukturelle Validitätsevidenz, die Praktizierende zu einer sparsameren Interpretation von UEQ-Scores führt. Wenn Sie einen mehrdimensionalen Fragebogen zu einem einzelnen Score zusammenfassen, ist strukturelle Validität die Prüfung, die Ihnen sagt, ob diese Zusammenfassung legitim ist oder ob sie die Nuancen verdeckt, die für Produktentscheidungen wichtig sind.
Inhaltsvalidität
Inhaltsvalidität fragt, ob Ihr Messinstrument den gesamten Umfang des Konstrukts abdeckt. Wenn Sie „Onboarding-Erlebnis" messen, aber Ihr Fragebogen nur nach dem Registrierungsformular fragt und das First-Use-Tutorial, die Tooltip-Führung und den initialen Wertmoment ignoriert, hat Ihr Instrument eine Inhaltslücke. Inhaltsvalidität wird durch Expertenreview und systematisches Mapping der Konstruktdomäne etabliert, nicht durch Statistik. Sie ist besonders kritisch, wenn Sie eigene Fragebögen erstellen, statt validierte Skalen zu verwenden.
Best Practice für die Etablierung von Inhaltsvalidität beinhaltet die Berechnung eines Content Validity Index: Lassen Sie drei oder mehr Expertinnen die Itemrelevanz bewerten, mit einem Zielwert von I-CVI (Item-level Content Validity Index, der Anteil der Expertinnen, die ein Item als relevant bewerten) ≥ 0,78 pro Item und S-CVI/Ave (Scale-level Content Validity Index, gemittelt über alle Items) ≥ 0,90 über das gesamte Instrument.
Kriteriumsvalidität
Kriteriumsvalidität fragt, ob Ihr Maß ein konkretes, reales Ergebnis vorhersagt oder damit korreliert. Sie kommt in zwei Varianten: prognostische Validität (Sagt das Maß ein zukünftiges Ergebnis vorher, z.B. sagt Ihr Onboarding-Zufriedenheitsscore die 30-Tage-Retention vorher?) und Übereinstimmungsvalidität (Korreliert das Maß mit einem aktuellen Kriterium, z.B. stimmt Ihr Usability-Score mit gleichzeitig gemessenen Task-Completion-Raten überein?). Kriteriumsvalidität macht eine Metrik handlungsrelevant statt dekorativ.
Inkrementelle Validität
Inkrementelle Validität fragt, ob ein Maß zusätzliche Vorhersagekraft über das Bestehende hinaus liefert [14]. Das ist die pragmatisch nützlichste Validitätsfrage für Forscher*innen in der Praxis, die rechtfertigen müssen, warum eine weitere Metrik auf ein bereits übervolles Dashboard soll. Wenn ein Customer Effort Score die Churn-Vorhersage nicht über das hinaus verbessert, was Customer Satisfaction Score (CSAT) bereits liefert, ist er redundant. Geprüft wird mittels hierarchischer Regression: Fügen Sie das neue Maß einem Modell hinzu, das bereits bestehende Maße enthält, und prüfen Sie, ob R² signifikant steigt.
Die praktische Frage, die jeder Stakeholder stellt: „Warum brauchen wir noch eine Metrik?" Inkrementelle Validität ist die Antwort.
Augenscheinvalidität
Augenscheinvalidität (Face-Validität) ist die einfachste und schwächste Form: Sieht das Maß auf den ersten Blick so aus, als würde es messen, was es zu messen beansprucht? Wenn Sie Teilnehmenden Ihren Fragebogen zeigen und diese denken „ja, hier geht es um meine Zufriedenheit", dann ist das Augenscheinvalidität. Sie ist relevant für die Akzeptanz bei Teilnehmenden und die Antwortqualität. Menschen geben bessere Antworten auf Fragen, die ihnen relevant erscheinen. Aber Augenscheinvalidität allein beweist nichts über die tatsächliche Messqualität. Eine Frage kann absolut vernünftig aussehen und trotzdem das Falsche messen.
Konsequentielle Validität
Konsequentielle Validität untersucht die sozialen Folgen der Messinstrument-Nutzung, sowohl beabsichtigt als auch unbeabsichtigt [2]. Von Messick als „consequential basis for validity" in seinem früheren Werk eingeführt und in seinem integrierten Framework ausgearbeitet [2], bleibt sie kontrovers: Einige Wissenschaftler*innen argumentieren, sie adressiere eher ethische als messtechnische Belange und sollte außerhalb des Validitäts-Frameworks stehen [15].
Für angewandte Forscherinnen ist sie zu wichtig, um sie zu ignorieren. Eine Engagement-Metrik, die unbeabsichtigt Dark Patterns incentiviert, hat ein Problem konsequentieller Validität. Ein „User Satisfaction"-Score, der zur Bewertung von Designerinnen verwendet wird, kann deren Arbeitsweise verzerren. Ein Recruiting-Algorithmus, der UX-Portfolios screent und systematisch Kandidat*innen aus unterrepräsentierten Gruppen benachteiligt, hat Probleme konsequentieller Validität, unabhängig davon, wie gut er Arbeitsleistung vorhersagt.
Interkulturelle Validität und Messinvarianz
Interkulturelle Validität bestimmt, ob ein Maß über Populationen hinweg äquivalent funktioniert. Getestet durch Multi-Group Confirmatory Factor Analysis auf vier progressiv strengen Ebenen (von konfiguraler über metrische und skalare bis zu strikter Invarianz), ist dies relevant für jedes Forschungsprogramm, das kulturelle, sprachliche oder demografische Grenzen überschreitet [16].
Ein SUS-Score von „70" in Japan und Deutschland trägt möglicherweise nicht dieselbe Bedeutung, wenn skalare Invarianz nicht gegeben ist, weil sich kulturelle Antwortstile oder Iteminterpretationen unterscheiden. Neuere Arbeit von Protzko (2025) ergab, dass eine Nonsense-Skala, die nichts misst, starke Messinvarianztests bestehen kann. Eine ernüchternde Erinnerung daran, dass Invarianz notwendige, aber nicht hinreichende Evidenz dafür ist, dass dasselbe Konstrukt gemessen wird [17].
Eine psychometrische Evaluation des SUS von 2025 in Ländern mit niedrigem und mittlerem Einkommen fand signifikante interkulturelle Messprobleme. Das legt nahe, dass selbst gut etablierte Skalen eine Revalidierung erfordern, wenn sie in neuen kulturellen Kontexten eingesetzt werden [18].
Response-Process-Validität
Response-Process-Validität, kodifiziert in den Standards for Educational and Psychological Testing von 2014 (gemeinsam herausgegeben von der American Educational Research Association, der American Psychological Association und dem National Council on Measurement in Education), liefert Evidenz dafür, dass Befragte mit Items so umgehen, wie es die Forschenden beabsichtigt haben [19]. Methoden umfassen Think-Aloud-Protokolle, kognitive Interviews, Eye-Tracking und Reaktionszeitanalyse.
Dies ist vielleicht die am wenigsten genutzte Validitätsevidenz-Quelle in der Praxis, obwohl sie Probleme aufdeckt, die keine statistische Analyse erkennen kann. Eine Marktforscherin, der*die kognitive Interviews für eine „Purchase Intent Scale" durchführt, könnte entdecken, dass Befragte „Ich würde dieses Produkt definitiv kaufen" als Gewissheitsurteil statt als Stärke-der-Absicht-Urteil interpretieren: sie lehnen nicht ab, weil sie nicht kaufen würden, sondern weil sie sich nicht sicher sein können. Ohne Response-Process-Evidenz ist diese Fehlinterpretation in den Daten unsichtbar.
Validität in der qualitativen Forschung
In der qualitativen Forschung, wo das Ziel darin besteht, Verständnis zu konstruieren statt beobachtete Regeln zu generalisieren, kann die Terminologie von „Validität" und „Reliabilität" epistemologisch unpassend sein. Das am weitesten anerkannte alternative Framework sind Lincoln und Gubas (1985) Trustworthiness-Kriterien [20]:
Glaubwürdigkeit (Credibility) ist das Vertrauen darauf, dass Ergebnisse plausible Realitäten der Teilnehmenden repräsentieren. Strategien umfassen Member Checks (Ergebnisse mit Teilnehmenden zur Validierung teilen), Triangulation (Interviewdaten mit Beobachtungen oder Umfrageergebnissen vergleichen) und längeres Engagement mit Teilnehmenden.
Übertragbarkeit (Transferability) ersetzt Generalisierbarkeit. Qualitative Forschung beansprucht keine universelle Anwendbarkeit; stattdessen liefert sie „dichte, reichhaltige Beschreibungen" von Kontext, Teilnehmenden und Settings, die Lesenden ermöglichen, die Relevanz für ihre eigene Situation zu beurteilen.
Verlässlichkeit (Dependability) betrifft die Stabilität und Konsistenz des Forschungsprozesses. Sie wird durch einen detaillierten Audit Trail gestützt: eine Dokumentation jedes Schritts von der Datenerhebung bis zur Analyse, sodass externe Reviewer die Logik der Studie nachvollziehen können.
Bestätigbarkeit (Confirmability) stellt sicher, dass Ergebnisse aus Daten abgeleitet sind, nicht aus Forscher-Bias. Strategien umfassen die Verwendung direkter Teilnehmenden-Zitate, das Führen eines Reflexivitätsjournals und die Überprüfung von Kodierentscheidungen durch unabhängige Forscher*innen.
Für UX Researcher ist Reflexivität besonders kritisch, wenn man eigene Designs testet. Die Dokumentation von Erwartungen vor und nach Sitzungen hilft, zwischen echter Frustration der Nutzerinnen und den antizipierten Schmerzpunkten der Forscherinnen zu unterscheiden.
Für praktische Strategien zum Umgang mit Bias und zur Verbesserung qualitativer Rigorosität, siehe Forschungsqualität und Umgang mit Bias.
Validität erfordert Reliabilität, aber nicht umgekehrt
Eine Methode kann reliabel sein, ohne valide zu sein. Ihre Messungen können perfekt konsistent sein (hohe Reliabilität), aber konsistent das Falsche messen, also niedrige Validität.
Jedoch kann eine Methode nicht valide sein, ohne reliabel zu sein. Wenn Ihre Messungen zufällig und inkonsistent sind, können sie nicht genau sein. Reliabilität ist notwendig, aber nicht hinreichend für Validität.
Die praktische Implikation: Wenn eine Metrik instabil aussieht, beheben Sie zuerst die Reliabilität. Erst wenn Messungen konsistent sind, ergibt es Sinn zu fragen, ob sie das Richtige messen.
Moderne Frameworks: Jenseits der „Typen"-Metapher
Die wichtigste konzeptuelle Verschiebung in der Validitätstheorie ist, dass Validität nicht mehr als in separaten, austauschbaren Typen vorliegend betrachtet wird. Drei Frameworks, über drei Jahrzehnte entwickelt, konvergieren in diesem Punkt.
Messicks Unified Framework (1995)
Messick identifizierte sechs miteinander verknüpfte Aspekte der Konstruktvalidität: Inhalt, Substanz, Struktur, Generalisierbarkeit, Extern und Konsequenz [2]. Sein zentrales Argument: Dies ist kein Menü zur Auswahl, sondern ein umfassendes Set, das auf jede Messung anwendbar ist. Inhaltsvalidität und Kriteriumsvalidität werden zu Evidenz, die zum übergeordneten Konstruktvaliditätsargument beiträgt, statt unabhängige Typen zu sein.
Für UX-Praktizierende, die einen Product-Experience-Fragebogen validieren, übersetzt sich das in sechs Evidenzströme: Expertenreview der Itemrelevanz (Inhalt), kognitive Interviews die zeigen, dass Befragte Items wie beabsichtigt interpretieren (Substanz), CFA die die erwartete Faktorenstruktur bestätigt (Struktur), Tests über Produktkategorien und Demografien hinweg (Generalisierbarkeit), Korrelationen mit Verhaltensmetriken (Extern) und die Prüfung, ob die Nutzung von Scores zu angemessenen Designentscheidungen führt (Konsequenz).
Kanes argumentbasierter Ansatz (1992, 2013)
Kane definierte Validierung als strukturierte Argumentation um vier Inferenzen: Scoring (Sind Beobachtungen korrekt aufgezeichnet?), Generalisierung (Sind Scores reliabel über Items, Rater, Gelegenheiten?), Extrapolation (Sagen Scores reales Verhalten vorher?) und Implikation (Ist die auf Scores basierende Handlung angemessen?) [21].
Die praktische Erkenntnis: Evidenz sollte sich auf das schwächste Glied der Kette konzentrieren. Wenn Ihr Labor-zu-Feld-Transfer fragwürdig ist, konzentrieren Sie Evidenz auf Extrapolation, statt mehr Reliabilitätsevidenz für eine Generalisierungsinferenz anzuhäufen, die bereits stark ist.
AERA/APA/NCME Standards (2014)
Die Standards synthetisierten sowohl Messick als auch Kane in fünf Quellen von Validitätsevidenz: Testinhalt, Response Processes, interne Struktur, Beziehungen zu anderen Variablen und Konsequenzen des Testens [19]. Die Definition verortet Validität in Interpretationen und Verwendungen, nicht in Instrumenten: „Validity refers to the degree to which evidence and theory support the interpretations of test scores for proposed uses of tests."
Die Konvergenz aller drei Frameworks ergibt eine klare Botschaft: Hören Sie auf zu fragen „Ist dieses Maß valide?" und fangen Sie an zu fragen „Welche Evidenz stützt die spezifischen Schlussfolgerungen, die ich aus diesen Scores ziehe?"
Aufkommende Bedrohung: KI und Datenvalidität
Die dringendste Validitätsbedrohung in der zeitgenössischen Forschung ist die Kontamination von Umfragedaten durch künstliche Intelligenz. Das Ausmaß des Problems ist schneller gewachsen, als die meisten Forschungsteams sich angepasst haben.
Teilnehmende nutzen KI
Zhang, Xu und Alvero (2025) befragten Teilnehmende eines Online-Panels und stellten fest, dass 34% angaben, LLMs zur Beantwortung offener Umfragefragen zu nutzen [22]. Teilnehmende nannten unklare Anweisungen, Umfragemüdigkeit und Sprachbarrieren als Motivation. Neuere Plattformnutzer, Männer und Teilnehmende mit College-Abschluss nutzten KI häufiger, und demografische Muster in der KI-Nutzung können Daten systematisch so verzerren, dass es substanziellen Befunden ähnelt.
KI-Antworten sind homogen
LLM-generierte Antworten sind konsistent positiver, neutraler und weniger variabel als menschliche Antworten. Zhang et al. fanden, dass KI-Antworten über soziale Gruppen sensible Themen mit bereinigter Distanziertheit behandelten, während menschliche Antworten konkrete, emotional aufgeladene Sprache enthielten. Das Ergebnis ist nicht einfach zusätzliches Rauschen. KI-Kontamination flacht systematisch die Verteilung von Antworten ab und maskiert echte Variation in Einstellungen und Überzeugungen [22].
Autonome Agenten bestehen Qualitätsprüfungen
Westwood (2025) zeigte, dass ein von LLMs angetriebener autonomer synthetischer Befragter Online-Umfragen vollständig ausfüllen konnte und 99,8% der Aufmerksamkeitsprüfungen über 6.000 Durchläufe bestand. Der Agent schnitt besser ab als echte Menschen [23]. Traditionelle Betrugserkennung (CAPTCHAs, Honeypot-Fragen, Logikrätsel) ist praktisch nutzlos.
Validitätsauswirkungen über Typen hinweg
Jeder Validitätstyp steht vor einer eigenen KI-Bedrohung. Konstruktvalidität ist kompromittiert, weil Forschende möglicherweise KI-Trainingsmuster statt menschlicher psychologischer Konstrukte messen. Ökologische Validität kollabiert, weil KI-Antworten kein reales menschliches Verhalten widerspiegeln. Statistische Schlussvalidität leidet, weil reduzierte Varianz durch homogene KI-Antworten Effektgrößen aufblähen oder reale Effekte maskieren kann. Der Bias ist systematisch, nicht zufällig: Er verhält sich wie ein ungemessener Confound, nicht wie Rauschen.
Wenn Metriken ihre Bedeutung verlieren
Goodharts Gesetz, in Stratherns vielzitierter Formulierung: „Wenn ein Maß zum Ziel wird, hört es auf, ein gutes Maß zu sein." Das ist ein verkapptes Validitätsproblem. Die Beziehung zwischen Metrik und zugrundeliegendem Konstrukt degradiert genau deshalb, weil die Metrik optimiert wird.
Wenn ein Team auf Click-Through-Rate optimiert, selektiert es möglicherweise für Outrage-Bait oder versehentliche Taps statt für echtes Interesse. Wenn „Average Handling Time" zum Call-Center-Ziel wird, belohnt es vorzeitiges Gesprächsende. Die Metrik verbessert sich, während die Frustration der Kund*innen steigt. NPS, trotz seiner Allgegenwärtigkeit, wurde vielfach kritisiert: Studien stellen infrage, ob er Umsatzwachstum besser vorhersagt als andere Loyalitätsfragen, seine 9–10/0–6-Schwellenwerte haben keine klare statistische Rechtfertigung, seine Kategorisierung verwirft etwa 30% der Daten (Passives) und er erfordert deutlich größere Stichproben für Signifikanz als der rohe 0–10-Mittelwert.
Strategien zur Aufrechterhaltung ehrlicher Metriken umfassen: explizit definieren, welches Konstrukt jeder KPI repräsentiert, jeden Ziel-KPI mit mindestens einer Gegenmetrik paaren, um Schaden zu erkennen (Geschwindigkeit mit Fehlerrate, Conversion mit Retourenrate), Review-Kadenz und Verfallsdaten für Proxy-Metriken festlegen, und qualitative Narrative neben den Zahlen pflegen, um Surrogation zu verhindern, den kognitiven Fehler, bei dem Teams beginnen zu glauben, die Zahl sei die Realität.
Für die Messskalen und Instrumente, bei denen Validität am wichtigsten ist, siehe UX-Messinstrumente.
Fragwürdige Messpraktiken
Flake und Fried (2020) führten das Konzept der Questionable Measurement Practices (QMPs) ein: Entscheidungen, die Zweifel an der Validität eines Maßes durch mangelnde Transparenz, Unwissenheit oder Nachlässigkeit aufwerfen [24]. Sie fanden, dass 79% der itembasierten Skalen im Many Labs 2 Replikationsprojekt ad hoc erstellt wurden, ohne unterstützende Validitätsevidenz.
Perrig et al. (2024) brachten diese Diagnose direkt in die UX Research. Ihr systematisches Review von CHI-Papers fand 85 verschiedene Skalen und 172 verschiedene Konstrukte, wobei die meisten Skalen nur einmal verwendet wurden. Bedenklicher: Nur etwa 20% der Papers lieferten eine vollständige Begründung für die Skalenauswahl, und nur ein Drittel berichtete irgendeine Untersuchung der Skalenqualität [25].
Sechs Fragen, die jede*r Forschende vor dem Einsatz eines Maßes beantworten sollte: Was ist Ihr Konstrukt? Warum haben Sie dieses Maß gewählt? Welches Maß haben Sie verwendet? Wie haben Sie die Ergebnisse quantifiziert? Haben Sie die Skala modifiziert? Haben Sie das Maß selbst erstellt? Wie Flake und Fried es formulierten: „Weder rigoroses Forschungsdesign, noch fortgeschrittene Statistik, noch große Stichproben können falsche Schlussfolgerungen korrigieren, die aus schlechter Messung stammen."
Die Entscheidung zwischen validierten Skalen und eigenen Fragebögen ist selbst eine Validitätsentscheidung. Der SUS demonstriert Reliabilität bei α ≥ 0,90 mit umfangreichen Benchmark-Normen. Der UMUX-Lite erreicht starke Validitätsevidenz aus nur zwei Items mit einer Korrelation zum SUS von r = .81 [26]. Der UEQ bietet Sechs-Skalen-Messung mit einer Benchmark-Datenbank und 40+ Sprachübersetzungen, wobei die Zusammenfassung zu einem einzelnen KPI nicht empfohlen wird [27]. Wenn eine vollständige Validierung nicht möglich ist, umfasst der Minimalansatz: Expertenreview, kognitives Pretesting, Pilotierung mit 30+ Befragten und Berechnung der Reliabilität auf den erhobenen Daten.
Für den Zusammenhang zwischen Stichprobenentscheidungen und Validität, siehe Stichprobengrößen: Jenseits der magischen Zahlen.
Quellenverzeichnis
- [1]William R. Shadish et al.. (2002). "Experimental and Quasi-Experimental Designs for Generalized Causal Inference". Houghton Mifflin.
- [2]Samuel Messick. (1995). "Validity of Psychological Assessment: Validation of Inferences From Persons' Responses and Performances as Scientific Inquiry Into Score Meaning". American Psychologist, 50(9), 741–749.DOI
- [3]Lee J. Cronbach & Paul E. Meehl. (1955). "Construct Validity in Psychological Tests". Psychological Bulletin, 52(4), 281–302.DOI
- [4]Thomas D. Cook & Donald T. Campbell. (1979). "Quasi-Experimentation: Design and Analysis Issues for Field Settings". Houghton Mifflin.
- [5]Ron Kohavi et al.. (2020). "Trustworthy Online Controlled Experiments: A Practical Guide to A/B Testing". Cambridge University Press.
- [6]Kevin Munger. (2023). "Temporal Validity as Meta-Science". Research & Politics, 10(3).DOI
- [7]Juergen Sauer et al.. (2019). "Extra-Laboratorial Usability Tests: An Empirical Comparison of Remote and Classical Field Testing with Lab Testing". Applied Ergonomics, 74, 85–96.DOI
- [8]Romaric Marcilly et al.. (2024). "Usability Evaluation Ecological Validity: Is More Always Better?". Healthcare, 12(14), 1417.DOI
- [9]Denny Borsboom et al.. (2004). "The Concept of Validity". Psychological Review, 111(4), 1061–1071.DOI
- [10]Kodai Kusano et al.. (2025). "The Mismeasure of Culture: Why Measurement Invariance Is Rarely Appropriate for Comparative Research in Psychology". Personality and Social Psychology Bulletin.DOI
- [11]Wing M. Lim. (2024). "A Typology of Validity: Content, Face, Convergent, Discriminant, Nomological and Predictive Validity". Journal of Trade Science, 12(3), 155–179.DOI
- [12]Lydia Repke et al.. (2024). "Validity in Survey Research: From Research Design to Measurement Instruments". GESIS Survey Guidelines. Mannheim: GESIS.
- [13]Andrea Schankin et al.. (2022). "Psychometric Properties of the User Experience Questionnaire (UEQ)". Proceedings of the 2022 CHI Conference on Human Factors in Computing Systems. ACM.DOI
- [14]Stephen N. Haynes & William Hayes O'Brien. (2000). "Principles and Practice of Behavioral Assessment". Plenum Press.
- [15]Gregory J. Cizek et al.. (2008). "Sources of Validity Evidence for Educational and Psychological Tests". Educational and Psychological Measurement, 68(3), 397–412.
- [16]David Lacko & et al.. (2022). "The Necessity of Testing Measurement Invariance in Cross-Cultural Research". Cross-Cultural Research, 56(2–3), 1–38.DOI
- [17]John Protzko. (2025). "Invariance: What Does Measurement Invariance Allow Us to Claim?". Educational and Psychological Measurement.DOI
- [18]
- [19](2014). "Standards for Educational and Psychological Testing". American Educational Research Association, American Psychological Association & National Council on Measurement in Education. Washington, DC: AERA.
- [20]Yvonne S. Lincoln & Egon G. Guba. (1985). "Naturalistic Inquiry". Sage Publications.
- [21]Michael T. Kane. (2013). "Validating the Interpretations and Uses of Test Scores". Journal of Educational Measurement, 50(1), 1–73.DOI
- [22]Simone Zhang et al.. (2025). "Generative AI Meets Open-Ended Survey Responses: Research Participant Use of AI and Homogenization". Sociological Methods & Research.DOI
- [23]Sean J. Westwood. (2025). "The Potential Existential Threat of Large Language Models to Online Survey Research". Proceedings of the National Academy of Sciences, 122(47), e2518075122.DOI
- [24]Jessica K. Flake & Eiko I. Fried. (2020). "Measurement Schmeasurement: Questionable Measurement Practices and How to Avoid Them". Advances in Methods and Practices in Psychological Science, 3(4), 456–465.DOI
- [25]Sebastian A. C. Perrig & et al.. (2024). "Measurement Practices in User Experience (UX) Research: A Systematic Quantitative Literature Review". Frontiers in Computer Science, 6.DOI
- [26]James R. Lewis et al.. (2013). "UMUX-LITE: When There's No Time for the SUS". Proceedings of the SIGCHI Conference on Human Factors in Computing Systems (CHI '13). ACM.DOI
- [27]Martin Schrepp et al.. (2023). "User Experience Questionnaire Handbook". UEQ Online.Link