Zusammenfassung
Effektive quantitative UX-Analyse beginnt mit einem Plausibilitätscheck der Rohdaten vor der Berechnung von Mittelwerten, der Visualisierung von Verteilungen durch Histogramme zur Prüfung von Annahmen und visuellen Abkürzungen wie Notched Boxplots zur Signifikanzbeurteilung. Die Wahl des richtigen statistischen Tests hängt vom Studiendesign (Between- vs. Within-Subjects) und davon ab, ob die Daten die Normalverteilungsannahme erfüllen.
Quantitative Analyse in der UX Research bedeutet nicht, Stakeholder mit Zahlen zu überschütten. Es geht darum, zuverlässige Signale aus verrauschten Daten zu extrahieren und zu erkennen, wann diese Signale bedeutsam sind.
Berichten Sie nicht einfach Durchschnitte. Verstehen Sie, was Ihre Daten tatsächlich aussagen.
Der Plausibilitätscheck: Bevor Sie irgendetwas berechnen
Bevor Sie einen Mittelwert, Median oder irgendeine Statistik berechnen, müssen Sie die Rohdaten prüfen. Zahlen ohne Kontext sind gefährlich.
Die entscheidende Frage
Für jeden Datenpunkt, der ungewöhnlich aussieht, fragen Sie: Ist das Signal oder Rauschen?
| Beobachtung | Mögliches Signal | Mögliches Rauschen |
|---|---|---|
| Time on Task: 5 Sekunden | Nutzende Person ist Experte | Seite konnte nicht geladen werden |
| Time on Task: 600 Sekunden | Aufgabe ist wirklich schwierig | Person hat Kaffee geholt |
| Zufriedenheit: 1/7 | Echte Frustration | Verklickt oder Trotzantwort |
| Task Success: 0 % | Design ist fehlerhaft | Technischer Fehler während des Tests |
Das Bereinigungsprotokoll
- Ausreißer markieren, die außerhalb der erwarteten Bereiche liegen
- Sitzungsnotizen oder Aufnahmen auf Kontext prüfen
- Entscheiden: Entfernen (wenn Rauschen), behalten (wenn Signal) oder notieren (wenn unklar)
- Dokumentieren Sie jede Entscheidung für Transparenz
Für Hilfe bei der Auswahl des richtigen Messinstruments vor der Analyse, siehe UX-Messinstrumente: Skalen, Scores und was sie wirklich messen.
Verteilungen visualisieren: Warum Durchschnitte lügen
Der Durchschnitt (Mittelwert) ist die am häufigsten berichtete Statistik und oft die irreführendste. Bevor Sie irgendeinen Mittelwert berechnen, müssen Sie die Form Ihrer Daten verstehen.
Die Histogramm-zuerst-Regel
Plotten Sie immer ein Histogramm, bevor Sie Durchschnitte berichten. Die Form Ihrer Verteilung bestimmt, welche Statistiken zulässig sind. In einer normalen (glockenförmigen) Verteilung sind Mittelwert und Median ungefähr gleich, und ein Standard-t-Test funktioniert gut. In einer schiefen Verteilung, wie sie bei Time-on-Task-Daten häufig vorkommt, divergieren Mittelwert und Median, und ein t-Test kann irreführende Ergebnisse liefern.
Was verschiedene Formen bedeuten
| Verteilungsform | Häufige UX-Metriken | Implikation |
|---|---|---|
| Normal (Glocke) | Zufriedenheitsbewertungen (manchmal) | Standardstatistiken anwendbar |
| Rechtsschief | Time on Task, Fehlerzählungen | Median verwenden, nichtparametrische Tests in Betracht ziehen |
| Bimodal | Task Success mit unterschiedlichen Nutzergruppen | Möglicherweise zwei Populationen; zuerst segmentieren |
| Gleichverteilt | Schlecht designte Bewertungsskala | Skala erfasst möglicherweise keine echten Unterschiede |
Mittelwert vs. Median: Wann welchen verwenden
| Statistik | Verwenden, wenn | Beispiel |
|---|---|---|
| Mittelwert | Daten normalverteilt sind | "Die durchschnittliche Zufriedenheit betrug 5,2/7" |
| Median | Daten schief sind oder Ausreißer enthalten | "Die mediane Time on Task betrug 45 Sekunden" |
| Beides | Sie die Schiefe zeigen wollen | "Mittelwert 72 s, Median 45 s (rechtsschief)" |
Der Notched-Boxplot-Trick
Statistische Signifikanztests können komplex sein. Aber es gibt eine visuelle Abkürzung, die Ihnen eine schnelle, intuitive Antwort gibt: den Notched Boxplot.
Wie er funktioniert
Ein Notched Boxplot fügt "Einschnitte" (Notches) um den Median hinzu. Diese Einschnitte repräsentieren das ungefähre 95 %-Konfidenzintervall für den Median.
Einen Boxplot lesen
| Element | Was es zeigt |
|---|---|
| Mittellinie | Median (50. Perzentil) |
| Boxränder | 25. und 75. Perzentil (IQR) |
| Einschnitte | ~95 %-Konfidenzintervall für den Median |
| Whiskers | Bereich typischer Daten (1,5 × IQR) |
| Punkte jenseits der Whiskers | Ausreißer |
Wann Notched Boxplots einsetzen
- Zwei Versionen vergleichen (A vs. B)
- Nutzersegmente vergleichen (Anfänger*innen vs. Expert*innen)
- Schnelle Stakeholder-Kommunikation (visuell intuitiver als p-Werte)
- Explorative Analyse vor dem Durchführen formaler Tests
Praktischer Durchlauf: Eine vergleichende Analyse
Theorie ist nützlich. Sie auf eine reale Entscheidung angewendet zu sehen, ist besser. Gehen wir ein Beispiel von Anfang bis Ende durch.
Das Setup
Stellen Sie sich vor, Ihr Team betreibt eine E-Commerce-Seite mit einem bestehenden Checkout-Flow (Version A). Ein UX Designer hat einen neuen, vereinfachten Prototyp erstellt (Version B). Die Geschäftsfrage ist klar: "Ist das neue Design eine signifikante Verbesserung, die die Entwicklungskosten rechtfertigt?"
Um das mit Zuversicht zu beantworten, führen Sie eine vergleichende Usability-Studie im Within-Subjects-Design durch. Jede teilnehmende Person nutzt beide Versionen und bewertet sie mit der System Usability Scale (SUS). Sie rekrutieren 30 Teilnehmende und balancieren die Reihenfolge aus (die Hälfte beginnt mit A, die andere mit B), um Lerneffekte zu kontrollieren.
Die Daten
Nach der Datenerhebung berechnen Sie die deskriptiven Statistiken:
| Version | Median SUS Score | Interpretation (Banister Benchmark) |
|---|---|---|
| Version A (Aktuell) | 70,0 | "Gut" — akzeptabel, aber mit Verbesserungspotenzial |
| Version B (Neu) | 82,5 | "Exzellent" — Nutzende finden es sehr benutzerfreundlich |
Die Mediane erzählen eine vielversprechende Geschichte. Version B liegt 12,5 Punkte höher. Aber ist dieser Unterschied real, oder könnte er zufälliges Rauschen aus Ihrer Stichprobe sein?
Den richtigen Test wählen
Ihr Instinkt könnte sein, einen gepaarten t-Test durchzuführen. Schließlich haben Sie gepaarte Daten (jede teilnehmende Person hat beide Versionen bewertet). Der t-Test ist das Standardwerkzeug für dieses Szenario.
Aber Sie müssen zuerst eine Annahme prüfen. Der gepaarte t-Test setzt voraus, dass die Differenzen zwischen den Scores normalverteilt sind. Sie führen einen Shapiro-Wilk-Test auf die Differenzwerte durch, und das Ergebnis kommt mit p < 0,05 zurück. Das sagt Ihnen, dass die Normalverteilungsannahme verletzt ist.
Was tun Sie? Sie greifen zur nichtparametrischen Alternative: dem Wilcoxon-Vorzeichen-Rang-Test. Dieser Test setzt keine Normalverteilung voraus. Er vergleicht die Ränge der Differenzen statt der Rohwerte und ist damit robust gegenüber den Verteilungsproblemen in Ihren Daten.
Die Signifikanz
Sie führen den Wilcoxon-Vorzeichen-Rang-Test durch. Das Ergebnis: p < 0,000001.
Dieser p-Wert liegt weit unter dem konventionellen Schwellenwert von 0,05. Sie können die Nullhypothese (dass es keinen Unterschied gibt) zuversichtlich ablehnen. Der beobachtete Unterschied ist statistisch signifikant. Es ist extrem unwahrscheinlich, dass er durch Zufall entstanden ist.
Aber hier hören viele Forschende auf, und hier sollten Sie weitermachen.
Die Größenordnung: Effektgröße
Ein p-Wert sagt Ihnen, ob ein Effekt real ist. Er sagt nicht, wie groß er ist. Ein winziger, praktisch bedeutungsloser Unterschied kann statistisch signifikant sein, wenn Ihre Stichprobe groß genug ist. Umgekehrt könnte ein bedeutsamer Unterschied bei kleiner Stichprobe keine Signifikanz erreichen.
Deshalb müssen Sie die Effektgröße berichten. Für den Vergleich zweier Mittelwerte (oder Mediane) ist das Standardmaß Cohens d.
Cohens d drückt den Unterschied zwischen Gruppen in Standardabweichungen aus. Die konventionellen Benchmarks sind:
| Cohens d | Interpretation |
|---|---|
| d ≈ 0,2 | Kleiner Effekt |
| d ≈ 0,5 | Mittlerer Effekt |
| d ≈ 0,8 | Großer Effekt |
Für Ihre Checkout-Studie beträgt die berechnete Effektgröße d = 1,2. Das ist nach jedem Maßstab ein großer Effekt. Das neue Design schlägt das alte nicht nur um eine statistisch erkennbare Marge. Es schlägt es um einen substanziellen, praktisch bedeutsamen Betrag.
Der Bericht: Kommunikation an Stakeholder
Schließlich übersetzen Sie Ihre Analyse in Sprache, die Entscheidungen vorantreibt. Stakeholder müssen weder Wilcoxon-Tests noch Cohens d verstehen. Sie müssen verstehen, was die Zahlen für das Geschäft bedeuten.
So könnten Sie die Empfehlung formulieren:
"Wir sollten Entwicklungsressourcen priorisieren, um das neue Checkout-Design (Version B) zu bauen und auszurollen. Unsere Usability-Studie mit 30 repräsentativen Kund*innen zeigt, dass das neue Design eine messbar überlegene User Experience bietet. Die Verbesserung ist sowohl statistisch signifikant (p < 0,001) als auch praktisch groß (Effektgröße d = 1,2), was den Usability-Score unseres Checkout-Flows von 'Gut' auf 'Exzellent' in Branchenbenchmarks hebt. Angesichts des direkten Zusammenhangs zwischen Checkout-Usability und Conversion-Raten ist diese Investition eine risikoarme Maßnahme mit hohem Ertrag."
Beachten Sie, was das leistet: Es formuliert die Empfehlung, fasst die Evidenz zusammen, übersetzt die Statistik in Geschäftssprache und verbindet den Befund mit Ergebnissen, die den Stakeholdern wichtig sind.
Für die Anwendung quantitativer Analyse über Zeit durch Benchmarking, siehe UX Benchmarking: Fortschritt über Zeit messen.
Den richtigen statistischen Test wählen
Der richtige Test hängt von zwei Faktoren ab: Ihrem Studiendesign und Ihrer Datenverteilung.
Entscheidungsrahmen
Testauswahl-Tabelle
| Studiendesign | Datenverteilung | Empfohlener Test |
|---|---|---|
| Between-Subjects (2 Gruppen) | Normal | Unabhängiger t-Test |
| Between-Subjects (2 Gruppen) | Schief/Nichtnormal | Mann-Whitney-U-Test |
| Within-Subjects (2 Bedingungen) | Normal | Gepaarter t-Test |
| Within-Subjects (2 Bedingungen) | Schief/Nichtnormal | Wilcoxon-Vorzeichen-Rang-Test |
| Between-Subjects (3+ Gruppen) | Normal | Einfaktorielle ANOVA |
| Between-Subjects (3+ Gruppen) | Schief/Nichtnormal | Kruskal-Wallis-Test |
Ergebnisse interpretieren
| Ergebnis | Bedeutung | Was zu berichten ist |
|---|---|---|
| p < 0,05 | Statistisch signifikant | "Der Unterschied war statistisch signifikant (p = 0,023)" |
| p ≥ 0,05 | Nicht statistisch signifikant | "Es wurde kein signifikanter Unterschied festgestellt (p = 0,34)" |
| Effektgröße (Cohens d) | Praktische Signifikanz | "Ein großer Effekt (d = 0,8)", auch wenn bei kleinem n nicht signifikant |
Für den Zusammenhang zwischen Studiendesign und geeigneten statistischen Tests, siehe Wahl eines Studiendesigns: Between, Within und Mixed.
Die Berichts-Checkliste
Wenn Sie quantitative Ergebnisse präsentieren, berücksichtigen Sie:
- Stichprobengröße — "n = 24 Teilnehmende pro Bedingung"
- Zentrale Tendenz — Mittelwert und/oder Median je nach Eignung
- Streuung — Standardabweichung oder Interquartilsabstand
- Visualisierung — Histogramm, Boxplot oder Konfidenzintervall-Plot
- Statistischer Test — Welcher Test und warum
- Signifikanz — p-Wert und Effektgröße
- Praktische Interpretation — Was das für das Produkt bedeutet
Technische Referenz: R-Code für die Analyse
Wenn Sie die im praktischen Durchlauf beschriebene Analyse durchführen möchten, benötigen Sie ein Werkzeug, das Statistik zuverlässig handhabt. Tabellenkalkulationen sind bequem, aber Fehler verstecken sich in Zellen und Formeln lassen sich nicht einfach überprüfen oder teilen. R ist kostenlos, Open Source und produziert reproduzierbare Skripte, die genau dokumentieren, was Sie getan haben.
Der folgende Code führt den Wilcoxon-Vorzeichen-Rang-Test durch und berechnet Cohens d für den Checkout-Flow-Vergleich.
# R-Analyse für eine vergleichende Usability-Studie
# --- Benötigte Bibliotheken laden ---
library(tidyverse)
library(effectsize)
# --- Datensatz erstellen ---
# 30 Teilnehmende, jede Person bewertet Version A und Version B
study_data <- data.frame(
participant_id = 1:30,
sus_a = c(72.5, 65.0, 55.0, 80.0, 60.0, 85.0, 70.0, 47.5, 75.0, 67.5,
82.5, 70.0, 57.5, 72.5, 62.5, 77.5, 70.0, 65.0, 75.0, 85.0,
50.0, 75.0, 80.0, 62.5, 72.5, 67.5, 70.0, 80.0, 55.0, 75.0),
sus_b = c(85.0, 77.5, 67.5, 92.5, 70.0, 95.0, 82.5, 60.0, 87.5, 80.0,
90.0, 82.5, 72.5, 85.0, 77.5, 90.0, 82.5, 75.0, 85.0, 97.5,
65.0, 87.5, 92.5, 75.0, 85.0, 80.0, 82.5, 90.0, 70.0, 87.5)
)
# --- Wilcoxon-Vorzeichen-Rang-Test durchführen ---
# Verwendet, weil die Normalverteilungsannahme verletzt war
wilcox.test(study_data$sus_b, study_data$sus_a, paired = TRUE, exact = FALSE)
# --- Effektgröße berechnen (Cohens d) ---
# Der p-Wert sagt, dass der Unterschied real ist; die Effektgröße sagt, wie groß
cohens_d(study_data$sus_b, study_data$sus_a, paired = TRUE)
Die Ausführung dieses Codes ergibt den p-Wert (p < 0,000001) und die Effektgröße (d = 1,2), die im Durchlauf berichtet wurden. Sie können die Vektoren sus_a und sus_b durch Ihre eigenen Daten ersetzen, um Ihre Studien zu analysieren.
Was das für die Praxis bedeutet
Quantitative Analyse bedeutet nicht, zu beweisen, dass Sie recht haben. Es geht darum, ehrlich einzuschätzen, was Ihre Daten aussagen können und was nicht.
- Erst den Plausibilitätscheck — Rohdaten prüfen, bevor Sie irgendetwas berechnen
- Immer visualisieren — Verteilungen plotten, bevor Sie Statistiken wählen
- Test zum Design passend wählen — Between vs. Within, normal vs. schief
- Ehrlich berichten — Effektgrößen einbeziehen, nicht nur p-Werte
- Praktisch interpretieren — Statistische Signifikanz ist nicht die Ziellinie
Das Ziel ist nicht, beeindruckende Zahlen zu produzieren. Es geht darum, die Unsicherheit zu reduzieren, ob Ihre Designänderungen tatsächlich einen Unterschied machen.
Um die benötigte Stichprobengröße für Ihren Analyseansatz zu berechnen, siehe den Stichproben-Rechner: Tool und Erklärungen.
Für die übergeordnete qualitativ-quantitative Unterscheidung und wann beide Ansätze kombiniert werden sollten, siehe Qualitative und quantitative Forschung: Eine falsche Dichotomie.