Notched-Boxplot-Vergleich

Quantitative Analyse in der UX Research bedeutet nicht, Stakeholder mit Zahlen zu überschütten. Es geht darum, zuverlässige Signale aus verrauschten Daten zu extrahieren und zu erkennen, wann diese Signale bedeutsam sind.

Berichten Sie nicht einfach Durchschnitte. Verstehen Sie, was Ihre Daten tatsächlich aussagen.

Der Plausibilitätscheck: Bevor Sie irgendetwas berechnen

Bevor Sie einen Mittelwert, Median oder irgendeine Statistik berechnen, müssen Sie die Rohdaten prüfen. Zahlen ohne Kontext sind gefährlich.

Die entscheidende Frage

Für jeden Datenpunkt, der ungewöhnlich aussieht, fragen Sie: Ist das Signal oder Rauschen?

Beobachtung	Mögliches Signal	Mögliches Rauschen
Time on Task: 5 Sekunden	Nutzende Person ist Experte	Seite konnte nicht geladen werden
Time on Task: 600 Sekunden	Aufgabe ist wirklich schwierig	Person hat Kaffee geholt
Zufriedenheit: 1/7	Echte Frustration	Verklickt oder Trotzantwort
Task Success: 0 %	Design ist fehlerhaft	Technischer Fehler während des Tests

Das Bereinigungsprotokoll

Ausreißer markieren, die außerhalb der erwarteten Bereiche liegen
Sitzungsnotizen oder Aufnahmen auf Kontext prüfen
Entscheiden: Entfernen (wenn Rauschen), behalten (wenn Signal) oder notieren (wenn unklar)
Dokumentieren Sie jede Entscheidung für Transparenz

Für Hilfe bei der Auswahl des richtigen Messinstruments vor der Analyse, siehe UX-Messinstrumente: Skalen, Scores und was sie wirklich messen.

Verteilungen visualisieren: Warum Durchschnitte lügen

Der Durchschnitt (Mittelwert) ist die am häufigsten berichtete Statistik und oft die irreführendste. Bevor Sie irgendeinen Mittelwert berechnen, müssen Sie die Form Ihrer Daten verstehen.

Die Histogramm-zuerst-Regel

Plotten Sie immer ein Histogramm, bevor Sie Durchschnitte berichten. Die Form Ihrer Verteilung bestimmt, welche Statistiken zulässig sind. In einer normalen (glockenförmigen) Verteilung sind Mittelwert und Median ungefähr gleich, und ein Standard-t-Test funktioniert gut. In einer schiefen Verteilung, wie sie bei Time-on-Task-Daten häufig vorkommt, divergieren Mittelwert und Median, und ein t-Test kann irreführende Ergebnisse liefern.

Was verschiedene Formen bedeuten

Verteilungsform	Häufige UX-Metriken	Implikation
Normal (Glocke)	Zufriedenheitsbewertungen (manchmal)	Standardstatistiken anwendbar
Rechtsschief	Time on Task, Fehlerzählungen	Median verwenden, nichtparametrische Tests in Betracht ziehen
Bimodal	Task Success mit unterschiedlichen Nutzergruppen	Möglicherweise zwei Populationen; zuerst segmentieren
Gleichverteilt	Schlecht designte Bewertungsskala	Skala erfasst möglicherweise keine echten Unterschiede

Mittelwert vs. Median: Wann welchen verwenden

Statistik	Verwenden, wenn	Beispiel
Mittelwert	Daten normalverteilt sind	"Die durchschnittliche Zufriedenheit betrug 5,2/7"
Median	Daten schief sind oder Ausreißer enthalten	"Die mediane Time on Task betrug 45 Sekunden"
Beides	Sie die Schiefe zeigen wollen	"Mittelwert 72 s, Median 45 s (rechtsschief)"

Der Notched-Boxplot-Trick

Statistische Signifikanztests können komplex sein. Aber es gibt eine visuelle Abkürzung, die Ihnen eine schnelle, intuitive Antwort gibt: den Notched Boxplot.

Wie er funktioniert

Ein Notched Boxplot fügt "Einschnitte" (Notches) um den Median hinzu. Diese Einschnitte repräsentieren das ungefähre 95 %-Konfidenzintervall für den Median.

Einen Boxplot lesen

Element	Was es zeigt
Mittellinie	Median (50. Perzentil)
Boxränder	25. und 75. Perzentil (IQR)
Einschnitte	~95 %-Konfidenzintervall für den Median
Whiskers	Bereich typischer Daten (1,5 × IQR)
Punkte jenseits der Whiskers	Ausreißer

Wann Notched Boxplots einsetzen

Zwei Versionen vergleichen (A vs. B)
Nutzersegmente vergleichen (Anfänger*innen vs. Expert*innen)
Schnelle Stakeholder-Kommunikation (visuell intuitiver als p-Werte)
Explorative Analyse vor dem Durchführen formaler Tests

Praktischer Durchlauf: Eine vergleichende Analyse

Theorie ist nützlich. Sie auf eine reale Entscheidung angewendet zu sehen, ist besser. Gehen wir ein Beispiel von Anfang bis Ende durch.

Das Setup

Stellen Sie sich vor, Ihr Team betreibt eine E-Commerce-Seite mit einem bestehenden Checkout-Flow (Version A). Ein UX Designer hat einen neuen, vereinfachten Prototyp erstellt (Version B). Die Geschäftsfrage ist klar: "Ist das neue Design eine signifikante Verbesserung, die die Entwicklungskosten rechtfertigt?"

Um das mit Zuversicht zu beantworten, führen Sie eine vergleichende Usability-Studie im Within-Subjects-Design durch. Jede teilnehmende Person nutzt beide Versionen und bewertet sie mit der System Usability Scale (SUS). Sie rekrutieren 30 Teilnehmende und balancieren die Reihenfolge aus (die Hälfte beginnt mit A, die andere mit B), um Lerneffekte zu kontrollieren.

Die Daten

Nach der Datenerhebung berechnen Sie die deskriptiven Statistiken:

Version	Median SUS Score	Interpretation (Banister Benchmark)
Version A (Aktuell)	70,0	"Gut" — akzeptabel, aber mit Verbesserungspotenzial
Version B (Neu)	82,5	"Exzellent" — Nutzende finden es sehr benutzerfreundlich

Die Mediane erzählen eine vielversprechende Geschichte. Version B liegt 12,5 Punkte höher. Aber ist dieser Unterschied real, oder könnte er zufälliges Rauschen aus Ihrer Stichprobe sein?

Den richtigen Test wählen

Ihr Instinkt könnte sein, einen gepaarten t-Test durchzuführen. Schließlich haben Sie gepaarte Daten (jede teilnehmende Person hat beide Versionen bewertet). Der t-Test ist das Standardwerkzeug für dieses Szenario.

Aber Sie müssen zuerst eine Annahme prüfen. Der gepaarte t-Test setzt voraus, dass die Differenzen zwischen den Scores normalverteilt sind. Sie führen einen Shapiro-Wilk-Test auf die Differenzwerte durch, und das Ergebnis kommt mit p < 0,05 zurück. Das sagt Ihnen, dass die Normalverteilungsannahme verletzt ist.

Was tun Sie? Sie greifen zur nichtparametrischen Alternative: dem Wilcoxon-Vorzeichen-Rang-Test. Dieser Test setzt keine Normalverteilung voraus. Er vergleicht die Ränge der Differenzen statt der Rohwerte und ist damit robust gegenüber den Verteilungsproblemen in Ihren Daten.

Die Signifikanz

Sie führen den Wilcoxon-Vorzeichen-Rang-Test durch. Das Ergebnis: p < 0,000001.

Dieser p-Wert liegt weit unter dem konventionellen Schwellenwert von 0,05. Sie können die Nullhypothese (dass es keinen Unterschied gibt) zuversichtlich ablehnen. Der beobachtete Unterschied ist statistisch signifikant. Es ist extrem unwahrscheinlich, dass er durch Zufall entstanden ist.

Aber hier hören viele Forschende auf, und hier sollten Sie weitermachen.

Die Größenordnung: Effektgröße

Ein p-Wert sagt Ihnen, ob ein Effekt real ist. Er sagt nicht, wie groß er ist. Ein winziger, praktisch bedeutungsloser Unterschied kann statistisch signifikant sein, wenn Ihre Stichprobe groß genug ist. Umgekehrt könnte ein bedeutsamer Unterschied bei kleiner Stichprobe keine Signifikanz erreichen.

Deshalb müssen Sie die Effektgröße berichten. Für den Vergleich zweier Mittelwerte (oder Mediane) ist das Standardmaß Cohens d.

Cohens d drückt den Unterschied zwischen Gruppen in Standardabweichungen aus. Die konventionellen Benchmarks sind:

Cohens d	Interpretation
d ≈ 0,2	Kleiner Effekt
d ≈ 0,5	Mittlerer Effekt
d ≈ 0,8	Großer Effekt

Für Ihre Checkout-Studie beträgt die berechnete Effektgröße d = 1,2. Das ist nach jedem Maßstab ein großer Effekt. Das neue Design schlägt das alte nicht nur um eine statistisch erkennbare Marge. Es schlägt es um einen substanziellen, praktisch bedeutsamen Betrag.

Der Bericht: Kommunikation an Stakeholder

Schließlich übersetzen Sie Ihre Analyse in Sprache, die Entscheidungen vorantreibt. Stakeholder müssen weder Wilcoxon-Tests noch Cohens d verstehen. Sie müssen verstehen, was die Zahlen für das Geschäft bedeuten.

So könnten Sie die Empfehlung formulieren:

"Wir sollten Entwicklungsressourcen priorisieren, um das neue Checkout-Design (Version B) zu bauen und auszurollen. Unsere Usability-Studie mit 30 repräsentativen Kund*innen zeigt, dass das neue Design eine messbar überlegene User Experience bietet. Die Verbesserung ist sowohl statistisch signifikant (p < 0,001) als auch praktisch groß (Effektgröße d = 1,2), was den Usability-Score unseres Checkout-Flows von 'Gut' auf 'Exzellent' in Branchenbenchmarks hebt. Angesichts des direkten Zusammenhangs zwischen Checkout-Usability und Conversion-Raten ist diese Investition eine risikoarme Maßnahme mit hohem Ertrag."

Beachten Sie, was das leistet: Es formuliert die Empfehlung, fasst die Evidenz zusammen, übersetzt die Statistik in Geschäftssprache und verbindet den Befund mit Ergebnissen, die den Stakeholdern wichtig sind.

Für die Anwendung quantitativer Analyse über Zeit durch Benchmarking, siehe UX Benchmarking: Fortschritt über Zeit messen.

Den richtigen statistischen Test wählen

Der richtige Test hängt von zwei Faktoren ab: Ihrem Studiendesign und Ihrer Datenverteilung.

Entscheidungsrahmen

Testauswahl-Tabelle

Studiendesign	Datenverteilung	Empfohlener Test
Between-Subjects (2 Gruppen)	Normal	Unabhängiger t-Test
Between-Subjects (2 Gruppen)	Schief/Nichtnormal	Mann-Whitney-U-Test
Within-Subjects (2 Bedingungen)	Normal	Gepaarter t-Test
Within-Subjects (2 Bedingungen)	Schief/Nichtnormal	Wilcoxon-Vorzeichen-Rang-Test
Between-Subjects (3+ Gruppen)	Normal	Einfaktorielle ANOVA
Between-Subjects (3+ Gruppen)	Schief/Nichtnormal	Kruskal-Wallis-Test

Ergebnisse interpretieren

Ergebnis	Bedeutung	Was zu berichten ist
p < 0,05	Statistisch signifikant	"Der Unterschied war statistisch signifikant (p = 0,023)"
p ≥ 0,05	Nicht statistisch signifikant	"Es wurde kein signifikanter Unterschied festgestellt (p = 0,34)"
Effektgröße (Cohens d)	Praktische Signifikanz	"Ein großer Effekt (d = 0,8)", auch wenn bei kleinem n nicht signifikant

Für den Zusammenhang zwischen Studiendesign und geeigneten statistischen Tests, siehe Wahl eines Studiendesigns: Between, Within und Mixed.

Die Berichts-Checkliste

Wenn Sie quantitative Ergebnisse präsentieren, berücksichtigen Sie:

Stichprobengröße — "n = 24 Teilnehmende pro Bedingung"
Zentrale Tendenz — Mittelwert und/oder Median je nach Eignung
Streuung — Standardabweichung oder Interquartilsabstand
Visualisierung — Histogramm, Boxplot oder Konfidenzintervall-Plot
Statistischer Test — Welcher Test und warum
Signifikanz — p-Wert und Effektgröße
Praktische Interpretation — Was das für das Produkt bedeutet

Technische Referenz: R-Code für die Analyse

Wenn Sie die im praktischen Durchlauf beschriebene Analyse durchführen möchten, benötigen Sie ein Werkzeug, das Statistik zuverlässig handhabt. Tabellenkalkulationen sind bequem, aber Fehler verstecken sich in Zellen und Formeln lassen sich nicht einfach überprüfen oder teilen. R ist kostenlos, Open Source und produziert reproduzierbare Skripte, die genau dokumentieren, was Sie getan haben.

Der folgende Code führt den Wilcoxon-Vorzeichen-Rang-Test durch und berechnet Cohens d für den Checkout-Flow-Vergleich.

# R-Analyse für eine vergleichende Usability-Studie

# --- Benötigte Bibliotheken laden ---
library(tidyverse)
library(effectsize)

# --- Datensatz erstellen ---
# 30 Teilnehmende, jede Person bewertet Version A und Version B
study_data <- data.frame(
  participant_id = 1:30,
  sus_a = c(72.5, 65.0, 55.0, 80.0, 60.0, 85.0, 70.0, 47.5, 75.0, 67.5,
            82.5, 70.0, 57.5, 72.5, 62.5, 77.5, 70.0, 65.0, 75.0, 85.0,
            50.0, 75.0, 80.0, 62.5, 72.5, 67.5, 70.0, 80.0, 55.0, 75.0),
  sus_b = c(85.0, 77.5, 67.5, 92.5, 70.0, 95.0, 82.5, 60.0, 87.5, 80.0,
            90.0, 82.5, 72.5, 85.0, 77.5, 90.0, 82.5, 75.0, 85.0, 97.5,
            65.0, 87.5, 92.5, 75.0, 85.0, 80.0, 82.5, 90.0, 70.0, 87.5)
)

# --- Wilcoxon-Vorzeichen-Rang-Test durchführen ---
# Verwendet, weil die Normalverteilungsannahme verletzt war
wilcox.test(study_data$sus_b, study_data$sus_a, paired = TRUE, exact = FALSE)

# --- Effektgröße berechnen (Cohens d) ---
# Der p-Wert sagt, dass der Unterschied real ist; die Effektgröße sagt, wie groß
cohens_d(study_data$sus_b, study_data$sus_a, paired = TRUE)

Die Ausführung dieses Codes ergibt den p-Wert (p < 0,000001) und die Effektgröße (d = 1,2), die im Durchlauf berichtet wurden. Sie können die Vektoren sus_a und sus_b durch Ihre eigenen Daten ersetzen, um Ihre Studien zu analysieren.

Was das für die Praxis bedeutet

Quantitative Analyse bedeutet nicht, zu beweisen, dass Sie recht haben. Es geht darum, ehrlich einzuschätzen, was Ihre Daten aussagen können und was nicht.

Erst den Plausibilitätscheck — Rohdaten prüfen, bevor Sie irgendetwas berechnen
Immer visualisieren — Verteilungen plotten, bevor Sie Statistiken wählen
Test zum Design passend wählen — Between vs. Within, normal vs. schief
Ehrlich berichten — Effektgrößen einbeziehen, nicht nur p-Werte
Praktisch interpretieren — Statistische Signifikanz ist nicht die Ziellinie

Das Ziel ist nicht, beeindruckende Zahlen zu produzieren. Es geht darum, die Unsicherheit zu reduzieren, ob Ihre Designänderungen tatsächlich einen Unterschied machen.

Um die benötigte Stichprobengröße für Ihren Analyseansatz zu berechnen, siehe den Stichproben-Rechner: Tool und Erklärungen.

Für die übergeordnete qualitativ-quantitative Unterscheidung und wann beide Ansätze kombiniert werden sollten, siehe Qualitative und quantitative Forschung: Eine falsche Dichotomie.

Berichten Sie nicht einfach Durchschnitte. Verstehen Sie, was Ihre Daten tatsächlich aussagen.

Der Plausibilitätscheck: Bevor Sie irgendetwas berechnen

Bevor Sie einen Mittelwert, Median oder irgendeine Statistik berechnen, müssen Sie die Rohdaten prüfen. Zahlen ohne Kontext sind gefährlich.

Die entscheidende Frage

Für jeden Datenpunkt, der ungewöhnlich aussieht, fragen Sie: Ist das Signal oder Rauschen?

Beobachtung	Mögliches Signal	Mögliches Rauschen
Time on Task: 5 Sekunden	Nutzende Person ist Experte	Seite konnte nicht geladen werden
Time on Task: 600 Sekunden	Aufgabe ist wirklich schwierig	Person hat Kaffee geholt
Zufriedenheit: 1/7	Echte Frustration	Verklickt oder Trotzantwort
Task Success: 0 %	Design ist fehlerhaft	Technischer Fehler während des Tests

Das Bereinigungsprotokoll

Ausreißer markieren, die außerhalb der erwarteten Bereiche liegen
Sitzungsnotizen oder Aufnahmen auf Kontext prüfen
Entscheiden: Entfernen (wenn Rauschen), behalten (wenn Signal) oder notieren (wenn unklar)
Dokumentieren Sie jede Entscheidung für Transparenz

Für Hilfe bei der Auswahl des richtigen Messinstruments vor der Analyse, siehe UX-Messinstrumente: Skalen, Scores und was sie wirklich messen.

Verteilungen visualisieren: Warum Durchschnitte lügen

Der Durchschnitt (Mittelwert) ist die am häufigsten berichtete Statistik und oft die irreführendste. Bevor Sie irgendeinen Mittelwert berechnen, müssen Sie die Form Ihrer Daten verstehen.

Die Histogramm-zuerst-Regel

Was verschiedene Formen bedeuten

Verteilungsform	Häufige UX-Metriken	Implikation
Normal (Glocke)	Zufriedenheitsbewertungen (manchmal)	Standardstatistiken anwendbar
Rechtsschief	Time on Task, Fehlerzählungen	Median verwenden, nichtparametrische Tests in Betracht ziehen
Bimodal	Task Success mit unterschiedlichen Nutzergruppen	Möglicherweise zwei Populationen; zuerst segmentieren
Gleichverteilt	Schlecht designte Bewertungsskala	Skala erfasst möglicherweise keine echten Unterschiede

Mittelwert vs. Median: Wann welchen verwenden

Statistik	Verwenden, wenn	Beispiel
Mittelwert	Daten normalverteilt sind	"Die durchschnittliche Zufriedenheit betrug 5,2/7"
Median	Daten schief sind oder Ausreißer enthalten	"Die mediane Time on Task betrug 45 Sekunden"
Beides	Sie die Schiefe zeigen wollen	"Mittelwert 72 s, Median 45 s (rechtsschief)"

Der Notched-Boxplot-Trick

Statistische Signifikanztests können komplex sein. Aber es gibt eine visuelle Abkürzung, die Ihnen eine schnelle, intuitive Antwort gibt: den Notched Boxplot.

Wie er funktioniert

Ein Notched Boxplot fügt "Einschnitte" (Notches) um den Median hinzu. Diese Einschnitte repräsentieren das ungefähre 95 %-Konfidenzintervall für den Median.

Einen Boxplot lesen

Element	Was es zeigt
Mittellinie	Median (50. Perzentil)
Boxränder	25. und 75. Perzentil (IQR)
Einschnitte	~95 %-Konfidenzintervall für den Median
Whiskers	Bereich typischer Daten (1,5 × IQR)
Punkte jenseits der Whiskers	Ausreißer

Wann Notched Boxplots einsetzen

Zwei Versionen vergleichen (A vs. B)
Nutzersegmente vergleichen (Anfänger*innen vs. Expert*innen)
Schnelle Stakeholder-Kommunikation (visuell intuitiver als p-Werte)
Explorative Analyse vor dem Durchführen formaler Tests

Praktischer Durchlauf: Eine vergleichende Analyse

Theorie ist nützlich. Sie auf eine reale Entscheidung angewendet zu sehen, ist besser. Gehen wir ein Beispiel von Anfang bis Ende durch.

Das Setup

Die Daten

Nach der Datenerhebung berechnen Sie die deskriptiven Statistiken:

Version	Median SUS Score	Interpretation (Banister Benchmark)
Version A (Aktuell)	70,0	"Gut" — akzeptabel, aber mit Verbesserungspotenzial
Version B (Neu)	82,5	"Exzellent" — Nutzende finden es sehr benutzerfreundlich

Die Mediane erzählen eine vielversprechende Geschichte. Version B liegt 12,5 Punkte höher. Aber ist dieser Unterschied real, oder könnte er zufälliges Rauschen aus Ihrer Stichprobe sein?

Den richtigen Test wählen

Die Signifikanz

Sie führen den Wilcoxon-Vorzeichen-Rang-Test durch. Das Ergebnis: p < 0,000001.

Aber hier hören viele Forschende auf, und hier sollten Sie weitermachen.

Die Größenordnung: Effektgröße

Deshalb müssen Sie die Effektgröße berichten. Für den Vergleich zweier Mittelwerte (oder Mediane) ist das Standardmaß Cohens d.

Cohens d drückt den Unterschied zwischen Gruppen in Standardabweichungen aus. Die konventionellen Benchmarks sind:

Cohens d	Interpretation
d ≈ 0,2	Kleiner Effekt
d ≈ 0,5	Mittlerer Effekt
d ≈ 0,8	Großer Effekt

Der Bericht: Kommunikation an Stakeholder

So könnten Sie die Empfehlung formulieren:

"Wir sollten Entwicklungsressourcen priorisieren, um das neue Checkout-Design (Version B) zu bauen und auszurollen. Unsere Usability-Studie mit 30 repräsentativen Kund*innen zeigt, dass das neue Design eine messbar überlegene User Experience bietet. Die Verbesserung ist sowohl statistisch signifikant (p < 0,001) als auch praktisch groß (Effektgröße d = 1,2), was den Usability-Score unseres Checkout-Flows von 'Gut' auf 'Exzellent' in Branchenbenchmarks hebt. Angesichts des direkten Zusammenhangs zwischen Checkout-Usability und Conversion-Raten ist diese Investition eine risikoarme Maßnahme mit hohem Ertrag."

Für die Anwendung quantitativer Analyse über Zeit durch Benchmarking, siehe UX Benchmarking: Fortschritt über Zeit messen.

Den richtigen statistischen Test wählen

Der richtige Test hängt von zwei Faktoren ab: Ihrem Studiendesign und Ihrer Datenverteilung.

Entscheidungsrahmen

Testauswahl-Tabelle

Studiendesign	Datenverteilung	Empfohlener Test
Between-Subjects (2 Gruppen)	Normal	Unabhängiger t-Test
Between-Subjects (2 Gruppen)	Schief/Nichtnormal	Mann-Whitney-U-Test
Within-Subjects (2 Bedingungen)	Normal	Gepaarter t-Test
Within-Subjects (2 Bedingungen)	Schief/Nichtnormal	Wilcoxon-Vorzeichen-Rang-Test
Between-Subjects (3+ Gruppen)	Normal	Einfaktorielle ANOVA
Between-Subjects (3+ Gruppen)	Schief/Nichtnormal	Kruskal-Wallis-Test

Ergebnisse interpretieren

Ergebnis	Bedeutung	Was zu berichten ist
p < 0,05	Statistisch signifikant	"Der Unterschied war statistisch signifikant (p = 0,023)"
p ≥ 0,05	Nicht statistisch signifikant	"Es wurde kein signifikanter Unterschied festgestellt (p = 0,34)"
Effektgröße (Cohens d)	Praktische Signifikanz	"Ein großer Effekt (d = 0,8)", auch wenn bei kleinem n nicht signifikant

Für den Zusammenhang zwischen Studiendesign und geeigneten statistischen Tests, siehe Wahl eines Studiendesigns: Between, Within und Mixed.

Die Berichts-Checkliste

Wenn Sie quantitative Ergebnisse präsentieren, berücksichtigen Sie:

Stichprobengröße — "n = 24 Teilnehmende pro Bedingung"
Zentrale Tendenz — Mittelwert und/oder Median je nach Eignung
Streuung — Standardabweichung oder Interquartilsabstand
Visualisierung — Histogramm, Boxplot oder Konfidenzintervall-Plot
Statistischer Test — Welcher Test und warum
Signifikanz — p-Wert und Effektgröße
Praktische Interpretation — Was das für das Produkt bedeutet

Technische Referenz: R-Code für die Analyse

Der folgende Code führt den Wilcoxon-Vorzeichen-Rang-Test durch und berechnet Cohens d für den Checkout-Flow-Vergleich.

# R-Analyse für eine vergleichende Usability-Studie

# --- Benötigte Bibliotheken laden ---
library(tidyverse)
library(effectsize)

# --- Datensatz erstellen ---
# 30 Teilnehmende, jede Person bewertet Version A und Version B
study_data <- data.frame(
  participant_id = 1:30,
  sus_a = c(72.5, 65.0, 55.0, 80.0, 60.0, 85.0, 70.0, 47.5, 75.0, 67.5,
            82.5, 70.0, 57.5, 72.5, 62.5, 77.5, 70.0, 65.0, 75.0, 85.0,
            50.0, 75.0, 80.0, 62.5, 72.5, 67.5, 70.0, 80.0, 55.0, 75.0),
  sus_b = c(85.0, 77.5, 67.5, 92.5, 70.0, 95.0, 82.5, 60.0, 87.5, 80.0,
            90.0, 82.5, 72.5, 85.0, 77.5, 90.0, 82.5, 75.0, 85.0, 97.5,
            65.0, 87.5, 92.5, 75.0, 85.0, 80.0, 82.5, 90.0, 70.0, 87.5)
)

# --- Wilcoxon-Vorzeichen-Rang-Test durchführen ---
# Verwendet, weil die Normalverteilungsannahme verletzt war
wilcox.test(study_data$sus_b, study_data$sus_a, paired = TRUE, exact = FALSE)

# --- Effektgröße berechnen (Cohens d) ---
# Der p-Wert sagt, dass der Unterschied real ist; die Effektgröße sagt, wie groß
cohens_d(study_data$sus_b, study_data$sus_a, paired = TRUE)

Was das für die Praxis bedeutet

Quantitative Analyse bedeutet nicht, zu beweisen, dass Sie recht haben. Es geht darum, ehrlich einzuschätzen, was Ihre Daten aussagen können und was nicht.

Erst den Plausibilitätscheck — Rohdaten prüfen, bevor Sie irgendetwas berechnen
Immer visualisieren — Verteilungen plotten, bevor Sie Statistiken wählen
Test zum Design passend wählen — Between vs. Within, normal vs. schief
Ehrlich berichten — Effektgrößen einbeziehen, nicht nur p-Werte
Praktisch interpretieren — Statistische Signifikanz ist nicht die Ziellinie

Das Ziel ist nicht, beeindruckende Zahlen zu produzieren. Es geht darum, die Unsicherheit zu reduzieren, ob Ihre Designänderungen tatsächlich einen Unterschied machen.

Um die benötigte Stichprobengröße für Ihren Analyseansatz zu berechnen, siehe den Stichproben-Rechner: Tool und Erklärungen.

Für die übergeordnete qualitativ-quantitative Unterscheidung und wann beide Ansätze kombiniert werden sollten, siehe Qualitative und quantitative Forschung: Eine falsche Dichotomie.

Quantitative Analyse: Von Metriken zu Signifikanz

Zusammenfassung

Der Plausibilitätscheck: Bevor Sie irgendetwas berechnen

Die entscheidende Frage

Das Bereinigungsprotokoll

Verteilungen visualisieren: Warum Durchschnitte lügen

Die Histogramm-zuerst-Regel

Was verschiedene Formen bedeuten

Mittelwert vs. Median: Wann welchen verwenden

Der Notched-Boxplot-Trick

Wie er funktioniert

Einen Boxplot lesen

Wann Notched Boxplots einsetzen

Praktischer Durchlauf: Eine vergleichende Analyse

Das Setup

Die Daten

Den richtigen Test wählen

Die Signifikanz

Die Größenordnung: Effektgröße

Der Bericht: Kommunikation an Stakeholder

Den richtigen statistischen Test wählen

Entscheidungsrahmen

Testauswahl-Tabelle

Ergebnisse interpretieren

Die Berichts-Checkliste

Technische Referenz: R-Code für die Analyse

Was das für die Praxis bedeutet

Kostenloses Research-Handbuch

Verwandte Resources

Stichproben-Rechner: Tool und Erklärungen

UX-Messinstrumente: Skalen, Scores und was sie wirklich messen

Das Applied Research Framework: Wie alles zusammenhängt

Bereit für den nächsten Schritt?

Quantitative Analyse: Von Metriken zu Signifikanz

Zusammenfassung

Der Plausibilitätscheck: Bevor Sie irgendetwas berechnen

Die entscheidende Frage

Das Bereinigungsprotokoll

Verteilungen visualisieren: Warum Durchschnitte lügen

Die Histogramm-zuerst-Regel

Was verschiedene Formen bedeuten

Mittelwert vs. Median: Wann welchen verwenden

Der Notched-Boxplot-Trick

Wie er funktioniert

Einen Boxplot lesen

Wann Notched Boxplots einsetzen

Praktischer Durchlauf: Eine vergleichende Analyse

Das Setup

Die Daten

Den richtigen Test wählen

Die Signifikanz

Die Größenordnung: Effektgröße

Der Bericht: Kommunikation an Stakeholder

Den richtigen statistischen Test wählen

Entscheidungsrahmen

Testauswahl-Tabelle

Ergebnisse interpretieren

Die Berichts-Checkliste

Technische Referenz: R-Code für die Analyse

Was das für die Praxis bedeutet

Kostenloses Research-Handbuch

Verwandte Resources

Stichproben-Rechner: Tool und Erklärungen

UX-Messinstrumente: Skalen, Scores und was sie wirklich messen

Das Applied Research Framework: Wie alles zusammenhängt

Bereit für den nächsten Schritt?