Zusammenfassung
Between-Subjects Designs vergleichen verschiedene Gruppen und bieten saubere Vergleiche, erfordern aber größere Stichproben. Within-Subjects Designs lassen alle Teilnehmenden alle Bedingungen erleben, liefern mehr statistische Power, riskieren aber Reihenfolgeeffekte. Counterbalancing mildert diese Effekte, indem die Reihenfolge der Bedingungen variiert wird. Die Wahl hängt von Ihren Forschungsfragen, verfügbaren Teilnehmenden und praktischen Einschränkungen ab.
Wenn Sie zwei oder mehr Designvarianten vergleichen oder dasselbe Design mit verschiedenen Nutzersegmenten testen, müssen Sie entscheiden, wie Sie die Studie strukturieren. Wer sieht was? In welcher Reihenfolge?
Diese Entscheidung ist keine Formalität. Sie bestimmt direkt, welche Schlussfolgerungen Sie ziehen können, wie viele Teilnehmende Sie benötigen und welche Risiken Sie managen müssen.
Die zentrale Frage
Stellen Sie sich vor, Sie möchten zwei Checkout-Flows vergleichen: das aktuelle Design (A) und ein vorgeschlagenes Redesign (B). Sie haben zwei grundlegende Optionen:
- Between-Subjects: Verschiedene Personen testen jeweils eine Version
- Within-Subjects: Dieselben Personen testen beide Versionen
Jeder Ansatz hat eigene Trade-offs.
Between-Subjects Design (Unabhängige Messungen)
Definition: Verschiedene Teilnehmende testen verschiedene Versionen. Gruppe A sieht Prototyp X; Gruppe B sieht Prototyp Y. Keine teilnehmende Person sieht beides.
Der Trade-off
| Aspekt | Bewertung |
|---|---|
| Pro | Kein "Lerneffekt": A zu sehen lehrt nicht, wie B funktioniert. Saubere, unkontaminierte Daten. |
| Contra | Erfordert mehr Teilnehmende (n=30+ pro Gruppe), um individuelle Unterschiede zwischen den Gruppen auszugleichen. |
Warum es funktioniert
Keine Reihenfolgeeffekte: Teilnehmende können nicht davon beeinflusst werden, die andere Version zuerst gesehen zu haben.
Saubere Vergleiche: Reaktionen auf jede Version sind unabhängig, es gibt keine Kontamination zwischen den Bedingungen.
Einfachere Sitzungen: Jede teilnehmende Person hat ein Aufgabenset, was die Sitzungsdauer verkürzen und Ermüdung reduzieren kann.
Die Kosten
Erfordert mehr Teilnehmende: Da Sie verschiedene Personen vergleichen, brauchen Sie in jeder Gruppe genug, um individuelle Unterschiede auszugleichen. In der Regel benötigen Sie etwa doppelt so viele Teilnehmende wie bei einem Within-Subjects Design, um dieselbe statistische Power zu erreichen [1].
Individuelle Unterschiede werden zu Rauschen: Manche beobachteten Unterschiede könnten eher die Zusammensetzung der Gruppen widerspiegeln als die Designs selbst.
Wann Sie es einsetzen
Between-Subjects ist die richtige Wahl, wenn:
- Die Exposition gegenüber einer Bedingung die Antworten auf die andere kontaminieren würde
- Lerneffekte problematisch wären (dieselbe Aufgabe zweimal zu testen würde Ergebnisse verzerren)
- Sie grundlegend unterschiedliche Erfahrungen testen (z. B. zwei völlig verschiedene Produktkonzepte)
Within-Subjects Design (Messwiederholung)
Definition: Dieselben Teilnehmenden testen beide Versionen. Jede Person dient als eigene Baseline und erlebt Prototyp X und dann Prototyp Y (oder umgekehrt).
Der Trade-off
| Aspekt | Bewertung |
|---|---|
| Pro | Hohe statistische Power mit weniger Teilnehmenden: Jede Person dient als eigene Kontrolle, wodurch individuelle Unterschiede eliminiert werden. |
| Contra | Hohes Risiko von "Reihenfolgeeffekten" (Lernen). A zuerst zu sehen kann lehren, wie B funktioniert. |
Warum es funktioniert
Mehr statistische Power: Da Sie jede Person mit sich selbst vergleichen, heben sich individuelle Unterschiede auf. Sie benötigen weniger Teilnehmende, um denselben Effekt nachzuweisen [2].
Reichhaltigeres vergleichendes Feedback: Teilnehmende können ihre Erfahrungen direkt vergleichen ("B fühlte sich schneller an als A, weil...").
Kosteneffizienz: Sie erhalten mehr Datenpunkte pro teilnehmender Person.
Das Risiko: Reihenfolgeeffekte
Reihenfolgeeffekte: Die Reihenfolge, in der Teilnehmende die Bedingungen erleben, spielt eine Rolle. Zuerst A zu sehen, kann verändern, wie B wahrgenommen wird.
Ermüdung und Lernen: Längere Sitzungen können Teilnehmende ermüden, und Übung mit der ersten Bedingung kann die Leistung bei der zweiten verbessern.
Carryover-Effekte: Wissen oder Erwartungen aus einer Bedingung können in die nächste fortwirken.
Reihenfolgeeffekte
Reihenfolgeeffekte sind ein zentrales Problem bei Within-Subjects Designs. Sie treten in zwei Hauptformen auf:
Übungseffekte: Die Leistung verbessert sich einfach dadurch, dass Teilnehmende mit der Aufgabenart, dem Interface-Stil oder der Testsituation vertrauter werden.
Ermüdungseffekte: Die Leistung verschlechtert sich, weil Teilnehmende müde, gelangweilt oder weniger aufmerksam werden.
Sensibilisierung: Das Erleben einer Bedingung verändert, wie Teilnehmende die andere wahrnehmen. Sie bemerken Dinge, die ihnen sonst nicht aufgefallen wären.
Wenn alle A vor B erleben, lässt sich nicht feststellen, ob Leistungsunterschiede auf die Designs zurückzuführen sind oder schlicht auf die Reihenfolge.
Für ein breiteres Framework zum Umgang mit Bias durch Studiendesign, siehe Forschungsqualität und Umgang mit Bias.
Counterbalancing
Die Lösung für Reihenfolgeeffekte ist Counterbalancing: die systematische Variation der Reihenfolge von Bedingungen über die Teilnehmenden hinweg.
Einfaches Counterbalancing
Bei zwei Bedingungen (A und B):
- Die Hälfte der Teilnehmenden erlebt A dann B
- Die andere Hälfte erlebt B dann A
Auf diese Weise werden Übungs- oder Ermüdungseffekte auf beide Bedingungen verteilt.
Latin-Square-Counterbalancing
Bei mehr als zwei Bedingungen wird vollständiges Counterbalancing unpraktisch (3 Bedingungen = 6 Reihenfolgen; 4 Bedingungen = 24 Reihenfolgen). Ein Latin-Square Design stellt sicher, dass jede Bedingung gleich häufig an jeder Position erscheint, ohne jede mögliche Reihenfolge zu testen.
Für drei Bedingungen (A, B, C):
| Gruppe | Reihenfolge |
|---|---|
| 1 | A → B → C |
| 2 | B → C → A |
| 3 | C → A → B |
Jede Bedingung erscheint einmal an jeder Position (erste, zweite, dritte).
Mixed Designs
Manchmal benötigen Sie Elemente beider Ansätze. Ein Mixed Design (oder "Split-Plot"-Design) kombiniert Between-Subjects- und Within-Subjects-Faktoren.
Beispiel: Sie möchten zwei Checkout-Flows (A vs. B) über zwei Nutzersegmente hinweg vergleichen (neue vs. wiederkehrende Nutzer*innen).
- Between-Subjects-Faktor: Nutzersegment (eine Person ist entweder neu oder wiederkehrend)
- Within-Subjects-Faktor: Checkout-Flow (jede Person testet sowohl A als auch B)
Dieses Design erlaubt die Frage: "Unterscheidet sich der Effekt des Checkout-Redesigns bei neuen gegenüber wiederkehrenden Nutzer*innen?"
Praktisches Entscheidungs-Framework
Nutzen Sie dieses Framework zur Designwahl:
| Faktor | Between-Subjects | Within-Subjects |
|---|---|---|
| Verfügbarkeit von Teilnehmenden | Begrenzt | Ausreichend |
| Risiko von Reihenfolgeeffekten | Hoch | Gering/Handhabbar |
| Bedarf an direktem Vergleich | Gering | Hoch |
| Toleranz der Sitzungsdauer | Kürzer | Länger akzeptabel |
| Benötigte statistische Power | Geringer | Höher |
| Bedenken bzgl. Lernen/Übung | Hoch | Gering |
Um zu sehen, wie Ihre Designwahl die Stichprobenanforderungen beeinflusst, nutzen Sie den Stichproben-Rechner: Tool und Erklärungen.
Das Baseline-Problem
Ein häufiger Fehler ist es, ein neues Design nur mit sich selbst über die Zeit zu vergleichen, anstatt mit dem aktuellen Design.
"Nutzer*innen schlossen den Checkout schneller ab, nachdem sie das neue Design eine Woche lang verwendet hatten" sagt nicht, ob das neue Design besser ist. Es sagt, dass Nutzer*innen gelernt haben, es zu verwenden.
Für einen validen Vergleich brauchen Sie:
- Das neue Design im Vergleich zum aktuellen Design (nicht nur mit sich selbst über die Zeit)
- Korrektes Counterbalancing bei Within-Subjects
- Gematchte Gruppen bei Between-Subjects
Für die statistischen Tests, die für jeden Designtyp gelten, siehe Quantitative Analyse: Von Metriken zu Signifikanz.
Was das für die Praxis bedeutet
Studiendesign ist keine Formalität, es ist die Struktur, die Ihre Schlussfolgerungen valide oder invalide macht.
Bevor Sie auch nur eine teilnehmende Person rekrutieren, entscheiden Sie:
- Welche Vergleiche müssen Sie anstellen?
- Können Teilnehmende sinnvoll alle Bedingungen durchlaufen?
- Welche Reihenfolgeeffekte könnten auftreten, und wie kontrollieren Sie sie?
- Wie viele Teilnehmende benötigen Sie bei Ihrem gewählten Design?
Das richtige Design hängt von Ihren spezifischen Forschungsfragen, praktischen Einschränkungen und den Schlussfolgerungen ab, die Sie stützen müssen. Es gibt kein universell "bestes" Vorgehen, nur das richtige Vorgehen für Ihre Situation.
Für den Zusammenhang zwischen Studiendesign und den Forschungsbausteinen, siehe Bausteine und Kernmethoden: Ein Framework für UX Research.