Wahl eines Studiendesigns: Between, Within und Mixed

Wenn Sie zwei oder mehr Designvarianten vergleichen oder dasselbe Design mit verschiedenen Nutzersegmenten testen, müssen Sie entscheiden, wie Sie die Studie strukturieren. Wer sieht was? In welcher Reihenfolge?

Diese Entscheidung ist keine Formalität. Sie bestimmt direkt, welche Schlussfolgerungen Sie ziehen können, wie viele Teilnehmende Sie benötigen und welche Risiken Sie managen müssen.

Die zentrale Frage

Stellen Sie sich vor, Sie möchten zwei Checkout-Flows vergleichen: das aktuelle Design (A) und ein vorgeschlagenes Redesign (B). Sie haben zwei grundlegende Optionen:

Between-Subjects: Verschiedene Personen testen jeweils eine Version
Within-Subjects: Dieselben Personen testen beide Versionen

Jeder Ansatz hat eigene Trade-offs.

Between-Subjects Design (Unabhängige Messungen)

Definition: Verschiedene Teilnehmende testen verschiedene Versionen. Gruppe A sieht Prototyp X; Gruppe B sieht Prototyp Y. Keine teilnehmende Person sieht beides.

Der Trade-off

Aspekt	Bewertung
Pro	Kein "Lerneffekt": A zu sehen lehrt nicht, wie B funktioniert. Saubere, unkontaminierte Daten.
Contra	Erfordert mehr Teilnehmende (n=30+ pro Gruppe), um individuelle Unterschiede zwischen den Gruppen auszugleichen.

Warum es funktioniert

Keine Reihenfolgeeffekte: Teilnehmende können nicht davon beeinflusst werden, die andere Version zuerst gesehen zu haben.

Saubere Vergleiche: Reaktionen auf jede Version sind unabhängig, es gibt keine Kontamination zwischen den Bedingungen.

Einfachere Sitzungen: Jede teilnehmende Person hat ein Aufgabenset, was die Sitzungsdauer verkürzen und Ermüdung reduzieren kann.

Die Kosten

Erfordert mehr Teilnehmende: Da Sie verschiedene Personen vergleichen, brauchen Sie in jeder Gruppe genug, um individuelle Unterschiede auszugleichen. In der Regel benötigen Sie etwa doppelt so viele Teilnehmende wie bei einem Within-Subjects Design, um dieselbe statistische Power zu erreichen ^[1].

Individuelle Unterschiede werden zu Rauschen: Manche beobachteten Unterschiede könnten eher die Zusammensetzung der Gruppen widerspiegeln als die Designs selbst.

Wann Sie es einsetzen

Between-Subjects ist die richtige Wahl, wenn:

Die Exposition gegenüber einer Bedingung die Antworten auf die andere kontaminieren würde
Lerneffekte problematisch wären (dieselbe Aufgabe zweimal zu testen würde Ergebnisse verzerren)
Sie grundlegend unterschiedliche Erfahrungen testen (z. B. zwei völlig verschiedene Produktkonzepte)

Within-Subjects Design (Messwiederholung)

Definition: Dieselben Teilnehmenden testen beide Versionen. Jede Person dient als eigene Baseline und erlebt Prototyp X und dann Prototyp Y (oder umgekehrt).

Der Trade-off

Aspekt	Bewertung
Pro	Hohe statistische Power mit weniger Teilnehmenden: Jede Person dient als eigene Kontrolle, wodurch individuelle Unterschiede eliminiert werden.
Contra	Hohes Risiko von "Reihenfolgeeffekten" (Lernen). A zuerst zu sehen kann lehren, wie B funktioniert.

Warum es funktioniert

Mehr statistische Power: Da Sie jede Person mit sich selbst vergleichen, heben sich individuelle Unterschiede auf. Sie benötigen weniger Teilnehmende, um denselben Effekt nachzuweisen ^[2].

Reichhaltigeres vergleichendes Feedback: Teilnehmende können ihre Erfahrungen direkt vergleichen ("B fühlte sich schneller an als A, weil...").

Kosteneffizienz: Sie erhalten mehr Datenpunkte pro teilnehmender Person.

Das Risiko: Reihenfolgeeffekte

Reihenfolgeeffekte: Die Reihenfolge, in der Teilnehmende die Bedingungen erleben, spielt eine Rolle. Zuerst A zu sehen, kann verändern, wie B wahrgenommen wird.

Ermüdung und Lernen: Längere Sitzungen können Teilnehmende ermüden, und Übung mit der ersten Bedingung kann die Leistung bei der zweiten verbessern.

Carryover-Effekte: Wissen oder Erwartungen aus einer Bedingung können in die nächste fortwirken.

Reihenfolgeeffekte

Reihenfolgeeffekte sind ein zentrales Problem bei Within-Subjects Designs. Sie treten in zwei Hauptformen auf:

Übungseffekte: Die Leistung verbessert sich einfach dadurch, dass Teilnehmende mit der Aufgabenart, dem Interface-Stil oder der Testsituation vertrauter werden.

Ermüdungseffekte: Die Leistung verschlechtert sich, weil Teilnehmende müde, gelangweilt oder weniger aufmerksam werden.

Sensibilisierung: Das Erleben einer Bedingung verändert, wie Teilnehmende die andere wahrnehmen. Sie bemerken Dinge, die ihnen sonst nicht aufgefallen wären.

Wenn alle A vor B erleben, lässt sich nicht feststellen, ob Leistungsunterschiede auf die Designs zurückzuführen sind oder schlicht auf die Reihenfolge.

Für ein breiteres Framework zum Umgang mit Bias durch Studiendesign, siehe Forschungsqualität und Umgang mit Bias.

Counterbalancing

Die Lösung für Reihenfolgeeffekte ist Counterbalancing: die systematische Variation der Reihenfolge von Bedingungen über die Teilnehmenden hinweg.

Einfaches Counterbalancing

Bei zwei Bedingungen (A und B):

Die Hälfte der Teilnehmenden erlebt A dann B
Die andere Hälfte erlebt B dann A

Auf diese Weise werden Übungs- oder Ermüdungseffekte auf beide Bedingungen verteilt.

Latin-Square-Counterbalancing

Bei mehr als zwei Bedingungen wird vollständiges Counterbalancing unpraktisch (3 Bedingungen = 6 Reihenfolgen; 4 Bedingungen = 24 Reihenfolgen). Ein Latin-Square Design stellt sicher, dass jede Bedingung gleich häufig an jeder Position erscheint, ohne jede mögliche Reihenfolge zu testen.

Für drei Bedingungen (A, B, C):

Gruppe	Reihenfolge
1	A → B → C
2	B → C → A
3	C → A → B

Jede Bedingung erscheint einmal an jeder Position (erste, zweite, dritte).

Mixed Designs

Manchmal benötigen Sie Elemente beider Ansätze. Ein Mixed Design (oder "Split-Plot"-Design) kombiniert Between-Subjects- und Within-Subjects-Faktoren.

Beispiel: Sie möchten zwei Checkout-Flows (A vs. B) über zwei Nutzersegmente hinweg vergleichen (neue vs. wiederkehrende Nutzer*innen).

Between-Subjects-Faktor: Nutzersegment (eine Person ist entweder neu oder wiederkehrend)
Within-Subjects-Faktor: Checkout-Flow (jede Person testet sowohl A als auch B)

Dieses Design erlaubt die Frage: "Unterscheidet sich der Effekt des Checkout-Redesigns bei neuen gegenüber wiederkehrenden Nutzer*innen?"

Praktisches Entscheidungs-Framework

Nutzen Sie dieses Framework zur Designwahl:

Faktor	Between-Subjects	Within-Subjects
Verfügbarkeit von Teilnehmenden	Begrenzt	Ausreichend
Risiko von Reihenfolgeeffekten	Hoch	Gering/Handhabbar
Bedarf an direktem Vergleich	Gering	Hoch
Toleranz der Sitzungsdauer	Kürzer	Länger akzeptabel
Benötigte statistische Power	Geringer	Höher
Bedenken bzgl. Lernen/Übung	Hoch	Gering

Um zu sehen, wie Ihre Designwahl die Stichprobenanforderungen beeinflusst, nutzen Sie den Stichproben-Rechner: Tool und Erklärungen.

Das Baseline-Problem

Ein häufiger Fehler ist es, ein neues Design nur mit sich selbst über die Zeit zu vergleichen, anstatt mit dem aktuellen Design.

"Nutzer*innen schlossen den Checkout schneller ab, nachdem sie das neue Design eine Woche lang verwendet hatten" sagt nicht, ob das neue Design besser ist. Es sagt, dass Nutzer*innen gelernt haben, es zu verwenden.

Für einen validen Vergleich brauchen Sie:

Das neue Design im Vergleich zum aktuellen Design (nicht nur mit sich selbst über die Zeit)
Korrektes Counterbalancing bei Within-Subjects
Gematchte Gruppen bei Between-Subjects

Für die statistischen Tests, die für jeden Designtyp gelten, siehe Quantitative Analyse: Von Metriken zu Signifikanz.

Was das für die Praxis bedeutet

Studiendesign ist keine Formalität, es ist die Struktur, die Ihre Schlussfolgerungen valide oder invalide macht.

Bevor Sie auch nur eine teilnehmende Person rekrutieren, entscheiden Sie:

Welche Vergleiche müssen Sie anstellen?
Können Teilnehmende sinnvoll alle Bedingungen durchlaufen?
Welche Reihenfolgeeffekte könnten auftreten, und wie kontrollieren Sie sie?
Wie viele Teilnehmende benötigen Sie bei Ihrem gewählten Design?

Das richtige Design hängt von Ihren spezifischen Forschungsfragen, praktischen Einschränkungen und den Schlussfolgerungen ab, die Sie stützen müssen. Es gibt kein universell "bestes" Vorgehen, nur das richtige Vorgehen für Ihre Situation.

Für den Zusammenhang zwischen Studiendesign und den Forschungsbausteinen, siehe Bausteine und Kernmethoden: Ein Framework für UX Research.

Diese Entscheidung ist keine Formalität. Sie bestimmt direkt, welche Schlussfolgerungen Sie ziehen können, wie viele Teilnehmende Sie benötigen und welche Risiken Sie managen müssen.

Die zentrale Frage

Stellen Sie sich vor, Sie möchten zwei Checkout-Flows vergleichen: das aktuelle Design (A) und ein vorgeschlagenes Redesign (B). Sie haben zwei grundlegende Optionen:

Between-Subjects: Verschiedene Personen testen jeweils eine Version
Within-Subjects: Dieselben Personen testen beide Versionen

Jeder Ansatz hat eigene Trade-offs.

Between-Subjects Design (Unabhängige Messungen)

Definition: Verschiedene Teilnehmende testen verschiedene Versionen. Gruppe A sieht Prototyp X; Gruppe B sieht Prototyp Y. Keine teilnehmende Person sieht beides.

Der Trade-off

Aspekt	Bewertung
Pro	Kein "Lerneffekt": A zu sehen lehrt nicht, wie B funktioniert. Saubere, unkontaminierte Daten.
Contra	Erfordert mehr Teilnehmende (n=30+ pro Gruppe), um individuelle Unterschiede zwischen den Gruppen auszugleichen.

Warum es funktioniert

Keine Reihenfolgeeffekte: Teilnehmende können nicht davon beeinflusst werden, die andere Version zuerst gesehen zu haben.

Saubere Vergleiche: Reaktionen auf jede Version sind unabhängig, es gibt keine Kontamination zwischen den Bedingungen.

Einfachere Sitzungen: Jede teilnehmende Person hat ein Aufgabenset, was die Sitzungsdauer verkürzen und Ermüdung reduzieren kann.

Die Kosten

Individuelle Unterschiede werden zu Rauschen: Manche beobachteten Unterschiede könnten eher die Zusammensetzung der Gruppen widerspiegeln als die Designs selbst.

Wann Sie es einsetzen

Between-Subjects ist die richtige Wahl, wenn:

Die Exposition gegenüber einer Bedingung die Antworten auf die andere kontaminieren würde
Lerneffekte problematisch wären (dieselbe Aufgabe zweimal zu testen würde Ergebnisse verzerren)
Sie grundlegend unterschiedliche Erfahrungen testen (z. B. zwei völlig verschiedene Produktkonzepte)

Within-Subjects Design (Messwiederholung)

Definition: Dieselben Teilnehmenden testen beide Versionen. Jede Person dient als eigene Baseline und erlebt Prototyp X und dann Prototyp Y (oder umgekehrt).

Der Trade-off

Aspekt	Bewertung
Pro	Hohe statistische Power mit weniger Teilnehmenden: Jede Person dient als eigene Kontrolle, wodurch individuelle Unterschiede eliminiert werden.
Contra	Hohes Risiko von "Reihenfolgeeffekten" (Lernen). A zuerst zu sehen kann lehren, wie B funktioniert.

Warum es funktioniert

Mehr statistische Power: Da Sie jede Person mit sich selbst vergleichen, heben sich individuelle Unterschiede auf. Sie benötigen weniger Teilnehmende, um denselben Effekt nachzuweisen ^[2].

Reichhaltigeres vergleichendes Feedback: Teilnehmende können ihre Erfahrungen direkt vergleichen ("B fühlte sich schneller an als A, weil...").

Kosteneffizienz: Sie erhalten mehr Datenpunkte pro teilnehmender Person.

Das Risiko: Reihenfolgeeffekte

Reihenfolgeeffekte: Die Reihenfolge, in der Teilnehmende die Bedingungen erleben, spielt eine Rolle. Zuerst A zu sehen, kann verändern, wie B wahrgenommen wird.

Ermüdung und Lernen: Längere Sitzungen können Teilnehmende ermüden, und Übung mit der ersten Bedingung kann die Leistung bei der zweiten verbessern.

Carryover-Effekte: Wissen oder Erwartungen aus einer Bedingung können in die nächste fortwirken.

Reihenfolgeeffekte

Reihenfolgeeffekte sind ein zentrales Problem bei Within-Subjects Designs. Sie treten in zwei Hauptformen auf:

Übungseffekte: Die Leistung verbessert sich einfach dadurch, dass Teilnehmende mit der Aufgabenart, dem Interface-Stil oder der Testsituation vertrauter werden.

Ermüdungseffekte: Die Leistung verschlechtert sich, weil Teilnehmende müde, gelangweilt oder weniger aufmerksam werden.

Sensibilisierung: Das Erleben einer Bedingung verändert, wie Teilnehmende die andere wahrnehmen. Sie bemerken Dinge, die ihnen sonst nicht aufgefallen wären.

Wenn alle A vor B erleben, lässt sich nicht feststellen, ob Leistungsunterschiede auf die Designs zurückzuführen sind oder schlicht auf die Reihenfolge.

Für ein breiteres Framework zum Umgang mit Bias durch Studiendesign, siehe Forschungsqualität und Umgang mit Bias.

Counterbalancing

Die Lösung für Reihenfolgeeffekte ist Counterbalancing: die systematische Variation der Reihenfolge von Bedingungen über die Teilnehmenden hinweg.

Einfaches Counterbalancing

Bei zwei Bedingungen (A und B):

Die Hälfte der Teilnehmenden erlebt A dann B
Die andere Hälfte erlebt B dann A

Auf diese Weise werden Übungs- oder Ermüdungseffekte auf beide Bedingungen verteilt.

Latin-Square-Counterbalancing

Für drei Bedingungen (A, B, C):

Gruppe	Reihenfolge
1	A → B → C
2	B → C → A
3	C → A → B

Jede Bedingung erscheint einmal an jeder Position (erste, zweite, dritte).

Mixed Designs

Manchmal benötigen Sie Elemente beider Ansätze. Ein Mixed Design (oder "Split-Plot"-Design) kombiniert Between-Subjects- und Within-Subjects-Faktoren.

Beispiel: Sie möchten zwei Checkout-Flows (A vs. B) über zwei Nutzersegmente hinweg vergleichen (neue vs. wiederkehrende Nutzer*innen).

Between-Subjects-Faktor: Nutzersegment (eine Person ist entweder neu oder wiederkehrend)
Within-Subjects-Faktor: Checkout-Flow (jede Person testet sowohl A als auch B)

Dieses Design erlaubt die Frage: "Unterscheidet sich der Effekt des Checkout-Redesigns bei neuen gegenüber wiederkehrenden Nutzer*innen?"

Praktisches Entscheidungs-Framework

Nutzen Sie dieses Framework zur Designwahl:

Faktor	Between-Subjects	Within-Subjects
Verfügbarkeit von Teilnehmenden	Begrenzt	Ausreichend
Risiko von Reihenfolgeeffekten	Hoch	Gering/Handhabbar
Bedarf an direktem Vergleich	Gering	Hoch
Toleranz der Sitzungsdauer	Kürzer	Länger akzeptabel
Benötigte statistische Power	Geringer	Höher
Bedenken bzgl. Lernen/Übung	Hoch	Gering

Um zu sehen, wie Ihre Designwahl die Stichprobenanforderungen beeinflusst, nutzen Sie den Stichproben-Rechner: Tool und Erklärungen.

Das Baseline-Problem

Ein häufiger Fehler ist es, ein neues Design nur mit sich selbst über die Zeit zu vergleichen, anstatt mit dem aktuellen Design.

Für einen validen Vergleich brauchen Sie:

Das neue Design im Vergleich zum aktuellen Design (nicht nur mit sich selbst über die Zeit)
Korrektes Counterbalancing bei Within-Subjects
Gematchte Gruppen bei Between-Subjects

Für die statistischen Tests, die für jeden Designtyp gelten, siehe Quantitative Analyse: Von Metriken zu Signifikanz.

Was das für die Praxis bedeutet

Studiendesign ist keine Formalität, es ist die Struktur, die Ihre Schlussfolgerungen valide oder invalide macht.

Bevor Sie auch nur eine teilnehmende Person rekrutieren, entscheiden Sie:

Welche Vergleiche müssen Sie anstellen?
Können Teilnehmende sinnvoll alle Bedingungen durchlaufen?
Welche Reihenfolgeeffekte könnten auftreten, und wie kontrollieren Sie sie?
Wie viele Teilnehmende benötigen Sie bei Ihrem gewählten Design?

Für den Zusammenhang zwischen Studiendesign und den Forschungsbausteinen, siehe Bausteine und Kernmethoden: Ein Framework für UX Research.

Wahl eines Studiendesigns: Between, Within und Mixed

Zusammenfassung

Die zentrale Frage

Between-Subjects Design (Unabhängige Messungen)

Der Trade-off

Warum es funktioniert

Die Kosten

Wann Sie es einsetzen

Within-Subjects Design (Messwiederholung)

Der Trade-off

Warum es funktioniert

Das Risiko: Reihenfolgeeffekte

Reihenfolgeeffekte

Counterbalancing

Einfaches Counterbalancing

Latin-Square-Counterbalancing

Mixed Designs

Praktisches Entscheidungs-Framework

Das Baseline-Problem

Was das für die Praxis bedeutet

Quellenverzeichnis

Kostenloses Research-Handbuch

Verwandte Resources

Das Applied Research Framework: Wie alles zusammenhängt

Aktive vs. Passive Datenerhebung

Bausteine und Kernmethoden: Ein Framework für UX Research

Bereit für den nächsten Schritt?

Wahl eines Studiendesigns: Between, Within und Mixed

Zusammenfassung

Die zentrale Frage

Between-Subjects Design (Unabhängige Messungen)

Der Trade-off

Warum es funktioniert

Die Kosten

Wann Sie es einsetzen

Within-Subjects Design (Messwiederholung)

Der Trade-off

Warum es funktioniert

Das Risiko: Reihenfolgeeffekte

Reihenfolgeeffekte

Counterbalancing

Einfaches Counterbalancing

Latin-Square-Counterbalancing

Mixed Designs

Praktisches Entscheidungs-Framework

Das Baseline-Problem

Was das für die Praxis bedeutet

Quellenverzeichnis

Kostenloses Research-Handbuch

Verwandte Resources

Das Applied Research Framework: Wie alles zusammenhängt

Aktive vs. Passive Datenerhebung

Bausteine und Kernmethoden: Ein Framework für UX Research

Bereit für den nächsten Schritt?