Zusammenfassung
Ein methodischer Deep Dive, der die Formeln, Annahmen und Literaturquellen hinter der Stichprobenberechnung für qualitative und quantitative UX Research erklärt. Behandelt binomiale Wahrscheinlichkeit für Usability-Tests, Sättigungsforschung für Interviews, Cochrans Formel für Surveys und Power-Analyse für A/B Tests und Vergleiche (einschließlich Within-Subjects-Designs).
"Wie viele Teilnehmende brauche ich?" hängt davon ab, was Sie messen möchten und wie präzise Sie sein müssen. Dieser Rechner deckt vier Modelle ab: binomiale Wahrscheinlichkeit für Usability-Tests, Sättigungsschwellen für qualitative Interviews, Cochrans Formel für Surveys und Power-Analyse für A/B Tests und Vergleiche.
Bereit, Ihre Studie zu planen? Konfigurieren Sie Ihr vollständiges Studiensetup in unserem Study Builder. Für einen praktischen Entscheidungsrahmen ohne die Mathematik siehe Stichprobengrößen: Jenseits der magischen Zahlen.
Die qualitative Seite: Wie viele Interviews sind genug?
Problemerkennung (UX/Usability Tests)
UX/Usability Tests stellen eine spezifische Frage: Werden Nutzende dieses Problem erleben? Das zugrunde liegende Modell ist die binomiale Wahrscheinlichkeit. Wenn ein Problem einen Anteil p Ihrer Nutzenden betrifft, ist die Wahrscheinlichkeit, es in n Sitzungen mindestens einmal zu beobachten:
Umgestellt nach n bei 95 % Wahrscheinlichkeit:
Bei p = 0,30 (Probleme, die etwa ein Drittel der Nutzenden betreffen) ergibt das n = 9. Bei p = 0,15 (seltenere Probleme, relevant für sicherheitskritische Systeme wie Medizinprodukte oder Automobil) brauchen Sie n = 19. [1] [2]
Der Schwellenwert p ist der Hebel. p = 0,30 bedeutet, dass Sie nach Problemen suchen, die häufig genug sind, um im Alltag relevant zu sein. p = 0,15 fängt weniger häufige Probleme, verdoppelt aber Ihre Stichprobe. Es gibt keinen universell korrekten Wert für p. Es hängt davon ab, welche Konsequenzen das Übersehen eines Problems hat.
Sättigung (Strategische und generative Forschung)
Interviewforschung hat keine Formel im gleichen Sinne. Stattdessen gibt es ein empirisches Konzept: Sättigung, den Punkt, an dem zusätzliche Interviews keine neuen Insights mehr produzieren.
Hennink, Kaiser & Marconi (2017) treffen eine nützliche Unterscheidung zwischen Code-Sättigung (Sie haben alle Themen gehört) und Bedeutungssättigung (Sie verstehen, was sie in der Tiefe bedeuten). [3] Das sind nicht dieselben Punkte. In ihrer Studie trat Code-Sättigung bei 9 Interviews ein, Bedeutungssättigung zwischen 16 und 24.
Guest, Bunce & Johnson (2006) fanden 70 % der Themen nach 6 Interviews und thematische Sättigung bei 12, in einer homogenen Population. [4] Hagaman & Wutich (2017) bestätigten ähnliche Zahlen für homogene Gruppen, fanden aber, dass heterogene oder interkulturelle Stichproben 20 bis 40 Interviews für Metathema-Sättigung benötigen. [5]
Wir verwenden vier Stufen im Rechner:
| Stufe | n pro Segment | Was Sie erhalten |
|---|---|---|
| Schnelle Signale | 6 | Erste Muster. Ausreichend für Hypothesengenerierung, nicht für Entscheidungen. |
| Thematische Sättigung | 12 | Stabile Themenlandschaft. Standard für die meisten UX-Studien. |
| Tiefes Verständnis | 16 | Volle Nuancen und Bedeutung. Gut für strategische Forschung, Persona-Validierung. |
| Umfassende Abdeckung | 24 | Maximale Abdeckung inkl. Randthemen. Für grundlegende Produktentscheidungen. |
Eine wichtige Einschränkung: Wenn Sie Validierungsforschung betreiben (testen, ob eine Hypothese hält), reichen schnelle Signale nicht. Sie brauchen mindestens thematische Sättigung, um sagen zu können "dieses Muster ist stabil." Explorative Forschung kann bei 6 beginnen, weil das Ziel das Generieren von Ideen ist, nicht deren Bestätigung.
Alle Werte gelten pro homogenes Segment. Drei Segmente bei thematischer Sättigung bedeuten 36 Interviews, nicht 12.
Die quantitative Seite: Surveys und darüber hinaus
Cochrans Formel für Proportionen (Binäre Ergebnisse)
Wenn Sie Raten messen (Task Success, Conversion, Ja/Nein-Fragen), lautet die Frage: Wie viele Antworten brauche ich, damit meine Fehlermarge in einem nützlichen Bereich bleibt? Cochrans Formel für Proportionen: [6]
Wobei z der z-Wert für Ihr Konfidenzniveau ist, p die erwartete Proportion (wir verwenden 0,5, was maximale Varianz und die konservativste Schätzung ergibt) und e die Fehlermarge, die Sie zu akzeptieren bereit sind.
Nicht jeder Survey dient der präzisen Messung. Explorative Surveys, die eine Themenlandschaft kartieren oder erste Hypothesen prüfen, können mit geringerer Präzision arbeiten. Die Stufe mit geringen Anforderungen (90 % Konfidenz, ±10 % Fehlermarge, n≈68) ist genau dafür gedacht: genug Signal, um Muster zu erkennen, ohne die Kosten voller statistischer Strenge.
Drei Präzisionsstufen, drei sehr unterschiedliche Stichprobengrößen:
| Präzision | Konfidenz | Fehlermarge | n |
|---|---|---|---|
| Geringe Anforderungen | 90 % (z = 1,645) | ±10 % | 68 |
| Standard | 95 % (z = 1,96) | ±5 % | 385 |
| Hohe Anforderungen | 99 % (z = 2,576) | ±3 % | 1.844 |
Der Sprung von 68 auf 385 auf 1.844 ist es wert, ihn sich genau anzusehen. Von "grob richtungsweisend" zu "präzise verteidigbar" zu gelangen, ist kein linearer Kostenanstieg. Das ist der zentrale Trade-off bei der quantitativen Stichprobenberechnung.
Für den direkten Einfluss des Studiendesigntyps auf diese Stichprobenformeln, siehe Wahl eines Studiendesigns: Between, Within und Mixed.
Cochrans Formel für Mittelwerte (Kontinuierliche Scores)
Wenn Sie Scores wie SUS, Zufriedenheitsbewertungen oder Task-Zeiten messen, ändert sich die Formel, weil Sie mit einer anderen Art von Varianz arbeiten:
Wobei σ die Standardabweichung Ihrer Messgröße und E die Fehlermarge in derselben Einheit wie der Score ist (z. B. ±5 Punkte auf einer 0-100-Skala).
Hier irren die meisten generischen Rechner: Sie fragen nach σ, sagen Ihnen aber nicht, was ein vernünftiger Wert ist. σ hängt stark davon ab, was Sie messen: [7] [8]
| Instrument | σ (0-100-Skala) | Quelle |
|---|---|---|
| SUS (System Usability Scale) | 12,5 | Sauro & Lewis, 446 Studien [9] |
| Multi-Item-Fragebogen | 20 | MeasuringU Benchmark |
| Einzelnes Rating-Item (5pt/7pt) | 25 | MeasuringU |
| Einzelnes Item, hohe Varianz | 28 | MeasuringU konservativ |
Der praktische Effekt: Eine SUS-Studie bei Standardpräzision (±5 Punkte, 95 % Konfidenz) braucht laut Rohformel nur 25 Teilnehmende — unser Rechner rundet auf 30 auf, weil Schätzungen unter 30 unzuverlässig werden, wenn die Normalverteilungsannahme nicht vollständig zutrifft. Ein einzelnes Rating-Item mit hoher Varianz bei gleicher Präzision braucht 97. Gleiche Formel, gleiche Konfidenz, vierfache Stichprobe, weil die zugrunde liegenden Daten verrauschter sind.
Power-Analyse für A/B Tests & Vergleiche
A/B Testing stellt eine andere Frage: "Kann ich einen realen Unterschied zwischen zwei Versionen erkennen?" Statt einen einzelnen Wert mit einer Fehlermarge zu schätzen, vergleichen Sie zwei Gruppen und versuchen, zwei Arten von Fehlern zu vermeiden: einen Unterschied zu deklarieren, der nicht existiert (falsch positiv, α) und einen Unterschied zu übersehen, der existiert (falsch negativ, β). [10]
Für kontinuierliche Metriken (wie SUS-Scores zwischen zwei Designs):
Wobei d Cohens Effektgröße ist, ein standardisiertes Maß dafür, wie groß der Unterschied ist. Die konventionellen Benchmarks, adaptiert für UX:
| Effektgröße | d | Bedeutung | n pro Gruppe (Standard) | n gesamt |
|---|---|---|---|---|
| Revolution | 0,8 | Massiver, offensichtlicher Wandel | 25 | 50 |
| Evolution | 0,5 | Klar spürbare Verbesserung | 63 | 126 |
| Optimierung | 0,2 | Subtiler, inkrementeller Gewinn | 393 | 786 |
Für binäre Metriken (wie Conversion-Raten) verwendet die Formel die tatsächlichen Proportionen statt einer standardisierten Effektgröße:
Die Präzisionsstufe ist auch hier entscheidend. Höhere Konfidenz und höhere Teststärke erhöhen beide die erforderliche Stichprobe. Bei Standardeinstellungen (α = 0,05, Power = 0,80) können Sie mittlere Effekte bei vernünftigen Stichprobengrößen erkennen. Bei hohen Anforderungen (α = 0,01, Power = 0,90) braucht dieselbe Effektgröße etwa 60 % mehr Teilnehmende.
Die obigen Formeln gehen von einem Between-Subjects-Design aus: unterschiedliche Personen in jeder Gruppe. Within-Subjects-Designs, bei denen dieselben Teilnehmenden beide Bedingungen erleben, brauchen weniger Teilnehmende, weil jede Person als ihre eigene Kontrolle dient. Der Anpassungsfaktor ist (1 - r), wobei r die Korrelation zwischen den gepaarten Messungen ist:
Bei einer typischen Korrelation von r = 0,5 halbiert ein Within-Subjects-Design die erforderliche Stichprobe ungefähr. Bei r = 0,7 brauchen Sie nur etwa 30 % der Between-Subjects-Größe. Der Trade-off: Within-Subjects-Designs erfordern Counterbalancing, um Reihenfolge- und Lerneffekte zu kontrollieren, und nicht jede Forschungsfrage erlaubt es, dass dieselbe Person beide Bedingungen sieht.
Der Segmentmultiplikator
Jede der obigen Formeln gibt Ihnen n für eine homogene Gruppe. Wenn Sie separate Schlussfolgerungen pro Segment brauchen (Anfänger*innen vs. Expert*innen, Käufer*innen vs. Endnutzer*innen), multiplizieren Sie.
Das ist einfache Mathematik mit erheblichen Budgetauswirkungen. Ein Survey mit Standardpräzision und 3 Segmenten: 385 × 3 = 1.155 Teilnehmende. Ein A/B Test, der Effekte auf Evolutionsniveau über 2 Segmente erkennt: 126 × 2 = 252. Der Segmentmultiplikator ist der Punkt, an dem viele Studien entweder realistisch bezüglich des Umfangs werden oder bei der Präzision Abstriche machen.
Das Schlüsselwort ist "separate Schlussfolgerungen." Wenn Sie nur ein Gesamtergebnis brauchen und Segmente nur als ergänzende Aufschlüsselungen dienen, müssen Sie nicht multiplizieren. Sie multiplizieren nur, wenn jedes Segment genügend eigene statistische Teststärke braucht. Diese Unterscheidung explizit im Forschungsplan zu treffen lohnt sich, weil sie direkt bestimmt, ob Sie 385 oder 1.155 Teilnehmende ins Feld schicken.
Für die praktische Seite dieses Trade-offs siehe Stichprobengrößen: Jenseits der magischen Zahlen.
Für den Zusammenhang zwischen Methodenwahl und Stichprobenberechnung, siehe den Forschungsmethoden-Explorer.
Abnehmender Grenznutzen: Wenn mehr nicht besser ist
Die Fehlermarge-Kurve für quantitative Forschung ist nicht linear. Sie flacht ab. Von n = 50 auf n = 100 zu gehen reduziert Ihre Fehlermarge von ±14 % auf ±10 %. Von n = 400 auf n = 800 bewegt sie sich von ±5 % auf ±3,5 %. Doppelte Kosten, ein Drittel der Verbesserung.
Deshalb gibt es für die meiste Survey-Forschung einen Sweet Spot irgendwo zwischen 200 und 400. Unter 100 sind Ihre Margen so breit, dass kleine Unterschiede im Rauschen untergehen. Über 500 zahlen Sie viel für Präzision, die die meisten UX-Entscheidungen nicht brauchen. Der Rechner zeigt diese Kurve visuell, damit Sie sehen können, wo Ihre spezifische Studie darauf liegt.
Dieselbe Logik gilt qualitativ, wenn auch weniger präzise. Der Unterschied zwischen 6 und 12 Interviews ist substanziell (von ersten Mustern zu thematischer Sättigung). Der Unterschied zwischen 20 und 30 ist in den meisten Studien marginal. [11]
Formeln geben Ihnen nicht die "richtige" Stichprobengröße. Sie machen Ihre Annahmen sichtbar. Wenn jemand fragt "warum 12?", können Sie auf Guest et al. verweisen und thematische Sättigung erklären. Wenn jemand 385 hinterfragt, können Sie Cochrans Formel und den Präzisions-Trade-off bei 95 % Konfidenz zeigen. Das ist nützlicher als "Branchenstandard" oder "Best Practice."
Die Annahmen sind wichtiger als die Formeln. Ob Sie p = 0,30 oder p = 0,15 wählen, ob Sie auf thematische Sättigung oder umfassende Abdeckung zielen, ob Sie ±10 % akzeptieren oder auf ±3 % bestehen: Das sind Research-Design-Entscheidungen. Die Mathematik sagt Ihnen nur, was sie kosten.
Berechnen Sie die Zahlen für Ihre eigene Studie mit dem Rechner am Anfang dieser Seite, oder lesen Sie Stichprobengrößen: Jenseits der magischen Zahlen für die strategische Perspektive.
Für die Analysetechniken, die Ihre Stichprobenberechnung unterstützt, siehe Quantitative Analyse: Von Metriken zu Signifikanz.
Um zu bewerten, ob Ihre geplante Studie die Stichprobeninvestition rechtfertigt, nutzen Sie den Research Value Calculator — Lohnt sich Ihre Studie?.
Quellenverzeichnis
- [1]
- [2]
- [3]
- [4]
- [5]
- [6]William G. Cochran. (1977). "Sampling Techniques". John Wiley & Sons.
- [7]Jeff Sauro & James R. Lewis. (2016). "Quantifying the User Experience: Practical Statistics for User Research". Morgan Kaufmann.Link
- [8]Jeff Sauro. (2025). "Sample Sizes for Comparing Rating Scale Means". MeasuringU.Link
- [9]
- [10]Jacob Cohen. (1988). "Statistical Power Analysis for the Behavioral Sciences". Lawrence Erlbaum Associates.
- [11]
- [12]