Zusammenfassung
Die 'Fünfer-Regel' gilt speziell für das Auffinden häufiger Usability-Probleme, nicht für die Messung der gesamten UX, die Validierung von Marktbedürfnissen oder statistische Generalisierung. Für qualitative Forschung sollten 10-30 Teilnehmende pro Segment angestrebt werden; für quantitative 30-200+ je nach Präzisionsanforderungen. Die entscheidende Frage ist nicht 'wie viele?', sondern 'wie viele von wem?': Stichprobenanforderungen multiplizieren sich mit jedem eigenständigen Nutzersegment.
Eine Frage, die mir häufig gestellt wird: "Wie viele Nutzer*innen brauchen wir zum Testen/Interviewen/Befragen?"
Die Antwort ist grundlegend für den Wert unserer Arbeit, denn das Ziel der meisten Forschung ist Generalisierung. Wir untersuchen eine kleine, handhabbare Gruppe von Menschen (eine Stichprobe), um mit angemessener Zuversicht Schlüsse über eine viel größere Gruppe (die Population) zu ziehen, also unsere Kundensegmente oder die gesamte Nutzerbasis.
Die berühmte "Fünfer-Regel"
Seit Jahrzehnten wird die Diskussion über Stichprobengrößen in der UX Research von einer einzigen Zahl dominiert: fünf. Die Idee, dass man nur mit fünf Nutzer*innen testen muss [1], ist eine der berühmtesten und am meisten missverstandenen Heuristiken in unserem Feld.
Auch wenn sie maßgeblich dazu beigetragen hat, Forschung zugänglich erscheinen zu lassen, ist es entscheidend, ihre Grenzen zu verstehen.
Warum sie für Usability funktioniert
Usability-Probleme verletzen oft nahezu universelle kognitive Prinzipien, wie den Bedarf an klarem Feedback oder konsistenten Design-Patterns. Da diese Prinzipien von den meisten Menschen geteilt werden, treten dieselben Probleme bei vielen Nutzenden auf, was eine kleine Stichprobe überraschend effektiv beim Auffinden macht.
Warum sie nicht generalisierbar ist
Breitere Fragen zu Usefulness oder Attraktivität hängen von höchst variablen persönlichen und kulturellen Erfahrungen ab. Um diese zu verstehen, ist eine größere und diversere Stichprobe erforderlich.
Praktische Richtlinien für Stichprobengrößen
Basierend auf Erfahrung hier Faustregeln für gängige Studientypen:
Für qualitative Methoden (Interviews, UX Tests)
Wenn der Fokus auf dem Verstehen von Problemen liegt:
- Minimum: n = 10 pro Zielgruppe
- Idealer Bereich: n = 15–30 pro Zielgruppe
Für quantitative Methoden (Surveys)
Wenn das Ziel statistische Zuversicht ist:
- Minimum: n = 30 pro Zielgruppe
- Idealer Bereich: n = 50–200 pro Zielgruppe
Wenn die Heuristiken nicht ausreichen
Diese Zahlen sind Ausgangspunkte, keine Wundermittel. Die optimale Stichprobengröße hängt weniger von einer einzelnen Zahl ab als von der Zuversicht, die Sie für eine gute Entscheidung brauchen.
Ihre Nutzer*innen sind sehr divers
Die Regeln n = 15 oder n = 30 gelten für jedes eigenständige Nutzersegment. Wenn Ihr Produkt sowohl "Hobby-Nutzende" als auch "professionelle Expert*innen" bedient und Sie beide verstehen müssen, müssen Sie für jede Gruppe eine eigene Stichprobe rekrutieren.
Drei Schlüsselsegmente bedeuten 45–90 Teilnehmende insgesamt, nicht 15–30 insgesamt. Eine kleine, gemischte Stichprobe verdeckt oft die realen Probleme, die eine bestimmte Gruppe betreffen.
Sie messen schwierige Metriken
Manche Metriken, wie Time-on-Task oder ausgegebene Beträge, können durch einige wenige extreme Ausreißer verzerrt werden. Eine einzige langsame Person kann den Durchschnitt drastisch aufblähen. In diesen Fällen ist der Median zuverlässiger, und eine größere Stichprobe hilft, Stabilität sicherzustellen.
Sie suchen nach einer kleinen Verbesserung
Das Erkennen einer subtilen Veränderung, wie einer 5-Punkte-Steigerung im SUS Score oder einer 5 %-Verbesserung bei Task Success, erfordert mehr statistische Teststärke. Eine kleine Stichprobe erkennt einen kleinen Effekt möglicherweise nicht zuverlässig.
Sie müssen seltene Probleme finden
Wenn Sie nach einem kritischen, aber seltenen Problem suchen, das nur 5 % der Nutzenden betrifft, liegen Ihre Chancen, es in einer 10-Personen-Studie auch nur einmal zu beobachten, unter 50:50. Selbst mit 30 Teilnehmenden besteht eine Wahrscheinlichkeit von etwa 20 %, dass Sie es komplett verpassen.
Sie brauchen hohe Präzision
Ein Survey-Ergebnis ist niemals eine einzelne, perfekte Zahl, sondern eine Zahl mit einem "Plus-Minus"-Bereich (Fehlermarge):
| Stichprobengröße | Fehlermarge (95 % Konfidenz) |
|---|---|
| n = 30 | ±18 % |
| n = 100 | ±10 % |
| n = 400 | ±5 % |
Werte setzen maximale Varianz (p = 0,5) bei 95 % Konfidenz voraus, unter Verwendung der Cochran-Formel für Proportionen.
Mit 30 Teilnehmenden ist ein Ergebnis von 50 % tatsächlich "50 % ±18 %"; der wahre Wert könnte zwischen 32 % und 68 % liegen.
Die entscheidende Frage: Wie viele von wem?
Die wichtigste Frage ist nicht "wie viele?", sondern "wie viele von wem?"
Wenn Ihr Produkt verschiedene Nutzertypen bedient, müssen Sie mit jedem Typ testen. Ob Sie diese als Personas oder einfach als eigenständige Segmente definieren, die Regeln sind dieselben: Jedes Segment braucht eine eigene Stichprobe.
Das Sättigungsprinzip
Für qualitative Forschung ist das Ziel, Sättigung zu erreichen, also den Punkt, an dem Sie keine neuen Informationen mehr hören. [4] Wenn die achte Person in Folge auf denselben verwirrenden Button hinweist, haben Sie wahrscheinlich für dieses Problem innerhalb dieses Segments Sättigung erreicht.
Die Verwendung kleinerer Stichproben funktioniert am besten, wenn Sie mit einer einzelnen, homogenen Gruppe testen. Die Varianz (Grad der Unterschiede von einer Person zur nächsten) ist gering, sodass sich Muster schnell wiederholen.
Für den Einfluss von Segmentdefinitionen auf das Rekrutierungsvolumen, siehe Recruiting von Teilnehmer*innen: Die richtigen Personen finden und Segmentierung und Variablen: Die richtigen Personen finden.
Umgang mit Stakeholder-Erwartungen
In der Praxis befinden sich Forschende oft in einer schwierigen Position. Wir führen eine qualitative Studie mit einer kleinen Stichprobe durch (sagen wir n = 8), aber Stakeholder wollen generalisieren. Sie hören "drei von acht Nutzenden waren verwirrt" und wollen sofort berichten, dass "fast 40 % unserer Nutzer*innen verwirrt sein werden."
Hier wird Ihre Rolle entscheidend. Formulieren Sie Befunde nicht als statistische Inferenz, sondern als logische Inferenz:
Diese Fähigkeit, analytische Ergebnisse in verantwortungsvolle, strategische Kommunikation zu übersetzen, wird noch wertvoller, da KI mehr Rohanalysen übernimmt.
Wie Sie Ihre eigene Zahl berechnen
Statt Heuristiken auswendig zu lernen, stellen Sie sich vor jeder Studie diese drei Fragen:
Frage 1: "Was ist die kleinste Veränderung, die relevant ist?"
Das ist Ihr Minimum Detectable Effect (MDE). Er bestimmt alles.
- Wenn Sie einen 1 %-Conversion-Lift erkennen müssen: Sie brauchen eine massive Stichprobe (Tausende).
- Wenn Sie nur nach großen Usability-Blockern suchen (30 %+ Fehlerrate): Eine kleine Stichprobe von 5–10 reicht.
Je größer die Veränderung, die Sie interessiert, desto weniger Teilnehmende brauchen Sie, um sie zuverlässig zu erkennen.
Frage 2: "Wie divers ist die Zielgruppe?"
Die "n=5"-Regel gilt für ein homogenes Segment. Sobald Sie unterschiedliche Nutzertypen haben, multiplizieren Sie.
| Segmente | Minimum-Stichprobe |
|---|---|
| 1 (z. B. "Alle Nutzenden") | 5–10 |
| 2 (z. B. "Expert*innen" + "Anfänger*innen") | 10–20 |
| 3 (z. B. "Admin" + "Manager" + "Endnutzer*in") | 15–30 |
Diese Bereiche gehen von taktischem Usability-Testing zum Auffinden häufiger Probleme (p ≈ 0,30) aus. Für strategische oder generative Forschung mit anderen Sättigungszielen siehe die Methodendetails weiter unten.
Wenn Ihre Stichprobe Segmente mischt, ohne sie zu trennen, werden Sie widersprüchliche Befunde sehen und segmentspezifische Muster vollständig übersehen.
Frage 3: "Messen Sie Zeit?"
Time-on-Task-Daten sind notorisch verrauscht. Eine einzige langsame Person (abgelenkt, verwirrt oder einfach methodisch) kann den Durchschnitt ruinieren und Ihre Daten bedeutungslos machen.
- Für Metriken (wo Sie stabile Durchschnitte brauchen): Streben Sie n = 30+ an, um die Daten zu stabilisieren.
- Für Insights (wo Sie nach Mustern suchen, nicht nach präzisen Messungen): n = 5–10 reicht oft.
Leitplanken für bessere Entscheidungen
Statt sich nur auf Faustregeln zu verlassen, nutzen Sie diese Leitplanken:
Starten Sie mit der Entscheidung: Fragen Sie "Was ist die kleinste Veränderung, die uns tatsächlich dazu bringen würde, etwas anders zu machen?" Das ist Ihr Minimum Detectable Effect. Wenn die Veränderung, die Sie interessiert, klein ist, brauchen Sie eine größere Stichprobe.
Quantifizieren Sie Ihre Unsicherheit: Gewöhnen Sie sich an "Plus-Minus." Berichten Sie immer ein Konfidenzintervall, um den Bereich der Unsicherheit um Ihre Metriken zu zeigen.
Wählen Sie das richtige Studiendesign: Within-Subjects-Designs sind statistisch mächtiger und erfordern weniger Teilnehmende als Between-Subjects-Designs.
Bei hohem Einsatz: Teststärke prüfen: Für kritische Entscheidungen, ob große Redesigns oder Preisänderungen, führen Sie eine Power-Analyse durch. Sie stellt sicher, dass Sie keinen realen Befund übersehen oder auf einen statistischen Zufall reagieren.
Was das für die Praxis bedeutet
Der Aufstieg der Automatisierung hat die Kosten für die Verarbeitung größerer Datensätze drastisch gesenkt. Die alten Beschränkungen greifen nicht mehr so stark. Wir haben jetzt die Möglichkeit, Ressourcen in die Rekrutierung größerer, methodisch angemessenerer Stichproben zu investieren.
Das Ziel ist nicht, eine neue magische Zahl zu schaffen, sondern die alte Debatte zu überwinden und in Stichprobengrößen zu investieren, die uns Vertrauen in unsere Befunde geben.
Die Mathematik hinter den Zahlen
Dieser Artikel gibt Ihnen den strategischen Rahmen für Stichprobenentscheidungen. Wenn Sie die tatsächlichen Formeln, Annahmen und Literaturquellen hinter diesen Zahlen sehen möchten, lesen Sie Stichprobenrechner: Tool und Erklärungen. Sie können auch unseren interaktiven Stichprobenrechner nutzen, um die Zahlen für Ihre spezifische Studie durchzurechnen.
Stichprobengröße ist keine bürokratische Anforderung. Sie ist das Fundament dafür, ob Ihren Befunden vertraut werden kann.