KOMMENDE EVENTS:Product Research 2026: Nach der AI-Pipeline—26. Mai@Online (Vimeo)Details•UX-, Product- & Market Research Afterwork—25. Jun@Packhaus WienDetails•
KOMMENDE EVENTS:Product Research 2026: Nach der AI-Pipeline—26. Mai@Online (Vimeo)Details•UX-, Product- & Market Research Afterwork—25. Jun@Packhaus WienDetails•
UX-Messinstrumente: Skalen, Scores und was sie wirklich messen
Standardisierte Messinstrumente liefern Benchmarks und Vergleichbarkeit. Aber sie effektiv einzusetzen erfordert ein Verständnis davon, was jedes einzelne tatsächlich misst und was nicht.
Standardisierte UX-Instrumente wie SUS, NPS, SEQ, PMF Score und UEQ, dazu schlankere Alternativen (UMUX, UMUX-LITE), die UEQ-Familie (UEQ-S, UEQ+) und das webspezifische SUPR-Q liefern validierte, vergleichbare Messungen. Jedes zielt auf ein anderes Konstrukt ab: SUS misst wahrgenommene Usability, NPS misst Loyalität/Empfehlungsabsicht, SEQ erfasst aufgabenbezogene Schwierigkeit und der PMF Score misst wahrgenommene Unverzichtbarkeit. Der Artikel behandelt, was jedes Instrument misst, wann man es einsetzt und wie man Scores interpretiert. Kombinieren Sie Metriken immer mit qualitativen Daten, um das 'Warum' hinter den Zahlen zu verstehen.
Quellenverzeichnis
[1]
John Brooke. (1996). "SUS: A 'Quick and Dirty' Usability Scale". Usability Evaluation in Industry.Link
Kostenloses Research-Handbuch
Unser praktischer Leitfaden für Research, das Produkte wirklich verändert. Kostenlos, ohne Haken.
Verwandte Resources
Bereit für den nächsten Schritt?
Lassen Sie uns besprechen, wie diese Insights Ihr Business voranbringen.
Aaron Bangor et al.. (2009). "Determining What Individual SUS Scores Mean: Adding an Adjective Rating Scale". Journal of Usability Studies.Link
[3]
Jeff Sauro & James R. Lewis. (2016). "Quantifying the User Experience: Practical Statistics for User Research, 2nd ed. — SUS Curved Grading Scale (Ch. 8)". Morgan Kaufmann.Link
[4]
John Brooke. (2013). "SUS: A Retrospective". Journal of Usability Studies.Link
[5]
Kraig Finstad. (2010). "The Usability Metric for User Experience". Interacting with Computers, 22(5), 323–327.LinkDOI
[6]
James R. Lewis et al.. (2013). "UMUX-LITE: When There's No Time for the SUS". Proceedings of the SIGCHI Conference on Human Factors in Computing Systems (CHI '13). ACM.DOI
[7]
Frederick F. Reichheld. (2003). "The One Number You Need to Grow". Harvard Business Review.Link
[8]
Sean Ellis. (2009). "The Startup Pyramid". Startup Marketing Blog.Link
[9]
Sean Ellis & Morgan Brown. (2017). "Hacking Growth: How Today's Fastest-Growing Companies Drive Breakout Success". Crown Business.
[10]
Sean Ellis. (2019). "Using Product/Market Fit to Drive Sustainable Growth". Medium / Growth Hackers.Link
[11]
Jeff Sauro & Joseph S. Dumas. (2009). "Comparison of Three One-Question, Post-Task Usability Questionnaires". Proceedings of the SIGCHI Conference on Human Factors in Computing Systems (CHI '09), pp. 1599–1608.LinkDOI
[12]
Jeff Sauro & James R. Lewis. (2016). "Quantifying the User Experience: Practical Statistics for User Research". Morgan Kaufmann.Link
[13]
Bettina Laugwitz et al.. (2008). "Construction and Evaluation of a User Experience Questionnaire". HCI and Usability for Education and Work.LinkDOI
[14]
Martin Schrepp et al.. (2017). "Design and Evaluation of a Short Version of the User Experience Questionnaire (UEQ-S)". International Journal of Interactive Multimedia and Artificial Intelligence, 4(6), 103–108.LinkDOI
[15]
Martin Schrepp & Jörg Thomaschewski. (2019). "Construction of a Modular User Experience Questionnaire (UEQ+)". International Journal of Interactive Multimedia and Artificial Intelligence, 5(7), 103–108.LinkDOI
[16]
Jeff Sauro. (2015). "SUPR-Q: A Comprehensive Measure of the Quality of the Website User Experience". Journal of Usability Studies, 10(2), 68–86.Link
Wenn Sie User Experience oder Usability quantitativ messen müssen, erfinden Sie nicht Ihre eigenen Fragen. Nutzen Sie standardisierte Instrumente, die durch Forschung validiert wurden.
Diese Tools bieten:
Reliabilität: Konsistente Ergebnisse über verschiedene Erhebungen hinweg
Validität: Tatsächliche Messung dessen, was sie zu messen beanspruchen (siehe Validitätsarten)
Benchmarks: Daten aus Tausenden von Studien zum Vergleich
Vergleichbarkeit: Die Möglichkeit, Ihre Ergebnisse mit Branchenstandards zu vergleichen
Aber sie effektiv einzusetzen erfordert ein Verständnis davon, was jedes einzelne misst und was nicht.
Der interaktive Skalenkatalog oben filtert alle 195+ erfassten Instrumente nach Konstrukt, Domäne, Benchmark-Verfügbarkeit und Publikationsjahr. Dieser Artikel beschränkt sich auf die meistgenutzten Kerninstrumente und wie Sie zwischen ihnen wählen.
Welches Tool für welche Ebene?
Bevor Sie in einzelne Instrumente eintauchen, verstehen Sie, dass Messung auf verschiedenen Ebenen der User Experience stattfindet. Wählen Sie Ihr Tool basierend auf der Ebene, die Sie messen.
Ebene
Abkürzung
Was es misst
Am besten für
Mikro (Aufgabe)
SEQ
Aufgabenbezogene Schwierigkeit
Unmittelbares Post-Task-Feedback
Meso (Produkt)
SUS / UEQ
Gesamte Produkt-Usability
Benchmarking der Gesamterfahrung
Makro (Beziehung)
NPS
Loyalität und Empfehlungsabsicht
Tracking der Kundenstimmung über Zeit
Mikro-Ebene: Die Aufgabe
Verwenden Sie den SEQ (Single Ease Question) unmittelbar nach einer Aufgabe. Er erfasst die Reibung einer spezifischen Interaktion, solange die Erfahrung noch frisch ist.
Meso-Ebene: Das Produkt
Verwenden Sie den SUS (System Usability Scale) oder den UEQ, um die Gesamt-Usability des Produkts oder der Anwendung zu benchmarken. Setzen Sie diese ein, nachdem die Teilnehmenden alle Kernaufgaben abgeschlossen haben.
Makro-Ebene: Die Beziehung
Verwenden Sie den NPS (Net Promoter Score), um die gesamte Kundenbeziehung und Loyalität über Zeit zu tracken.
Der SUS [1] ist der am weitesten verbreitete standardisierte Usability-Fragebogen. Er besteht aus 10 Aussagen, die auf einer 5-stufigen Skala von "Stimme überhaupt nicht zu" bis "Stimme voll zu" bewertet werden.
Was er misst
SUS misst wahrgenommene Usability, also den subjektiven Eindruck der Teilnehmer*innen davon, wie benutzbar ein System ist. Der finale Score reicht von 0 bis 100.
Interpretation von SUS-Scores
Zwei Benchmarks sind in der Praxis verbreitet: die Adjektiv-Skala (Bangor, Kortum & Miller 2009) für die schnelle Stakeholder-Kommunikation und die Curved Grading Scale (Sauro & Lewis 2016) für feinere Notenstufen, die an empirische Perzentile gebunden sind.
Adjektiv-Skala (Bangor 2009)
Basierend auf umfangreicher Forschung [2] lassen sich SUS-Scores mit Alltagsbegriffen kommunizieren:
Score
Adjektiv-Bewertung
Perzentil-Rang
84,1+
Best Imaginable
Top 10 %
80,3
Excellent
Top 20 %
68
OK (Durchschnitt)
~50. Perzentil
51
Poor
Untere 20 %
Unter 50
Awful
Untere 10 %
Diese Variante ist nützlich, wenn Sie ein griffiges Etikett für ein Stakeholder-Briefing brauchen ("Excellent", "Awful"). Die Curved Grading Scale unten passt, wenn Sie eine feinere, perzentilgebundene Note wollen.
Curved Grading Scale (Sauro & Lewis 2016)
Die Curved Grading Scale [3] ordnet SUS-Werte Notenstufen zu. Sie basiert auf Sauros Referenzdatensatz aus 2011 mit über 5.000 Antworten aus rund 500 Studien (M = 68, SD = 12,5).
Wann einsetzen: Nachdem die Teilnehmenden Kernaufgaben abgeschlossen haben, nicht bevor sie eine bedeutsame Interaktion hatten.
Minimale Stichprobe: Für stabile Scores streben Sie mindestens 12-14 Teilnehmer*innen an. Bei weniger als 8 werden die Konfidenzintervalle sehr breit.
Die Fragen nicht modifizieren: Die Skala wurde als vollständiges Instrument validiert. Formulierungen zu ändern oder Items zu entfernen macht die Normen ungültig.
Schlankere SUS-Alternativen
Wenn 10 Items zu viel Platz im Fragebogen kosten, gibt es zwei Derivate, die dasselbe Konstrukt (wahrgenommene Usability) günstiger erfassen.
UMUX[5] ist ein 4-Item-Instrument mit 7-stufiger Likert-Skala, formuliert entlang der ISO-9241-11-Komponenten (Effektivität, Effizienz, Zufriedenheit). Es korreliert in Direktvergleichen stark mit dem SUS. Der Haken ist die gemischte Tonalität (positive und negative Items), die hinsichtlich der Dimensionalität umstritten ist. UMUX passt, wenn Sie SUS-vergleichbare Werte mit weniger als der Hälfte der Items wollen, sollten aber wissen, dass die Strukturdebatte offen ist.
UMUX-LITE[6] reduziert weiter auf 2 positiv formulierte Items: "Die Funktionen dieses Systems erfüllen meine Anforderungen" und "Dieses System ist einfach zu benutzen." Es ist die richtige Wahl, wenn Platz besonders knapp ist (Post-Task-Pop-ups, In-App-Intercepts). Roh-Werte liegen rund 5 bis 10 Punkte über dem SUS, daher die publizierte Regressionsformel anwenden, bevor Sie gegen SUS-Normen benchmarken.
Vollständige Psychometrie, Faktorstruktur-Debatten und Benchmark-Verfügbarkeit aller Alternativen filtern Sie im Skalenkatalog oben über das Konstrukt "Wahrgenommene Usability".
Net Promoter Score (NPS)
Der NPS [7] misst Kundenloyalität durch eine einzige Frage: "Wie wahrscheinlich ist es, dass Sie [Produkt/Unternehmen] einem Freund oder Kollegen empfehlen?" bewertet von 0-10.
Wie er funktioniert
Befragte werden klassifiziert als:
Promotoren (9-10): Loyale Enthusiasten, die weiter kaufen und andere empfehlen werden
Passive (7-8): Zufriedene, aber unenthusiastische Kund*innen
Detraktoren (0-6): Unzufriedene Kund*innen, die Ihrer Marke schaden können
NPS = % Promotoren - % Detraktoren
Der Score reicht von -100 (alle sind Detraktoren) bis +100 (alle sind Promotoren).
Was er tatsächlich misst
NPS misst Empfehlungsabsicht, die oft als Proxy für Loyalität und Wachstumspotenzial verwendet wird. Allerdings ist NPS unter Forscher*innen umstritten:
Kritikpunkte:
Eine einzelne Frage kann die Komplexität von Kundenloyalität nicht erfassen
Die Klassifizierung (0-6 als "Detraktoren") ist etwas willkürlich
NPS erklärt nicht, warum jemand empfehlen oder nicht empfehlen würde
Kulturelle Unterschiede beeinflussen, wie Menschen die Skala nutzen
Wann NPS einsetzen
NPS ist geeignet für:
Tracking der allgemeinen Marken- oder Produktstimmung über Zeit
Segmentierung von Kund*innen nach Loyalität
Erstellung eines einfachen KPI für Executive Dashboards
Nicht geeignet für:
Evaluation spezifischer Features oder Interface-Änderungen
Ersatz von Usability Testing
Detaillierte Designentscheidungen
Product-Market Fit Score (Der Sean-Ellis-Test)
Während NPS misst, ob Kund*innen Ihr Produkt empfehlen würden, misst der Product-Market Fit (PMF) Score etwas anderes: wie sehr sie es vermissen würden, wenn es verschwände. Bekannt geworden ist das Instrument vor allem durch Hacking Growth[9].
Die Frage ist einfach: "Wie würden Sie sich fühlen, wenn Sie [Produkt] nicht mehr nutzen könnten?"
Antwortoptionen:
Sehr enttäuscht
Etwas enttäuscht
Nicht enttäuscht (es ist nicht wirklich nützlich)
N/A: ich nutze es nicht mehr
Der 40-%-Benchmark
Die Schlüsselmetrik ist der Prozentsatz der Befragten, die "Sehr enttäuscht" wählen. Sean Ellis, der den Begriff "Growth Hacking" geprägt hat, schlug eine einfache Heuristik vor [8]: Wenn mehr als 40 % Ihrer Nutzer*innen sagen, sie wären "sehr enttäuscht" ohne Ihr Produkt, haben Sie Product-Market Fit erreicht.
Kein psychometrisch validiertes Instrument. Die 40 % sind eine Praktiker-Heuristik aus Pattern Matching über Startups in der Frühphase. Sean Ellis selbst hat sie als "etwas willkürlich" bezeichnet. Behandeln Sie sie als nützliche Faustregel, nicht als harten Grenzwert.
Wer als Befragte*r zählt
Die Zusammensetzung der Stichprobe ist wichtiger als der Prozentwert in der Headline. Ellis schreibt eine strikte Qualifikation vor [10]. Einbeziehen sollten Sie nur Befragte, die
die Kernfunktion des Produkts erlebt haben (also keine reinen Landingpage-Besucher*innen oder Trial-Abbrecher*innen),
es mindestens zweimal genutzt haben und
es in den letzten 14 Tagen genutzt haben.
Empfohlene Stichprobengröße: rund 30 bis 40 qualifizierte aktive Nutzer*innen. Darunter schwankt der Prozentsatz pro Person zu stark, um aussagekräftig zu sein.
Was er tatsächlich misst
Der PMF Score erfasst wahrgenommene Unverzichtbarkeit. Er bittet Nutzer*innen, sich ein Leben ohne das Produkt vorzustellen und das emotionale Gewicht dieses Verlusts einzuschätzen.
Das unterscheidet sich sowohl von Usability als auch von Loyalität:
Ein Produkt kann hoch benutzbar sein (starker SUS-Score), ohne unverzichtbar zu sein
Ein Produkt kann starke Empfehlungsabsicht erzeugen (hoher NPS) aus Gründen, die nichts mit persönlicher Abhängigkeit zu tun haben
Der PMF Score zielt spezifisch darauf ab, ob das Produkt in den Workflow oder das Leben der Nutzer*innen eingewoben ist
Wann einsetzen
Der PMF Score ist am wertvollsten für:
Produkte in der Frühphase, die Validierung vor der Skalierung suchen
Produkte, die ihr Kern-Zielgruppensegment suchen
Tracking, ob neue Features die wahrgenommene Wertigkeit erhöhen oder senken
Weniger nützlich für reife Produkte mit etablierter Marktposition, bei denen die Frage weniger "Haben wir Fit?" lautet und mehr "Wie expandieren und halten wir?"
Single Ease Question (SEQ)
Der SEQ [11] fragt: "Insgesamt, wie einfach oder schwierig war diese Aufgabe?" bewertet auf einer 7-stufigen Skala von "Sehr schwierig" bis "Sehr einfach."
Wann einsetzen
Setzen Sie den SEQ unmittelbar nach jeder Aufgabe in einem UX Test ein. Er erfasst die momentan wahrgenommene Schwierigkeit, bevor die Erinnerung verblasst.
Scores über 5,5 zeigen überdurchschnittliche Einfachheit an
Scores unter 4,5 deuten auf erhebliche Schwierigkeiten hin
Der SEQ korreliert mit Aufgabenerfolg und Bearbeitungszeit, was ihn zu einem nützlichen Schnellcheck macht, selbst wenn objektive Metriken verfügbar sind.
User Experience Questionnaire (UEQ)
Der UEQ [13] ist ein umfassenderes Instrument, das sechs Dimensionen der User Experience misst:
Attractiveness: Gesamteindruck des Produkts
Perspicuity: Wie einfach es zu erlernen ist
Efficiency: Wie schnell Nutzer*innen Ziele erreichen können
Dependability: Wie sehr Nutzer*innen sich in Kontrolle fühlen
Stimulation: Wie anregend oder motivierend die Nutzung ist
Novelty: Wie innovativ oder kreativ das Design wirkt
Wann einsetzen
Der UEQ ist geeignet, wenn Sie eine differenziertere Sicht auf die User Experience benötigen, die über Usability allein hinausgeht. Er erfasst sowohl Pragmatic Quality (Efficiency, Perspicuity, Dependability) als auch Hedonic Quality (Stimulation, Novelty).
Praktische Hinweise
26 Items, 7-stufiges semantisches Differenzial, etwa 3 bis 5 Minuten Bearbeitungszeit
Erfordert mindestens 20 Teilnehmer*innen für reliable Ergebnisse
Kostenlos nutzbar, mit Online-Benchmarks (Schrepp, Hinderks & Thomaschewski 2017; N = 21.175 Antworten aus 452 Produktbewertungen)
UEQ-Familie
Der UEQ hat zwei Geschwister, beide aus dem ursprünglichen Autorenteam.
UEQ-S[14] ist die 8-Item-Kurzversion. Die 26 UEQ-Items werden zu zwei Meta-Faktoren verdichtet: Pragmatic Quality (Efficiency, Perspicuity, Dependability) und Hedonic Quality (Stimulation, Novelty), je 4 Items. Die Übereinstimmung mit dem UEQ-Gesamtwert liegt bei einer mittleren Abweichung von 0,06; der Benchmark-Datensatz wird mit dem UEQ geteilt. UEQ-S passt, wenn 26 Items zu lang sind, Sie aber Pragmatic und Hedonic Quality getrennt halten wollen.
UEQ+[15] ist kein fester Fragebogen, sondern ein modulares Framework. Es bietet 16 wählbare Skalen (die ursprünglichen 6 plus Trust, Intuitive Use, Adaptability, Usefulness, Visual Aesthetics, Value, Stickiness, Content Quality, Trustworthiness of Content, Immersion), pro Skala 4 bipolare Item-Paare und eine Wichtigkeitsbewertung, mit der Sie die Skalen zu einer produktspezifischen UX-KPI gewichten. UEQ+ passt, wenn Sie eine produktspezifische KPI brauchen: Eine Content-App will Content Quality und Stickiness messen, ein Fintech-Tool eher Trust und Usefulness. Die Polarität ist anders gruppiert als beim ursprünglichen UEQ. Roh-Werte sind also nicht direkt vergleichbar.
Webspezifisch: SUPR-Q
Das Standardized User Experience Percentile Rank Questionnaire [16] ist explizit für Websites gebaut. Es nutzt 8 Items über 4 Faktoren (Usability, Trust, Appearance, Loyalty) in einem gemischten Format: 7 Items mit 5-stufiger Likert-Skala plus 1 NPS-Item (0 bis 10, Empfehlungsabsicht).
Der Output ist ungewöhnlich und nützlich. SUPR-Q rechnet Roh-Werte in einen Perzentil-Rang gegen MeasuringUs Referenzdatenbank um (initial N = 2.513 Antworten über 70 Websites; quartalsweise aktualisiert). Ein SUPR-Q-Wert von 4,1 liegt etwa beim 70. Perzentil der katalogisierten Websites.
SUPR-Q ist die richtige Wahl gegenüber SUS, wenn das Artefakt eine Website ist (Marketing-Site, E-Commerce, Content-Portal) und Sie Trust und visuelle Ästhetik mitmessen wollen. SUS ist Interface-agnostisch und blendet beides aus. Für Native Apps, Hardware oder Backoffice-Software ist SUPR-Q ungeeignet, dort übertragen sich die Normen nicht.
Rohe Scores sind ohne Kontext bedeutungslos. Hier sind die Benchmarks, die Sie zur Interpretation Ihrer Ergebnisse brauchen.
SUS-Benchmarks
Score-Bereich
Interpretation
85+
Exzellent: Top 10 % der Produkte
71-84
Gut: Überdurchschnittliche Usability
68
Durchschnitt: Der Branchenmittelwert
51-67
Unterdurchschnittlich: Verbesserungsbedarf
Unter 50
Ungenügend: Schwerwiegende Usability-Probleme
Die Schlüsselzahl: 68 ist Durchschnitt. Alles über 71 ist wirklich gut. Unter 50 weist auf fundamentale Probleme hin, die die meisten Nutzer*innen frustrieren werden.
NPS-Benchmarks
NPS ist stark branchenabhängig. Ein Score von +30 kann in einer Branche exzellent und in einer anderen mittelmäßig sein.
SEQ-Benchmarks
Auf einer 7-stufigen Skala:
Durchschnitt: ~5,5
Über 5,5: Aufgabe wurde als einfacher als durchschnittlich wahrgenommen
Unter 4,5: Aufgabe wurde als schwierig wahrgenommen, weitere Untersuchung nötig
Allerdings hängt der SEQ stark von der inhärenten Aufgabenkomplexität ab. Eine komplexe Aufgabe (z. B. "Konfigurieren Sie Ihre Steuereinstellungen") wird natürlich niedriger scoren als eine einfache (z. B. "Finden Sie die Suchleiste"). Vergleichen Sie SEQ-Scores über Versionen derselben Aufgabe, nicht über verschiedene Aufgaben hinweg.
"Wir brauchen nur 5 der SUS-Fragen." Nein. Validierte Instrumente funktionieren als vollständige Pakete. Items zu entfernen oder umzuformulieren macht die Benchmarks ungültig.
Über-Abhängigkeit von einzelnen Metriken
NPS allein sagt Ihnen nicht, was Sie beheben sollen. SUS allein erklärt nicht, warum Nutzer*innen Schwierigkeiten haben. Quantitative Metriken sagen Ihnen, dass etwas passiert; qualitative Daten sagen Ihnen warum.
Kontext ignorieren
Ein SUS-Score von 72 kann für komplexe Enterprise-Software exzellent und für eine Consumer-Mobile-App mittelmäßig sein. Berücksichtigen Sie immer die Produktkategorie bei der Interpretation von Scores.
Scores als präzise behandeln
Alle Messungen haben Unsicherheit. Ein SUS-Score von 72 bedeutet möglicherweise "irgendwo zwischen 65 und 79." Berichten Sie Konfidenzintervalle, besonders bei kleineren Stichproben.
Was das für die Praxis bedeutet
Standardisierte Instrumente sind mächtige Werkzeuge, wenn sie korrekt eingesetzt werden:
Das richtige Instrument wählen für das, was Sie tatsächlich messen müssen
Korrekt einsetzen: zum richtigen Zeitpunkt, mit vollständigen Items, an genug Teilnehmer*innen
Mit Benchmarks interpretieren: Rohe Scores sind ohne Kontext bedeutungslos
Mit qualitativen Daten kombinieren: Metriken quantifizieren Probleme; Beobachtung deckt sie auf
Unsicherheit berichten: Die Präzisionsgrenzen Ihrer Stichprobengröße anerkennen
Das Ziel ist nicht, einem Score hinterherzujagen. Es ist, Messung als einen Input für bessere Designentscheidungen zu nutzen.