Prozess des automatisierten kognitiven Walkthroughs

Das Versprechen ist verlockend: Warum 12 Teilnehmer*innen rekrutieren, wenn man 1.000 simulieren kann? Warum auf Terminkoordination warten, wenn eine KI Ihren Prototyp in Sekunden „durchgehen" kann?

Die Antwort ist nicht mehr so binär wie vor zwei Jahren.

Large Language Models und KI-Agenten haben neue Möglichkeiten für die Research-Automatisierung eröffnet. Einige davon sind wirklich wertvoll. Andere sind methodische Tretminen. Und zwischen diesen beiden Polen hat sich eine Grauzone entwickelt: synthetische Daten als Vorbereitungswerkzeug für echte Forschung, nicht als Ersatz dafür.

Die Frage lautet nicht „synthetisch oder echt?" Sondern: Wofür werden die synthetischen Daten verwendet? Wenn sie eine Geschäftsentscheidung informieren, brauchen Sie echte Daten. Wenn sie ein Forschungsdesign verbessern, können synthetische Daten ein nützliches Werkzeug sein. Dieser Leitfaden kartiert das Spektrum.

Der legitime Anwendungsfall: Automatisierter kognitiver Walkthrough

Ein KI-Agent kann systematisch einen Prototyp oder ein Live-Produkt navigieren und anhand logischer Kriterien bewerten. Das ist keine gefälschte Forschung, sondern eine hocheffiziente heuristische Evaluation.

Was KI-Agenten leisten können

Fähigkeit	Beispiel	Nutzen
Logische Ablaufanalyse	„Schritt 3 verweist auf Daten, die erst in Schritt 5 erhoben werden"	Erkennt Reihenfolge-Fehler
Label-Konsistenz	„Der Button heißt hier ‚Absenden', dort aber ‚Senden'"	Identifiziert verwirrende Terminologie
Navigations-Audit	„Diese Seite bietet keinen Rückweg zum Dashboard"	Findet Sackgassen
Barrierefreiheits-Scan	„Dieses Bild hat keinen Alt-Text; dieses Formularfeld hat kein Label"	Erkennt WCAG-Verstöße
Content-Bewertung	„Diese Fehlermeldung erklärt nicht, wie das Problem behoben werden kann"	Verbessert Microcopy

Warum das funktioniert

Logik ist programmierbar. Einer KI können explizite Regeln vorgegeben werden:

„Jede Aktion sollte einen klaren Rückgängig-Pfad haben"
„Jedes Formularfeld sollte ein sichtbares Label haben"
„Jede Fehlermeldung sollte das Problem erklären und eine Lösung vorschlagen"
„Die Navigation sollte über alle Seiten hinweg konsistent sein"

Die KI prüft dann systematisch jeden Screen gegen diese Regeln, schneller und konsistenter als ein menschlicher Evaluator.

Das Walkthrough-Protokoll

Evaluationskriterien definieren: Gegen welche Heuristiken oder Standards soll die KI prüfen?
Interface bereitstellen: Screenshots, Prototyp-Links oder Live-URLs
Walkthrough durchführen: KI navigiert und markiert Verstöße
Ergebnisse prüfen: Menschliche Forschende validieren und priorisieren
Beheben und erneut testen: Iterieren, bis grundlegende Probleme gelöst sind

Was automatisierte Walkthroughs nicht leisten können

Selbst bei legitimen Anwendungsfällen hat KI Grenzen:

Einschränkung	Beispiel
Kann emotionale Reaktionen nicht beurteilen	„Wirkt diese Fehlermeldung herablassend?"
Kann Vertrauen nicht bewerten	„Würden Sie hier Ihre Kreditkartendaten eingeben?"
Kann Workarounds nicht vorhersagen	„Nutzer*innen könnten einen Screenshot machen, statt den Teilen-Button zu verwenden"
Kann unausgesprochene Bedürfnisse nicht aufdecken	„Ich wünschte, hier würde auch X angezeigt"

Dafür braucht es echte Menschen mit echtem Kontext.

Für die traditionelle heuristische Evaluationsmethode, die automatisierten Walkthroughs am nächsten kommt, siehe Heuristische Evaluation: Das Audit vor dem Test.

Die Grauzone: Synthetische Daten als Forschungsvorbereitung

Zwischen Systemtests und Humanforschung liegt eine wachsende Gruppe von Anwendungsfällen, bei denen synthetische Daten nicht das Ergebnis sind, sondern ein Werkzeug, um die Forschung mit echten Menschen zu verbessern.

Instrument-Stresstest

Generieren Sie synthetische Antworten auf Entwürfe von Fragebogen-Items oder Interviewleitfäden, um Mehrdeutigkeiten, Decken- oder Bodeneffekte sowie unzureichende Skalendifferenzierung zu erkennen. Testen Sie diese, bevor echte Teilnehmer*innen das Instrument sehen. Das ist Pilotierung, keine Datenerhebung. Ein Fragebogenentwurf, der über verschiedene demografische Prompts hinweg identische synthetische Antworten produziert, hat wahrscheinlich ein Skalenproblem. Das vor Feldbeginn zu entdecken, spart Zeit und Geld.

Hypothesenexploration

Nutzen Sie synthetische Antworten zur Exploration: „Wenn unser Produkt Problem X für Zielgruppe Y löst, welche Reaktionsmuster wären plausibel?" Das ist ein Denkwerkzeug zur Schärfung von Forschungsfragen und Studiendesigns. Keine Datenquelle. Kein Beleg. Ein Brainstorming-Partner, der mehr Kombinationen verarbeiten kann als eine Whiteboard-Session. Das Ergebnis sind bessere Hypothesen, die mit echten Menschen getestet werden, keine Schlussfolgerungen.

Edge-Case-Brainstorming

KI kann extreme Nutzungsszenarien generieren (Barrierefreiheits-Grenzfälle, ungewöhnliche Gerätekontexte, untypische Nutzungsziele), an die das Research-Team möglicherweise nicht denkt. Nützlich, um sicherzustellen, dass Ihr Studiendesign genug Raum abdeckt. Wenn Ihr Testplan nur den Happy Path berücksichtigt, können synthetische Edge Cases die blinden Flecken in Ihrem Protokoll aufdecken.

Diese Einordnung deckt sich mit aktueller Forschung. Das systematische Review von Kuric et al. (^[1]) schlägt vor, synthetische Teilnehmer*innen als „heuristik-artig" zu betrachten: nützlich für schnelle Prüfungen, Stresstests und Vorbereitung, aber nicht als Ersatz für echte Teilnehmer*innendaten. Das Review identifiziert auch valide „ergänzende Rollen" und „augmentative Ansätze", bei denen synthetische Daten menschliche Forschung unterstützen statt ersetzen. Das entspricht direkt der mittleren Spalte unseres Spektrums: synthetische Daten als Werkzeug, das Ihre echte Forschung besser macht, nicht als Abkürzung, die sie eliminiert.

Der gefährliche Anwendungsfall: Menschen imitieren

Die Versuchung liegt nahe, weiter zu gehen: Wenn KI einen Ablauf evaluieren kann, kann sie dann auch wie eine Nutzerin oder ein Nutzer antworten? Kann sie Survey-Antworten generieren, Interviewaussagen simulieren oder „synthetische Personas" auf Basis demografischer Profile erstellen?

Das Kernargument gilt weiterhin: KI kann gelebte Erfahrung nicht replizieren, und synthetische Antworten sind keine Nutzerdaten. Aber die Einordnung braucht Nuancen. Die Gefahr liegt nicht im Generieren synthetischer Antworten an sich. Sie liegt darin, was man damit macht.

Zwei Teams können exakt die gleiche synthetische Datengenerierung durchführen. Das eine nutzt sie, um seinen Fragebogen vor der echten Feldarbeit zu testen. Das andere präsentiert sie Stakeholdern als „User Research". Das erste ist legitime Methodik. Das zweite ist Fälschung. Der Unterschied liegt im Verwendungszweck, nicht in der Technik.

Das grundlegende Problem

Sprachmodelle sagen das wahrscheinliche nächste Wort auf Basis ihrer Trainingsdaten vorher. Sie modellieren nicht die tatsächliche menschliche Reaktion auf Ihr spezifisches Produkt.

Was KI tut	Was Forschung braucht
Sagt statistisch wahrscheinliche Antworten vorher	Erfasst die tatsächliche menschliche Reaktion
Greift auf die „durchschnittliche Internetmeinung" zurück	Bringt Grenzfälle und Ausreißer ans Licht
Simuliert Plausibilität	Enthüllt Wahrheit
Erzeugt kohärenten Text	Spiegelt gelebte Erfahrung wider

Warum KI keine Menschen simulieren kann

KI fehlt gelebte Erfahrung. Sie hat nie:

Einen Job verloren und die Angst gespürt, den Kontostand zu prüfen
Versucht, ein Formular auszufüllen, während im Hintergrund ein Baby schrie
Die spezifische Frustration erlebt, wenn eine Marke ein Versprechen bricht
Das Vertrauen aufgebaut, das aus Jahren positiver Interaktionen entsteht
Eine irrationale Entscheidung getroffen, weil eine Kindheitserinnerung ausgelöst wurde

Diese Erfahrungen prägen, wie echte Nutzer*innen mit Produkten interagieren. KI kann Text generieren, der klingt wie diese Erfahrungen, aber es ist Simulation, nicht Beobachtung.

Modelle sind 2026 deutlich besser darin, plausible menschliche Antworten zu simulieren, als noch 2024. Das macht das Problem schwieriger, nicht einfacher. Je überzeugender die Simulation, desto schwerer fällt es Teams, zu erkennen, dass sie generierten Text betrachten und keine echte menschliche Erfahrung. Bessere Simulation ist kein Fortschritt in Richtung Ablösung echter Forschung. Es ist eine Falle mit höherer Auflösung.

Ein systematisches Literature Review von Kuric, Demcak und Krajcovic aus 2025 (^[1]) hat 182 Studien analysiert, die LLMs als synthetische Teilnehmer*innen einzusetzen versuchten. Es ist die bislang umfassendste Evidenzbasis zu dieser Frage. Das Review identifiziert vier grundlegende Probleme: kognitive Fehlausrichtungen zwischen Modell-Outputs und menschlichem Denken, systematische Verzerrungen in Antwortverteilungen, irreführende Glaubwürdigkeit (Outputs, die sich menschlich lesen, aber kein echtes menschliches Signal tragen) und Overfitting auf Trainingsdaten. Trotz Prompt Engineering und Modellierungstechniken zur Verbesserung der Wiedergabetreue bleiben die Verbesserungen bescheiden. Im besten Fall, so das Fazit des Reviews, reproduzieren LLMs stochastisch ihre Trainingsdaten. Sie generieren keine neuartigen menschlichen Antworten.

Die Falle des „Durchschnittsnutzers"

Wenn Sie eine KI bitten, als „35-jährige berufstätige Mutter" zu antworten, generiert sie eine statistisch durchschnittliche Darstellung basierend darauf, wie solche Personen online beschrieben werden. Das hat zwei Probleme:

Stereotypisierung: Die KI reproduziert kulturelle Annahmen und Vorurteile
Nivellierung: Echte Menschen sind widersprüchlich, überraschend und individuell

Die Insights, die am meisten zählen (unerwartete Verhaltensweisen, Grenzfälle und echte Verwirrung), sind genau das, was synthetische Daten nicht liefern können.

Konkrete Schwächen synthetischer Nutzerdaten

Methode	Was schiefgeht
Synthetische Survey-Antworten	KI generiert plausibel klingende, aber bedeutungslose Daten; statistische Analysen liefern selbstbewusste, aber falsche Schlussfolgerungen
Synthetische Interviews	KI produziert kohärente Narrative, die Ihre Annahmen bestätigen; Sie lernen nichts Neues
KI-generierte Personas	Stereotype werden verstärkt; Grenzfälle bleiben unsichtbar; Design für den „Durchschnitt", der niemanden repräsentiert
Synthetisches Usability-Feedback	KI sagt vorher, womit Nutzerinnen möglicherweise* kämpfen, verpasst aber, womit sie tatsächlich kämpfen

Das Fazit: Ein Spektrum, keine Linie

Die Unterscheidung ist nicht binär. Es ist ein Spektrum mit drei Zonen:

Das System testen	Die Forschung vorbereiten	Den Menschen verstehen
Synthetische Daten verwenden	Synthetische Daten als Werkzeug nutzen	Echte Daten verwenden
Ist es logisch?	Sind meine Fragen klar formuliert?	Ist es wünschenswert?
Ist es konsistent?	Deckt mein Studiendesign genug ab?	Löst es ein echtes Problem?
Ist es barrierefrei?	Welche Edge Cases sollte ich einplanen?	Wie fühlt es sich an?
Gibt es offensichtliche Fehler?	Sind meine Hypothesen es wert, getestet zu werden?	Was überrascht uns?

Das Entscheidungsframework

Wann synthetische Methoden angemessen sind

Methode	Sinnvoller Einsatz
Kognitiver KI-Walkthrough	Vor-Test vor dem Einsatz menschlicher Teilnehmer*innen
Automatisiertes Barrierefreiheits-Audit	Basis-Compliance-Prüfung
KI-gestütztes Content-Review	Inkonsistenzen im großen Maßstab erkennen
Synthetischer Lasttest	Stresstest der Systemleistung
Synthetische Survey-Pilotierung	Instrumentenqualität vor der Feldarbeit prüfen
KI-Hypothesenexploration	Forschungsfragen und Studiendesign schärfen

Wann synthetische Methoden gefährlich sind

Methode	Warum sie scheitert
Synthetische Survey-Antworten	Erzeugt falsches Vertrauen in bedeutungslose Daten
KI-generierte Interviewtranskripte	Bestätigt Annahmen, liefert keine Überraschungen
Synthetische Personas statt echter Segmentierung	Designt für Stereotype, nicht für echte Menschen
KI-„Vorhersage" von Nutzerverhalten	Verpasst die irrationale, emotionale, kontextuelle Realität

Die ethische Dimension

Über die Methodik hinaus gibt es eine ethische Frage: Synthetische Nutzerdaten können eingesetzt werden, um Forschung komplett zu fälschen.

Ein Team unter Druck könnte „1.000 Survey-Antworten" generieren, um eine bereits getroffene Entscheidung zu rechtfertigen. Ein Dienstleister könnte „User Research" behaupten, die in Wirklichkeit KI-Fabrikation war. Ein Bericht könnte synthetische Zitate als echte Stimmen von Teilnehmer*innen präsentieren.

Offenlegung allein reicht nicht aus. Organisationen brauchen explizite Governance: Was zählt als Forschungsdaten und was nicht. Wer prüft, ob synthetische Methoden angemessen eingesetzt wurden. Was passiert, wenn ein Dienstleister „User Research" behauptet, die Daten aber generiert sind. Die Werkzeuge zur Fälschung von Forschung sind inzwischen trivial zugänglich. Die Hürde ist nicht mehr technisch, sondern institutionell. Teams ohne klare Richtlinien werden früher oder später mit einer Glaubwürdigkeitskrise konfrontiert, intern oder gegenüber Kunden. Wie diese Veränderungen Research-Rollen und -Verantwortlichkeiten prägen, siehe Karriere im Zeitalter der KI: Was sich ändert, was bleibt.

Transparenzanforderungen

Wenn Sie KI in irgendeinem Teil Ihres Forschungsprozesses einsetzen, legen Sie es offen:

„Barrierefreiheitsprobleme wurden mithilfe automatisierter Scanning-Tools identifiziert"
„Die initiale heuristische Evaluation war KI-gestützt; die Ergebnisse wurden von menschlichen Gutachter*innen validiert"
„Der Prototyp wurde vor den Teilnehmer*innen-Sitzungen mit einem automatisierten Walkthrough vorgetestet"
„Synthetische Daten wurden zur Pilotierung des Forschungsinstruments eingesetzt; alle präsentierten Ergebnisse stammen aus echten Teilnehmer*innen-Sessions"

Präsentieren Sie KI-generierte Inhalte niemals als Daten menschlicher Teilnehmer*innen.

Für das breitere ethische Framework zum Umgang mit Daten in der Forschung, siehe Ethik und Datenschutz in der UX Research.

Was das für die Praxis bedeutet

Synthetische Daten sind ein Werkzeug, leistungsfähig bei richtigem Einsatz, gefährlich bei Missbrauch.

Nutzen Sie KI für Systemtests: Automatisierte Walkthroughs, Barrierefreiheits-Audits und logische Konsistenzprüfungen sind legitim und wertvoll
Nutzen Sie KI zur Forschungsvorbereitung: Instrument-Pilotierung, Hypothesenexploration und Edge-Case-Brainstorming verbessern die Qualität der Studien, die Sie mit echten Menschen durchführen
Ersetzen Sie niemals menschliche Teilnehmer*innen durch KI: Survey-Antworten, Interviewdaten und Verhaltensbeobachtungen erfordern echte Menschen
Behalten Sie die Einschränkung im Blick: KI simuliert Plausibilität, nicht Wahrheit; ihr fehlt gelebte Erfahrung
Legen Sie den KI-Einsatz offen: Methodische Transparenz schützt Ihre Glaubwürdigkeit
Wenden Sie den Drei-Zonen-Test an: „Teste ich das System, bereite ich die Forschung vor, oder versuche ich, den Menschen zu verstehen?"

Die ausgefeilteste KI kann Ihnen nicht sagen, wie es sich anfühlt, Ihre Nutzerin oder Ihr Nutzer zu sein. Das können nur Ihre Nutzer*innen selbst.

Für einen umfassenden Überblick über KI-Fähigkeiten und -Grenzen, der die Risiken synthetischer Daten kontextualisiert, siehe Was KI für UX Research leisten kann und was nicht.

Für die verwandte Herausforderung, menschliche Moderator*innen durch KI in Live-Interviews zu ersetzen, siehe KI-moderierte Interviews: Das Flickenteppich-Problem.

Referenzen

Kuric, E., Demcak, P., & Krajcovic, M. (2025). "Synthetic Participants Generated by Large Language Models: A Systematic Literature Review." Preprint, Research Square. DOI: 10.21203/rs.3.rs-9057643/v1. Hinweis: Dies ist ein Preprint, der noch kein Peer-Review-Verfahren durchlaufen hat. Die Evidenzbasis von 182 ausgewerteten Studien ist substanziell, aber die Ergebnisse sollten mit diesem Vorbehalt gelesen werden.

Die Antwort ist nicht mehr so binär wie vor zwei Jahren.

Der legitime Anwendungsfall: Automatisierter kognitiver Walkthrough

Was KI-Agenten leisten können

Fähigkeit	Beispiel	Nutzen
Logische Ablaufanalyse	„Schritt 3 verweist auf Daten, die erst in Schritt 5 erhoben werden"	Erkennt Reihenfolge-Fehler
Label-Konsistenz	„Der Button heißt hier ‚Absenden', dort aber ‚Senden'"	Identifiziert verwirrende Terminologie
Navigations-Audit	„Diese Seite bietet keinen Rückweg zum Dashboard"	Findet Sackgassen
Barrierefreiheits-Scan	„Dieses Bild hat keinen Alt-Text; dieses Formularfeld hat kein Label"	Erkennt WCAG-Verstöße
Content-Bewertung	„Diese Fehlermeldung erklärt nicht, wie das Problem behoben werden kann"	Verbessert Microcopy

Warum das funktioniert

Logik ist programmierbar. Einer KI können explizite Regeln vorgegeben werden:

„Jede Aktion sollte einen klaren Rückgängig-Pfad haben"
„Jedes Formularfeld sollte ein sichtbares Label haben"
„Jede Fehlermeldung sollte das Problem erklären und eine Lösung vorschlagen"
„Die Navigation sollte über alle Seiten hinweg konsistent sein"

Die KI prüft dann systematisch jeden Screen gegen diese Regeln, schneller und konsistenter als ein menschlicher Evaluator.

Das Walkthrough-Protokoll

Evaluationskriterien definieren: Gegen welche Heuristiken oder Standards soll die KI prüfen?
Interface bereitstellen: Screenshots, Prototyp-Links oder Live-URLs
Walkthrough durchführen: KI navigiert und markiert Verstöße
Ergebnisse prüfen: Menschliche Forschende validieren und priorisieren
Beheben und erneut testen: Iterieren, bis grundlegende Probleme gelöst sind

Was automatisierte Walkthroughs nicht leisten können

Selbst bei legitimen Anwendungsfällen hat KI Grenzen:

Einschränkung	Beispiel
Kann emotionale Reaktionen nicht beurteilen	„Wirkt diese Fehlermeldung herablassend?"
Kann Vertrauen nicht bewerten	„Würden Sie hier Ihre Kreditkartendaten eingeben?"
Kann Workarounds nicht vorhersagen	„Nutzer*innen könnten einen Screenshot machen, statt den Teilen-Button zu verwenden"
Kann unausgesprochene Bedürfnisse nicht aufdecken	„Ich wünschte, hier würde auch X angezeigt"

Dafür braucht es echte Menschen mit echtem Kontext.

Für die traditionelle heuristische Evaluationsmethode, die automatisierten Walkthroughs am nächsten kommt, siehe Heuristische Evaluation: Das Audit vor dem Test.

Die Grauzone: Synthetische Daten als Forschungsvorbereitung

Instrument-Stresstest

Hypothesenexploration

Edge-Case-Brainstorming

Der gefährliche Anwendungsfall: Menschen imitieren

Das grundlegende Problem

Sprachmodelle sagen das wahrscheinliche nächste Wort auf Basis ihrer Trainingsdaten vorher. Sie modellieren nicht die tatsächliche menschliche Reaktion auf Ihr spezifisches Produkt.

Was KI tut	Was Forschung braucht
Sagt statistisch wahrscheinliche Antworten vorher	Erfasst die tatsächliche menschliche Reaktion
Greift auf die „durchschnittliche Internetmeinung" zurück	Bringt Grenzfälle und Ausreißer ans Licht
Simuliert Plausibilität	Enthüllt Wahrheit
Erzeugt kohärenten Text	Spiegelt gelebte Erfahrung wider

Warum KI keine Menschen simulieren kann

KI fehlt gelebte Erfahrung. Sie hat nie:

Einen Job verloren und die Angst gespürt, den Kontostand zu prüfen
Versucht, ein Formular auszufüllen, während im Hintergrund ein Baby schrie
Die spezifische Frustration erlebt, wenn eine Marke ein Versprechen bricht
Das Vertrauen aufgebaut, das aus Jahren positiver Interaktionen entsteht
Eine irrationale Entscheidung getroffen, weil eine Kindheitserinnerung ausgelöst wurde

Diese Erfahrungen prägen, wie echte Nutzer*innen mit Produkten interagieren. KI kann Text generieren, der klingt wie diese Erfahrungen, aber es ist Simulation, nicht Beobachtung.

Die Falle des „Durchschnittsnutzers"

Stereotypisierung: Die KI reproduziert kulturelle Annahmen und Vorurteile
Nivellierung: Echte Menschen sind widersprüchlich, überraschend und individuell

Die Insights, die am meisten zählen (unerwartete Verhaltensweisen, Grenzfälle und echte Verwirrung), sind genau das, was synthetische Daten nicht liefern können.

Konkrete Schwächen synthetischer Nutzerdaten

Methode	Was schiefgeht
Synthetische Survey-Antworten	KI generiert plausibel klingende, aber bedeutungslose Daten; statistische Analysen liefern selbstbewusste, aber falsche Schlussfolgerungen
Synthetische Interviews	KI produziert kohärente Narrative, die Ihre Annahmen bestätigen; Sie lernen nichts Neues
KI-generierte Personas	Stereotype werden verstärkt; Grenzfälle bleiben unsichtbar; Design für den „Durchschnitt", der niemanden repräsentiert
Synthetisches Usability-Feedback	KI sagt vorher, womit Nutzerinnen möglicherweise* kämpfen, verpasst aber, womit sie tatsächlich kämpfen

Das Fazit: Ein Spektrum, keine Linie

Die Unterscheidung ist nicht binär. Es ist ein Spektrum mit drei Zonen:

Das System testen	Die Forschung vorbereiten	Den Menschen verstehen
Synthetische Daten verwenden	Synthetische Daten als Werkzeug nutzen	Echte Daten verwenden
Ist es logisch?	Sind meine Fragen klar formuliert?	Ist es wünschenswert?
Ist es konsistent?	Deckt mein Studiendesign genug ab?	Löst es ein echtes Problem?
Ist es barrierefrei?	Welche Edge Cases sollte ich einplanen?	Wie fühlt es sich an?
Gibt es offensichtliche Fehler?	Sind meine Hypothesen es wert, getestet zu werden?	Was überrascht uns?

Das Entscheidungsframework

Wann synthetische Methoden angemessen sind

Methode	Sinnvoller Einsatz
Kognitiver KI-Walkthrough	Vor-Test vor dem Einsatz menschlicher Teilnehmer*innen
Automatisiertes Barrierefreiheits-Audit	Basis-Compliance-Prüfung
KI-gestütztes Content-Review	Inkonsistenzen im großen Maßstab erkennen
Synthetischer Lasttest	Stresstest der Systemleistung
Synthetische Survey-Pilotierung	Instrumentenqualität vor der Feldarbeit prüfen
KI-Hypothesenexploration	Forschungsfragen und Studiendesign schärfen

Wann synthetische Methoden gefährlich sind

Methode	Warum sie scheitert
Synthetische Survey-Antworten	Erzeugt falsches Vertrauen in bedeutungslose Daten
KI-generierte Interviewtranskripte	Bestätigt Annahmen, liefert keine Überraschungen
Synthetische Personas statt echter Segmentierung	Designt für Stereotype, nicht für echte Menschen
KI-„Vorhersage" von Nutzerverhalten	Verpasst die irrationale, emotionale, kontextuelle Realität

Die ethische Dimension

Über die Methodik hinaus gibt es eine ethische Frage: Synthetische Nutzerdaten können eingesetzt werden, um Forschung komplett zu fälschen.

Transparenzanforderungen

Wenn Sie KI in irgendeinem Teil Ihres Forschungsprozesses einsetzen, legen Sie es offen:

„Barrierefreiheitsprobleme wurden mithilfe automatisierter Scanning-Tools identifiziert"
„Die initiale heuristische Evaluation war KI-gestützt; die Ergebnisse wurden von menschlichen Gutachter*innen validiert"
„Der Prototyp wurde vor den Teilnehmer*innen-Sitzungen mit einem automatisierten Walkthrough vorgetestet"
„Synthetische Daten wurden zur Pilotierung des Forschungsinstruments eingesetzt; alle präsentierten Ergebnisse stammen aus echten Teilnehmer*innen-Sessions"

Präsentieren Sie KI-generierte Inhalte niemals als Daten menschlicher Teilnehmer*innen.

Für das breitere ethische Framework zum Umgang mit Daten in der Forschung, siehe Ethik und Datenschutz in der UX Research.

Was das für die Praxis bedeutet

Synthetische Daten sind ein Werkzeug, leistungsfähig bei richtigem Einsatz, gefährlich bei Missbrauch.

Nutzen Sie KI für Systemtests: Automatisierte Walkthroughs, Barrierefreiheits-Audits und logische Konsistenzprüfungen sind legitim und wertvoll
Nutzen Sie KI zur Forschungsvorbereitung: Instrument-Pilotierung, Hypothesenexploration und Edge-Case-Brainstorming verbessern die Qualität der Studien, die Sie mit echten Menschen durchführen
Ersetzen Sie niemals menschliche Teilnehmer*innen durch KI: Survey-Antworten, Interviewdaten und Verhaltensbeobachtungen erfordern echte Menschen
Behalten Sie die Einschränkung im Blick: KI simuliert Plausibilität, nicht Wahrheit; ihr fehlt gelebte Erfahrung
Legen Sie den KI-Einsatz offen: Methodische Transparenz schützt Ihre Glaubwürdigkeit
Wenden Sie den Drei-Zonen-Test an: „Teste ich das System, bereite ich die Forschung vor, oder versuche ich, den Menschen zu verstehen?"

Die ausgefeilteste KI kann Ihnen nicht sagen, wie es sich anfühlt, Ihre Nutzerin oder Ihr Nutzer zu sein. Das können nur Ihre Nutzer*innen selbst.

Für einen umfassenden Überblick über KI-Fähigkeiten und -Grenzen, der die Risiken synthetischer Daten kontextualisiert, siehe Was KI für UX Research leisten kann und was nicht.

Für die verwandte Herausforderung, menschliche Moderator*innen durch KI in Live-Interviews zu ersetzen, siehe KI-moderierte Interviews: Das Flickenteppich-Problem.

Referenzen

Kuric, E., Demcak, P., & Krajcovic, M. (2025). "Synthetic Participants Generated by Large Language Models: A Systematic Literature Review." Preprint, Research Square. DOI: 10.21203/rs.3.rs-9057643/v1. Hinweis: Dies ist ein Preprint, der noch kein Peer-Review-Verfahren durchlaufen hat. Die Evidenzbasis von 182 ausgewerteten Studien ist substanziell, aber die Ergebnisse sollten mit diesem Vorbehalt gelesen werden.

Synthetische Daten in der Forschung: Automatisierte Walkthroughs vs. gefälschte Nutzer*innen

Zusammenfassung

Der legitime Anwendungsfall: Automatisierter kognitiver Walkthrough

Was KI-Agenten leisten können

Warum das funktioniert

Das Walkthrough-Protokoll

Was automatisierte Walkthroughs nicht leisten können

Die Grauzone: Synthetische Daten als Forschungsvorbereitung

Instrument-Stresstest

Hypothesenexploration

Edge-Case-Brainstorming

Der gefährliche Anwendungsfall: Menschen imitieren

Das grundlegende Problem

Warum KI keine Menschen simulieren kann

Die Falle des „Durchschnittsnutzers"

Konkrete Schwächen synthetischer Nutzerdaten

Das Fazit: Ein Spektrum, keine Linie

Das Entscheidungsframework

Wann synthetische Methoden angemessen sind

Wann synthetische Methoden gefährlich sind

Die ethische Dimension

Transparenzanforderungen

Was das für die Praxis bedeutet

Referenzen

Kostenloses Research-Handbuch

Verwandte Resources

KI-moderierte Interviews: Das Flickenteppich-Problem

KI-gestützte thematische Analyse: Ein praktischer Workflow

Unser Ansatz für Datenqualität

Bereit für den nächsten Schritt?

Synthetische Daten in der Forschung: Automatisierte Walkthroughs vs. gefälschte Nutzer*innen

Zusammenfassung

Der legitime Anwendungsfall: Automatisierter kognitiver Walkthrough

Was KI-Agenten leisten können

Warum das funktioniert

Das Walkthrough-Protokoll

Was automatisierte Walkthroughs nicht leisten können

Die Grauzone: Synthetische Daten als Forschungsvorbereitung

Instrument-Stresstest

Hypothesenexploration

Edge-Case-Brainstorming

Der gefährliche Anwendungsfall: Menschen imitieren

Das grundlegende Problem

Warum KI keine Menschen simulieren kann

Die Falle des „Durchschnittsnutzers"

Konkrete Schwächen synthetischer Nutzerdaten

Das Fazit: Ein Spektrum, keine Linie

Das Entscheidungsframework

Wann synthetische Methoden angemessen sind

Wann synthetische Methoden gefährlich sind

Die ethische Dimension

Transparenzanforderungen

Was das für die Praxis bedeutet

Referenzen

Kostenloses Research-Handbuch

Verwandte Resources

KI-moderierte Interviews: Das Flickenteppich-Problem

KI-gestützte thematische Analyse: Ein praktischer Workflow

Unser Ansatz für Datenqualität

Bereit für den nächsten Schritt?