Zusammenfassung
Synthetische Daten in der Forschung sind keine binäre Wahl zwischen gut und schlecht. Sie existieren auf einem Spektrum mit drei Zonen: Systemtests (Walkthroughs, Barrierefreiheits-Audits), wo synthetische Daten vollständig legitim sind; Forschungsvorbereitung (Instrument-Pilotierung, Hypothesenexploration), wo synthetische Daten als Werkzeug dienen, nicht als Datenquelle; und Verstehen von Menschen (Verhalten, Emotion, Motivation), wo nur echte Daten taugen. Die Grenze verläuft nicht zwischen 'synthetisch und echt', sondern entlang der Frage: 'Wofür werden die synthetischen Daten verwendet?' Wenn sie eine Geschäftsentscheidung informieren, brauchen Sie echte Daten. Wenn sie ein Forschungsdesign verbessern, können synthetische Daten ein nützliches Werkzeug sein.
Das Versprechen ist verlockend: Warum 12 Teilnehmer*innen rekrutieren, wenn man 1.000 simulieren kann? Warum auf Terminkoordination warten, wenn eine KI Ihren Prototyp in Sekunden „durchgehen" kann?
Die Antwort ist nicht mehr so binär wie vor zwei Jahren.
Large Language Models und KI-Agenten haben neue Möglichkeiten für die Research-Automatisierung eröffnet. Einige davon sind wirklich wertvoll. Andere sind methodische Tretminen. Und zwischen diesen beiden Polen hat sich eine Grauzone entwickelt: synthetische Daten als Vorbereitungswerkzeug für echte Forschung, nicht als Ersatz dafür.
Die Frage lautet nicht „synthetisch oder echt?" Sondern: Wofür werden die synthetischen Daten verwendet? Wenn sie eine Geschäftsentscheidung informieren, brauchen Sie echte Daten. Wenn sie ein Forschungsdesign verbessern, können synthetische Daten ein nützliches Werkzeug sein. Dieser Leitfaden kartiert das Spektrum.
Der legitime Anwendungsfall: Automatisierter kognitiver Walkthrough
Ein KI-Agent kann systematisch einen Prototyp oder ein Live-Produkt navigieren und anhand logischer Kriterien bewerten. Das ist keine gefälschte Forschung, sondern eine hocheffiziente heuristische Evaluation.
Was KI-Agenten leisten können
| Fähigkeit | Beispiel | Nutzen |
|---|---|---|
| Logische Ablaufanalyse | „Schritt 3 verweist auf Daten, die erst in Schritt 5 erhoben werden" | Erkennt Reihenfolge-Fehler |
| Label-Konsistenz | „Der Button heißt hier ‚Absenden', dort aber ‚Senden'" | Identifiziert verwirrende Terminologie |
| Navigations-Audit | „Diese Seite bietet keinen Rückweg zum Dashboard" | Findet Sackgassen |
| Barrierefreiheits-Scan | „Dieses Bild hat keinen Alt-Text; dieses Formularfeld hat kein Label" | Erkennt WCAG-Verstöße |
| Content-Bewertung | „Diese Fehlermeldung erklärt nicht, wie das Problem behoben werden kann" | Verbessert Microcopy |
Warum das funktioniert
Logik ist programmierbar. Einer KI können explizite Regeln vorgegeben werden:
- „Jede Aktion sollte einen klaren Rückgängig-Pfad haben"
- „Jedes Formularfeld sollte ein sichtbares Label haben"
- „Jede Fehlermeldung sollte das Problem erklären und eine Lösung vorschlagen"
- „Die Navigation sollte über alle Seiten hinweg konsistent sein"
Die KI prüft dann systematisch jeden Screen gegen diese Regeln, schneller und konsistenter als ein menschlicher Evaluator.
Das Walkthrough-Protokoll
- Evaluationskriterien definieren: Gegen welche Heuristiken oder Standards soll die KI prüfen?
- Interface bereitstellen: Screenshots, Prototyp-Links oder Live-URLs
- Walkthrough durchführen: KI navigiert und markiert Verstöße
- Ergebnisse prüfen: Menschliche Forschende validieren und priorisieren
- Beheben und erneut testen: Iterieren, bis grundlegende Probleme gelöst sind
Was automatisierte Walkthroughs nicht leisten können
Selbst bei legitimen Anwendungsfällen hat KI Grenzen:
| Einschränkung | Beispiel |
|---|---|
| Kann emotionale Reaktionen nicht beurteilen | „Wirkt diese Fehlermeldung herablassend?" |
| Kann Vertrauen nicht bewerten | „Würden Sie hier Ihre Kreditkartendaten eingeben?" |
| Kann Workarounds nicht vorhersagen | „Nutzer*innen könnten einen Screenshot machen, statt den Teilen-Button zu verwenden" |
| Kann unausgesprochene Bedürfnisse nicht aufdecken | „Ich wünschte, hier würde auch X angezeigt" |
Dafür braucht es echte Menschen mit echtem Kontext.
Für die traditionelle heuristische Evaluationsmethode, die automatisierten Walkthroughs am nächsten kommt, siehe Heuristische Evaluation: Das Audit vor dem Test.
Die Grauzone: Synthetische Daten als Forschungsvorbereitung
Zwischen Systemtests und Humanforschung liegt eine wachsende Gruppe von Anwendungsfällen, bei denen synthetische Daten nicht das Ergebnis sind, sondern ein Werkzeug, um die Forschung mit echten Menschen zu verbessern.
Instrument-Stresstest
Generieren Sie synthetische Antworten auf Entwürfe von Fragebogen-Items oder Interviewleitfäden, um Mehrdeutigkeiten, Decken- oder Bodeneffekte sowie unzureichende Skalendifferenzierung zu erkennen. Testen Sie diese, bevor echte Teilnehmer*innen das Instrument sehen. Das ist Pilotierung, keine Datenerhebung. Ein Fragebogenentwurf, der über verschiedene demografische Prompts hinweg identische synthetische Antworten produziert, hat wahrscheinlich ein Skalenproblem. Das vor Feldbeginn zu entdecken, spart Zeit und Geld.
Hypothesenexploration
Nutzen Sie synthetische Antworten zur Exploration: „Wenn unser Produkt Problem X für Zielgruppe Y löst, welche Reaktionsmuster wären plausibel?" Das ist ein Denkwerkzeug zur Schärfung von Forschungsfragen und Studiendesigns. Keine Datenquelle. Kein Beleg. Ein Brainstorming-Partner, der mehr Kombinationen verarbeiten kann als eine Whiteboard-Session. Das Ergebnis sind bessere Hypothesen, die mit echten Menschen getestet werden, keine Schlussfolgerungen.
Edge-Case-Brainstorming
KI kann extreme Nutzungsszenarien generieren (Barrierefreiheits-Grenzfälle, ungewöhnliche Gerätekontexte, untypische Nutzungsziele), an die das Research-Team möglicherweise nicht denkt. Nützlich, um sicherzustellen, dass Ihr Studiendesign genug Raum abdeckt. Wenn Ihr Testplan nur den Happy Path berücksichtigt, können synthetische Edge Cases die blinden Flecken in Ihrem Protokoll aufdecken.
Diese Einordnung deckt sich mit aktueller Forschung. Das systematische Review von Kuric et al. ([1]) schlägt vor, synthetische Teilnehmer*innen als „heuristik-artig" zu betrachten: nützlich für schnelle Prüfungen, Stresstests und Vorbereitung, aber nicht als Ersatz für echte Teilnehmer*innendaten. Das Review identifiziert auch valide „ergänzende Rollen" und „augmentative Ansätze", bei denen synthetische Daten menschliche Forschung unterstützen statt ersetzen. Das entspricht direkt der mittleren Spalte unseres Spektrums: synthetische Daten als Werkzeug, das Ihre echte Forschung besser macht, nicht als Abkürzung, die sie eliminiert.
Der gefährliche Anwendungsfall: Menschen imitieren
Die Versuchung liegt nahe, weiter zu gehen: Wenn KI einen Ablauf evaluieren kann, kann sie dann auch wie eine Nutzerin oder ein Nutzer antworten? Kann sie Survey-Antworten generieren, Interviewaussagen simulieren oder „synthetische Personas" auf Basis demografischer Profile erstellen?
Das Kernargument gilt weiterhin: KI kann gelebte Erfahrung nicht replizieren, und synthetische Antworten sind keine Nutzerdaten. Aber die Einordnung braucht Nuancen. Die Gefahr liegt nicht im Generieren synthetischer Antworten an sich. Sie liegt darin, was man damit macht.
Zwei Teams können exakt die gleiche synthetische Datengenerierung durchführen. Das eine nutzt sie, um seinen Fragebogen vor der echten Feldarbeit zu testen. Das andere präsentiert sie Stakeholdern als „User Research". Das erste ist legitime Methodik. Das zweite ist Fälschung. Der Unterschied liegt im Verwendungszweck, nicht in der Technik.
Das grundlegende Problem
Sprachmodelle sagen das wahrscheinliche nächste Wort auf Basis ihrer Trainingsdaten vorher. Sie modellieren nicht die tatsächliche menschliche Reaktion auf Ihr spezifisches Produkt.
| Was KI tut | Was Forschung braucht |
|---|---|
| Sagt statistisch wahrscheinliche Antworten vorher | Erfasst die tatsächliche menschliche Reaktion |
| Greift auf die „durchschnittliche Internetmeinung" zurück | Bringt Grenzfälle und Ausreißer ans Licht |
| Simuliert Plausibilität | Enthüllt Wahrheit |
| Erzeugt kohärenten Text | Spiegelt gelebte Erfahrung wider |
Warum KI keine Menschen simulieren kann
KI fehlt gelebte Erfahrung. Sie hat nie:
- Einen Job verloren und die Angst gespürt, den Kontostand zu prüfen
- Versucht, ein Formular auszufüllen, während im Hintergrund ein Baby schrie
- Die spezifische Frustration erlebt, wenn eine Marke ein Versprechen bricht
- Das Vertrauen aufgebaut, das aus Jahren positiver Interaktionen entsteht
- Eine irrationale Entscheidung getroffen, weil eine Kindheitserinnerung ausgelöst wurde
Diese Erfahrungen prägen, wie echte Nutzer*innen mit Produkten interagieren. KI kann Text generieren, der klingt wie diese Erfahrungen, aber es ist Simulation, nicht Beobachtung.
Modelle sind 2026 deutlich besser darin, plausible menschliche Antworten zu simulieren, als noch 2024. Das macht das Problem schwieriger, nicht einfacher. Je überzeugender die Simulation, desto schwerer fällt es Teams, zu erkennen, dass sie generierten Text betrachten und keine echte menschliche Erfahrung. Bessere Simulation ist kein Fortschritt in Richtung Ablösung echter Forschung. Es ist eine Falle mit höherer Auflösung.
Ein systematisches Literature Review von Kuric, Demcak und Krajcovic aus 2025 ([1]) hat 182 Studien analysiert, die LLMs als synthetische Teilnehmer*innen einzusetzen versuchten. Es ist die bislang umfassendste Evidenzbasis zu dieser Frage. Das Review identifiziert vier grundlegende Probleme: kognitive Fehlausrichtungen zwischen Modell-Outputs und menschlichem Denken, systematische Verzerrungen in Antwortverteilungen, irreführende Glaubwürdigkeit (Outputs, die sich menschlich lesen, aber kein echtes menschliches Signal tragen) und Overfitting auf Trainingsdaten. Trotz Prompt Engineering und Modellierungstechniken zur Verbesserung der Wiedergabetreue bleiben die Verbesserungen bescheiden. Im besten Fall, so das Fazit des Reviews, reproduzieren LLMs stochastisch ihre Trainingsdaten. Sie generieren keine neuartigen menschlichen Antworten.
Die Falle des „Durchschnittsnutzers"
Wenn Sie eine KI bitten, als „35-jährige berufstätige Mutter" zu antworten, generiert sie eine statistisch durchschnittliche Darstellung basierend darauf, wie solche Personen online beschrieben werden. Das hat zwei Probleme:
- Stereotypisierung: Die KI reproduziert kulturelle Annahmen und Vorurteile
- Nivellierung: Echte Menschen sind widersprüchlich, überraschend und individuell
Die Insights, die am meisten zählen (unerwartete Verhaltensweisen, Grenzfälle und echte Verwirrung), sind genau das, was synthetische Daten nicht liefern können.
Konkrete Schwächen synthetischer Nutzerdaten
| Methode | Was schiefgeht |
|---|---|
| Synthetische Survey-Antworten | KI generiert plausibel klingende, aber bedeutungslose Daten; statistische Analysen liefern selbstbewusste, aber falsche Schlussfolgerungen |
| Synthetische Interviews | KI produziert kohärente Narrative, die Ihre Annahmen bestätigen; Sie lernen nichts Neues |
| KI-generierte Personas | Stereotype werden verstärkt; Grenzfälle bleiben unsichtbar; Design für den „Durchschnitt", der niemanden repräsentiert |
| Synthetisches Usability-Feedback | KI sagt vorher, womit Nutzer*innen möglicherweise kämpfen, verpasst aber, womit sie tatsächlich kämpfen |
Das Fazit: Ein Spektrum, keine Linie
Die Unterscheidung ist nicht binär. Es ist ein Spektrum mit drei Zonen:
| Das System testen | Die Forschung vorbereiten | Den Menschen verstehen |
|---|---|---|
| Synthetische Daten verwenden | Synthetische Daten als Werkzeug nutzen | Echte Daten verwenden |
| Ist es logisch? | Sind meine Fragen klar formuliert? | Ist es wünschenswert? |
| Ist es konsistent? | Deckt mein Studiendesign genug ab? | Löst es ein echtes Problem? |
| Ist es barrierefrei? | Welche Edge Cases sollte ich einplanen? | Wie fühlt es sich an? |
| Gibt es offensichtliche Fehler? | Sind meine Hypothesen es wert, getestet zu werden? | Was überrascht uns? |
Das Entscheidungsframework
Wann synthetische Methoden angemessen sind
| Methode | Sinnvoller Einsatz |
|---|---|
| Kognitiver KI-Walkthrough | Vor-Test vor dem Einsatz menschlicher Teilnehmer*innen |
| Automatisiertes Barrierefreiheits-Audit | Basis-Compliance-Prüfung |
| KI-gestütztes Content-Review | Inkonsistenzen im großen Maßstab erkennen |
| Synthetischer Lasttest | Stresstest der Systemleistung |
| Synthetische Survey-Pilotierung | Instrumentenqualität vor der Feldarbeit prüfen |
| KI-Hypothesenexploration | Forschungsfragen und Studiendesign schärfen |
Wann synthetische Methoden gefährlich sind
| Methode | Warum sie scheitert |
|---|---|
| Synthetische Survey-Antworten | Erzeugt falsches Vertrauen in bedeutungslose Daten |
| KI-generierte Interviewtranskripte | Bestätigt Annahmen, liefert keine Überraschungen |
| Synthetische Personas statt echter Segmentierung | Designt für Stereotype, nicht für echte Menschen |
| KI-„Vorhersage" von Nutzerverhalten | Verpasst die irrationale, emotionale, kontextuelle Realität |
Die ethische Dimension
Über die Methodik hinaus gibt es eine ethische Frage: Synthetische Nutzerdaten können eingesetzt werden, um Forschung komplett zu fälschen.
Ein Team unter Druck könnte „1.000 Survey-Antworten" generieren, um eine bereits getroffene Entscheidung zu rechtfertigen. Ein Dienstleister könnte „User Research" behaupten, die in Wirklichkeit KI-Fabrikation war. Ein Bericht könnte synthetische Zitate als echte Stimmen von Teilnehmer*innen präsentieren.
Offenlegung allein reicht nicht aus. Organisationen brauchen explizite Governance: Was zählt als Forschungsdaten und was nicht. Wer prüft, ob synthetische Methoden angemessen eingesetzt wurden. Was passiert, wenn ein Dienstleister „User Research" behauptet, die Daten aber generiert sind. Die Werkzeuge zur Fälschung von Forschung sind inzwischen trivial zugänglich. Die Hürde ist nicht mehr technisch, sondern institutionell. Teams ohne klare Richtlinien werden früher oder später mit einer Glaubwürdigkeitskrise konfrontiert, intern oder gegenüber Kunden. Wie diese Veränderungen Research-Rollen und -Verantwortlichkeiten prägen, siehe Karriere im Zeitalter der KI: Was sich ändert, was bleibt.
Transparenzanforderungen
Wenn Sie KI in irgendeinem Teil Ihres Forschungsprozesses einsetzen, legen Sie es offen:
- „Barrierefreiheitsprobleme wurden mithilfe automatisierter Scanning-Tools identifiziert"
- „Die initiale heuristische Evaluation war KI-gestützt; die Ergebnisse wurden von menschlichen Gutachter*innen validiert"
- „Der Prototyp wurde vor den Teilnehmer*innen-Sitzungen mit einem automatisierten Walkthrough vorgetestet"
- „Synthetische Daten wurden zur Pilotierung des Forschungsinstruments eingesetzt; alle präsentierten Ergebnisse stammen aus echten Teilnehmer*innen-Sessions"
Präsentieren Sie KI-generierte Inhalte niemals als Daten menschlicher Teilnehmer*innen.
Für das breitere ethische Framework zum Umgang mit Daten in der Forschung, siehe Ethik und Datenschutz in der UX Research.
Was das für die Praxis bedeutet
Synthetische Daten sind ein Werkzeug, leistungsfähig bei richtigem Einsatz, gefährlich bei Missbrauch.
- Nutzen Sie KI für Systemtests: Automatisierte Walkthroughs, Barrierefreiheits-Audits und logische Konsistenzprüfungen sind legitim und wertvoll
- Nutzen Sie KI zur Forschungsvorbereitung: Instrument-Pilotierung, Hypothesenexploration und Edge-Case-Brainstorming verbessern die Qualität der Studien, die Sie mit echten Menschen durchführen
- Ersetzen Sie niemals menschliche Teilnehmer*innen durch KI: Survey-Antworten, Interviewdaten und Verhaltensbeobachtungen erfordern echte Menschen
- Behalten Sie die Einschränkung im Blick: KI simuliert Plausibilität, nicht Wahrheit; ihr fehlt gelebte Erfahrung
- Legen Sie den KI-Einsatz offen: Methodische Transparenz schützt Ihre Glaubwürdigkeit
- Wenden Sie den Drei-Zonen-Test an: „Teste ich das System, bereite ich die Forschung vor, oder versuche ich, den Menschen zu verstehen?"
Die ausgefeilteste KI kann Ihnen nicht sagen, wie es sich anfühlt, Ihre Nutzerin oder Ihr Nutzer zu sein. Das können nur Ihre Nutzer*innen selbst.
Für einen umfassenden Überblick über KI-Fähigkeiten und -Grenzen, der die Risiken synthetischer Daten kontextualisiert, siehe Was KI für UX Research leisten kann und was nicht.
Für die verwandte Herausforderung, menschliche Moderator*innen durch KI in Live-Interviews zu ersetzen, siehe KI-moderierte Interviews: Das Flickenteppich-Problem.
Referenzen
- Kuric, E., Demcak, P., & Krajcovic, M. (2025). "Synthetic Participants Generated by Large Language Models: A Systematic Literature Review." Preprint, Research Square. DOI: 10.21203/rs.3.rs-9057643/v1. Hinweis: Dies ist ein Preprint, der noch kein Peer-Review-Verfahren durchlaufen hat. Die Evidenzbasis von 182 ausgewerteten Studien ist substanziell, aber die Ergebnisse sollten mit diesem Vorbehalt gelesen werden.