Zusammenfassung
LLMs sind Konzept-Transformationsmaschinen, keine Wissensgeneratoren. Sie sind hervorragend darin, bereitgestellte Informationen umzustrukturieren und zu kategorisieren, stoßen aber bei neuartigen Insights und tiefem Kontextverständnis an ihre Grenzen. Eine Studie von 2024 zeigte, dass KI 77 % der Usability-Probleme identifizieren kann, denen auch Expert*innen zustimmen, aber 60 % der einzigartigen, von Menschen erkannten Probleme übersieht. Modelle haben sich seither verbessert, aber das grundsätzliche Muster bleibt bestehen. Die Rolle der Forscher*innen liegt in strategischem Framing, kritischer Validierung, ethischem Urteilsvermögen und wirkungsvoller Kommunikation. Das sind Fähigkeiten, die strukturell zur Profession gehören, nicht temporäre Lücken, die KI schließen wird.
Der größte Fehler, den ich bei Teams beobachte, ist, KI wie eine magische Black Box zu behandeln. Sie werfen unstrukturierte Daten hinein und erwarten, dass kohärente, zuverlässige Insights herauskommen. Das ist gefährlich. Nicht weil die Technologie schlecht ist, sondern weil die Erwartung falsch ist.
Large Language Models wie ChatGPT, Claude und Gemini sind zu Standardwerkzeugen im Research-Stack geworden. Der Hype-Zyklus hat sich beruhigt. Was bleibt, ist eine wichtigere Frage: Verstehen Sie eigentlich, womit Sie arbeiten?
Der aktuelle Stand
Die Investitionsphase ist für Teams, die früh begonnen haben, vorbei. Sie haben funktionierende Workflows, etablierte Validierungspraktiken und realisieren messbaren ROI. Für diejenigen, die noch experimentieren oder abwarten, wird die Lücke zum Karriererisiko.
Die Trennlinie verläuft nicht mehr zwischen „KI-Enthusiast*innen vs. Skeptiker*innen", sondern zwischen „KI-kompetenten Forscher*innen vs. Forscher*innen, die den Anschluss verlieren." Das ist kein Hype. Es ist beobachtbar in Stellenausschreibungen, Teamstrukturen und den Erwartungen an einzelne Forscher*innen. Eine Forscherin oder ein Forscher mit guter KI-Kompetenz deckt heute ab, wofür früher zwei nötig waren (siehe Eine Research-Karriere im Zeitalter der KI aufbauen für die Implikationen).
Die lautesten Evangelisten und Skeptiker*innen sind weitergezogen. Die eigentliche Diskussion dreht sich jetzt um Zuverlässigkeit, Governance und Workflow-Integration, die unspektakuläre Arbeit, KI unter realen Bedingungen konsistent nützlich zu machen.
Für ein strukturiertes Framework zur Bewertung von KI-Tools basierend auf diesen Fähigkeiten, siehe KI-Research-Tools bewerten: Ein beständiges Framework.
Was LLMs tatsächlich sind
Das "T" in GPT steht für Transformer [2]. Das ist nicht nur ein technischer Begriff, sondern die nützlichste Beschreibung der Kernfunktion dieser Technologie.
Ein LLM ist keine Wissens-Generierungsmaschine, sondern eine Konzept-Transformationsmaschine. Es ist außergewöhnlich gut darin, Informationen in einem Format aufzunehmen und in ein anderes zu strukturieren oder umzuformulieren. Es ist weniger ein Generator neuer Fakten als vielmehr ein Manipulator bestehender Konzepte.
Im Kern sagt ein LLM das wahrscheinlichste nächste Token vorher, basierend auf Mustern, die aus riesigen Textmengen gelernt wurden. Diese prädiktive Natur ist der Grund, warum Modelle "halluzinieren" können: Sie erzeugen plausibel klingenden Text, keine verifizierten Fakten. Halluzinationen gibt es auch 2026 noch, aber sie sind besser verstanden und mit richtigen Workflows handhabbar: strukturierte Prompts, Validierungsschritte und Kreuz-Modell-Überprüfung.
Was sich seit 2024 verändert hat
Die Kernarchitektur ist dieselbe, aber die Fähigkeiten haben sich erheblich erweitert:
- Multimodaler Input: Modelle verarbeiten jetzt nativ Bilder, Video und Audio, nicht nur Text. Das eröffnet Research-Anwendungen von Screenshot-Analyse bis zur Durchsicht von Session-Aufzeichnungen.
- Agentic AI: Modelle können nun mehrstufige Aufgaben autonom orchestrieren: Analyse-Pipelines ausführen, Tools aufrufen und Entscheidungen innerhalb definierter Rahmenbedingungen treffen.
- Größere Kontextfenster: Modelle verarbeiten routinemäßig Hunderttausende von Tokens, was es ermöglicht, vollständige Transkripte, ganze Codebasen oder komplette Datensätze in einem Durchgang zu verarbeiten.
- Verbessertes Reasoning: Chain-of-Thought- und strukturierte Reasoning-Fähigkeiten haben sich deutlich verbessert, was komplexe analytische Aufgaben zuverlässiger macht.
Das sind echte Fortschritte, keine inkrementellen. Aber sie ändern nicht die grundlegende Natur der Technologie: Sie bleibt eine Transformationsmaschine, keine Urteilsmaschine.
Was die Forschung zeigt
Eine auf der CHI 2024 präsentierte Studie [1] liefert eine nützliche Momentaufnahme basierend auf Modellen von Anfang 2024:
Als erfahrene UX-Fachleute die von einem LLM vorgeschlagenen Usability-Probleme bewerteten:
- Sie stimmten 77 % zu der vom LLM gefundenen Probleme zu
- Aber das LLM übersah rund 60 % der einzigartigen Probleme, die menschliche Expert*innen identifizierten
Modelle haben sich seit dieser Studie verbessert. Die genauen Zahlen haben sich wahrscheinlich verschoben. Aber das grundsätzliche Muster bleibt: KI ist stark bei bekannten Muster-Problemen und schwach bei kontextuellen, neuartigen Problemen. Die Richtung der Erkenntnis ist wichtiger als die konkreten Prozentzahlen.
Das ist ein klares Signal für die richtige Rolle von KI: Assistent, nicht Ersatz.
KI ist hervorragend darin, häufige, musterbasierte Probleme zu erkennen, weil sie auf riesigen Datenmengen trainiert wurde, die diese bekannten Probleme widerspiegeln. Weniger effektiv ist sie bei:
- Der Entdeckung neuartiger Probleme
- Dem Verständnis tiefer kontextueller Nuancen
- Der Erkennung subtiler emotionaler Reaktionen, die eine menschliche Beobachterin oder ein menschlicher Beobachter wahrnehmen würde
Die sich wandelnde Rolle der Forscher*innen
Diese Einschränkungen verdeutlichen die Weiterentwicklung der Rolle von Forscher*innen. Der Wert menschlicher Forscher*innen verlagert sich weg von der mühsamen Arbeit der Rohdatenanalyse hin zur strategischen Arbeit, die KI nicht leisten kann:
Strategisches Framing
Die richtigen Fragen stellen und fundiertes Research-Design entwickeln. KI kann Ihnen nicht sagen, welche Fragen wichtig sind. Das erfordert ein Verständnis des geschäftlichen Kontexts und der Nutzerlandschaft.
Kritische Validierung
Die Ergebnisse der KI hinterfragen, ihre Verzerrungen erkennen und Signal von Rauschen trennen. Die KI liefert Entwürfe; Sie liefern das Urteil.
Foundational Models sind oft darauf trainiert, hilfreich und zustimmend zu sein. Diese Eigenschaft ist als "Sycophancy" bekannt. Um objektive Ergebnisse zu erhalten, müssen Sie einen zustimmenden Assistenten in einen kritischen Sparringspartner verwandeln.
Wirkungsvolle Kommunikation
Erkenntnisse in klare, umsetzbare Empfehlungen übersetzen, die Geschäftsentscheidungen vorantreiben. Die politische und organisatorische Fähigkeit, Insights zur Umsetzung zu bringen, bleibt eine zutiefst menschliche Kompetenz.
Für den Einfluss dieser Veränderungen auf die Karriereentwicklung in der Forschung, siehe Eine Research-Karriere im Zeitalter der KI aufbauen.
Beste Einsatzbereiche für LLMs im Research
Basierend auf Erfahrungswerten sind dies die Aufgaben, bei denen LLMs den zuverlässigsten Mehrwert bieten:
| Aufgabe | Warum es funktioniert |
|---|---|
| Tagging und thematische Analyse | Systematische Kategorisierung qualitativer Daten auf Basis einer von Ihnen bereitgestellten Taxonomie |
| Generative Ideenfindung | Ideen für Zielgruppen, Segmente oder Forschungsfragen auf Basis eines Briefings erkunden |
| Instrument-Stresstests | Interviewleitfäden oder Survey-Fragen auf strukturelle Probleme prüfen |
| Synthetisches User-Feedback | Simulierte Antworten generieren, um Instrumente zu testen oder Hypothesen vor der echten Feldarbeit zu explorieren. Ergänzung, niemals Ersatz (siehe Synthetische Research-Daten) |
| Automatisierte Screener-Auswertung | Antworten von Teilnehmer*innen im großen Maßstab gegen definierte Kriterien vorqualifizieren |
| Echtzeit-Session-Analyse | Muster, Stimmungswechsel oder Abdeckungslücken während Live-Sessions erkennen |
| Multi-Source-Synthese | Erkenntnisse aus Studien, Support-Tickets, Analytics und qualitativen Daten in einheitliche Frameworks zusammenführen |
| Code-Generierung | Python- oder R-Skripte für quantitative Analysen schreiben |
| Übersetzung und Lokalisierung | Erstübersetzungen für interkulturelle Forschung (mit menschlicher Prüfung) |
| Kommunikationsoptimierung | Feedback zu Berichten und klarere Darstellung von Ergebnissen |
| Effizienzgewinne | Zeitersparnis bei repetitiven Aufgaben (siehe ROI von UX Research) |
Für fortgeschrittene Prompting-, RAG- und Fine-Tuning-Techniken, siehe Fortgeschrittene KI-Techniken für Research.
Praktischer Workflow: Thematische Analyse mit einem LLM
Hier ist ein konkreter Schritt-für-Schritt-Workflow für eine der häufigsten KI-gestützten Research-Aufgaben: die thematische Analyse qualitativer Daten.
Schritt 1: Saubere Daten vorbereiten
Der größte Fehler ist, unstrukturierte Transkripte in ein LLM einzuspeisen. Nutzen Sie stattdessen "Tidy Data"-Prinzipien. Erstellen Sie eine einfache Tabelle, in der jede Zeile ein Zitat einer teilnehmenden Person ist und Spalten Metadaten enthalten (Teilnehmer-ID, Aufgabenkontext, Zeitstempel). Anonymisieren Sie alle personenbezogenen Daten (PII) vor dem Upload.
Schritt 2: Einen strukturierten Prompt erstellen
Bitten Sie die KI nicht, "Insights zu finden". Geben Sie ihr eine mechanische Aufgabe mit expliziten Einschränkungen:
- Rolle: "Sie sind eine sorgfältige UX-Researcherin."
- Aufgabe: "Kategorisieren Sie jedes Nutzerzitat anhand der unten bereitgestellten Taxonomie."
- Taxonomie: Geben Sie strikte Definitionen vor (z. B. "Usability", "Feature Request", "Vertrauen/Sicherheit").
Schritt 3: Das Rater-Komitee
Um die Zuverlässigkeit zu erhöhen, setzen Sie mehrere Modelle (z. B. GPT-4 und Claude) als "Rater-Komitee" ein. Füttern Sie sie mit denselben Daten und demselben Prompt.
- Wo sie übereinstimmen, haben Sie hohe Konfidenz.
- Wo sie nicht übereinstimmen, haben Sie ein Signal für Nuancen, die menschliche Prüfung erfordern.
Dieser Ansatz spiegelt traditionelle Interrater-Reliabilitätspraktiken in der qualitativen Forschung wider. KI-Uneinigkeit wird als Signal für menschliche Aufmerksamkeit genutzt, nicht als Fehler betrachtet.
Für den detaillierten Vier-Schritte-Workflow, der diesen Ansatz operationalisiert, siehe KI-gestützte thematische Analyse: Ein praktischer Workflow.
Schritt 4: Menschliche Validierung (der Nuancen-Check)
Die KI sieht Text; Sie haben die Session gesehen. Führen Sie einen "Nuancen-Check" am Output durch:
- Sarkasmus: Hat die nutzende Person "Toll gemacht" mit einem Augenrollen gesagt? Die KI wird das als "Positive Stimmung" taggen. Sie müssen das korrigieren.
- Stille: Hat die nutzende Person vor dem Klicken gezögert? KI kann Stille nicht sehen.
- Kontext: Kam die Frustration der nutzenden Person vom Interface oder von einer externen Unterbrechung während der Session?
Jenseits manueller Pipelines: Agentic Workflows
2026 liegt die Frontier bei Agentic Workflows: Das Modell orchestriert mehrstufige Analyse-Pipelines orchestriert: Daten aufnehmen, Taxonomien anwenden, Unstimmigkeiten markieren, Berichtsentwürfe generieren. Das ist leistungsstark und real. Teams bauen Pipelines, in denen ein KI-Agent einen kompletten Datensatz end-to-end verarbeitet, von rohen Transkripten bis zu strukturierten Erkenntnissen.
Aber hier liegt der entscheidende Punkt: Je autonomer der Workflow, desto wichtiger wird menschliche Validierung, nicht weniger. Autonomie ohne Aufsicht ist keine Effizienz. Es ist Risikoakkumulation. Jeder Schritt, den das Modell ohne menschlichen Checkpoint ausführt, ist ein Schritt, bei dem sich Fehler still aufaddieren.
Der oben beschriebene Vier-Schritte-Workflow ist weiterhin das richtige mentale Modell. Agentic Tools führen ihn schneller aus, aber sie ändern nicht die Logik. Sie brauchen weiterhin saubere Daten, strukturierte Prompts, Kreuzvalidierung und menschliches Urteilsvermögen. Der Unterschied ist Geschwindigkeit, nicht Substanz.
Was KI nicht kann, und wahrscheinlich nicht können wird
Einige Einschränkungen sind temporär: bessere Modelle, mehr Daten, verbesserte Architekturen. Aber die folgenden sind keine Lücken, die zukünftige Modelle schließen werden. Sie sind strukturelle Merkmale dessen, was Research tatsächlich ist: eine menschliche Praxis, die Urteilsvermögen, Ethik und Beziehungen erfordert.
Ethisches Urteilsvermögen bei Einwilligungs- und Risikoentscheidungen
Wenn eine teilnehmende Person belastet wirkt. Wenn Daten sich trotz Anonymisierung zu identifizierbar anfühlen. Wenn das Studiendesign Risiken schafft, die das Protokoll nicht vorhergesehen hat. Das erfordert menschliches moralisches Urteilsvermögen, die Art, die konkurrierende Werte abwägt, nicht konkurrierende Wahrscheinlichkeiten.
Navigieren organisatorischer Politik
Forschungsbudgets durchsetzen. Erkenntnisse verankern. Die Beziehungen aufbauen, die Insights in Handlung verwandeln. Das sind Einflussfähigkeiten, die in Fluren, Meetings und Einzelgesprächen ausgeübt werden. KI navigiert keine Machtstrukturen.
Wissen, was man NICHT erforschen sollte
Zu entscheiden, welche Fragen gerade keine Investition verdienen, erfordert geschäftlichen Kontext, strategisches Urteilsvermögen und ein Verständnis für organisatorische Kapazitäten, das KI nicht hat. Die Fähigkeit, "jetzt nicht" zu sagen, ist genauso wertvoll wie die Fähigkeit, "hier ist, was wir gefunden haben" zu sagen.
Vertrauen bei Stakeholdern aufbauen
Vertrauen wird durch wiederholte menschliche Interaktion, bewiesene Glaubwürdigkeit und eine Erfolgsbilanz aufgebaut. Bessere Outputs helfen, aber sie sind nicht der Mechanismus, durch den Vertrauen entsteht. Stakeholder vertrauen Menschen, nicht Modellen.
Den Raum lesen während Live-Research
Die Pause. Das Augenrollen. Der Stimmungswechsel in der Gruppendynamik. Die teilnehmende Person, die sagt „es ist in Ordnung", während ihre Körpersprache das Gegenteil signalisiert. KI verarbeitet Text und Audio mit zunehmender Raffinesse, aber sie beobachtet nicht wirklich so, wie es eine anwesende menschliche Forscherin oder ein anwesender menschlicher Forscher tut.
Was das für die Praxis bedeutet
Das Ziel ist nicht, Ihr Urteil durch KI zu ersetzen, sondern KI zu nutzen, um Ihr Urteil zu verstärken. Die effektivsten Forscher*innen werden diejenigen sein, die:
- Verstehen, worin LLMs tatsächlich gut sind (Transformation, nicht Generierung)
- Strukturierte Eingaben bereitstellen, die diese Stärken nutzen
- Rigorose menschliche Kontrolle aller Ergebnisse aufrechterhalten
- Ihre eigene Energie auf die strategische Arbeit konzentrieren, die KI nicht leisten kann
Es geht nicht darum, ein bestimmtes Tool zu erlernen. Tools werden sich ändern. Es geht darum, eine Denkweise über die Mensch-KI-Partnerschaft zu entwickeln, die über jedes einzelne Modell oder jede Plattform hinaus Bestand hat.
Quellenverzeichnis
- [1]
- [2]Ashish Vaswani et al.. (2017). "Attention Is All You Need". Advances in Neural Information Processing Systems.Link