Wenn KI-Tools in hohem Ausmaß richtig stark antworten und an manchen Stellen nachgeschärft werden muss, klingt das für manche nach Schwäche. Seltsam nur: Bei Menschen nennen wir dasselbe Alltag. Vielleicht ist nicht die KI das Problem – sondern unsere Erwartung, dass Maschinen fehlerfrei liefern müssen, während wir menschliche Irrtümer längst einkalkulieren.
In vielen Unternehmen zeigt sich derzeit ein interessantes Muster: Rund 70 bis 80 Prozent der Antworten von KI-Systemen werden als hervorragend empfunden, 20 bis 30 Prozent als verbesserungswürdig. Doch was sagt diese Zahl tatsächlich aus? Über die Grenzen künstlicher Intelligenz – und über unsere manchmal erstaunlich hohen Erwartungen an Maschinen.
Es ist einer dieser Sätze, die man derzeit in Gesprächen mit Menschen aus der Wirtschaft häufiger hört: »Ein hohes Ausmaß der Antworten ist top, bei einem kleineren Teil müssen wir noch daran arbeiten.« Gemeint sind KI-Systeme, die in Unternehmen eingesetzt werden, um Fragen zu beantworten, Wissen verfügbar zu machen oder Serviceprozesse zu unterstützen. Und auf den ersten Blick klingt diese Einschätzung durchaus kritisch. Da geht doch noch etwas.
Natürlich geht da noch etwas. Aber vielleicht lohnt sich ein zweiter Blick.
Denn ein Large Language Model ist keine klassische Datenbankabfrage. Es sucht nicht wie ein Buchhalter nach einem exakt abgelegten Datensatz, zieht ihn aus einer Schublade und legt ihn dem Fragesteller auf den Tisch. Ein LLM arbeitet anders. Es setzt Sprache nach Wahrscheinlichkeiten zusammen. Es berechnet, welche Wörter, Sätze und Zusammenhänge mit hoher Wahrscheinlichkeit zur gestellten Frage passen. Das klingt technischer, als es im Alltag empfunden wird – und doch ist es dem menschlichen Denken und Sprechen näher, als uns manchmal lieb ist.
Zitat: »Bei Menschen nennen wir Fehler Erfahrung. Bei Maschinen nennen wir sie Versagen.«
Auch Menschen beantworten Fragen nicht immer so, wie es der Fragesteller erwartet. Wer schon einmal im Kundenservice angerufen, mit einer Fachabteilung gesprochen oder in einem Meeting eine vermeintlich klare Frage gestellt hat, kennt das Phänomen: Die Antwort ist nicht zwingend falsch, aber sie trifft nicht den Punkt. Also fragt man nach. Man präzisiert. Man schärft die Frage. Man formuliert um. Und selbst beim zweiten Versuch ist nicht garantiert, dass die Antwort zu 100 Prozent den Erwartungen entspricht.
Das ist Kommunikation.
Bei Menschen akzeptieren wir das weitgehend. Bei KI-Systemen hingegen entsteht sehr schnell der Reflex, Abweichungen als Fehler zu interpretieren. Dabei liegt das Problem häufig nicht darin, dass die Antwort objektiv falsch wäre. Manchmal war die Frage unklar. Manchmal fehlte Kontext. Manchmal wurde eine Absicht nicht erkannt. Manchmal wollte der Fragesteller eine sehr konkrete Antwort, hat aber eine offene Frage gestellt. Wer aus »Wie ist das geregelt?« eigentlich »Welche Regel gilt in unserem Unternehmen für diesen speziellen Fall?« meint, darf sich nicht wundern, wenn ein System zunächst allgemeiner antwortet.
Zitat: »Menschen dürfen nachbessern. KI soll sofort perfekt sein.«
Ich weiß, Sie hören derzeit beinahe täglich, dass KI-Systeme halluzinieren. Aber – und das ist das große Aber – genau darum geht es bei diesen nachzuschärfenden Antworten in der Regel nicht. Eine Halluzination ist etwas anderes: Sie entsteht dann, wenn ein System Inhalte erfindet, Quellen vortäuscht oder Aussagen trifft, die durch keine belastbare Grundlage gedeckt sind. Bei guten RAG-Systemen sollte genau das üblicherweise nicht passieren, weil sie nicht frei ins Blaue formulieren, sondern auf definierte, geprüfte und abgegrenzte Wissensbestände zugreifen. Wenn eine Antwort also nicht sofort exakt jene Erwartung trifft, die der Fragesteller im Kopf hatte, ist sie deshalb noch lange keine Halluzination. Oft ist sie schlicht ein Hinweis darauf, dass die Frage präziser gestellt, der Kontext ergänzt oder die Antwort im zweiten Schritt geschärft werden muss.
Besonders interessant wird es bei KI-Systemen, die auf solchen RAG-Architekturen basieren – also auf Retrieval Augmented Generation. Vereinfacht gesagt: Das System greift nicht auf irgendein diffuses Weltwissen zurück, sondern sucht zuerst in einem definierten Datenbestand, in einem Datensilo, in den vom Unternehmen bereitgestellten Dokumenten. Erst auf dieser Grundlage formuliert es die Antwort. Wenn diese Daten aktuell, sauber strukturiert und fachlich korrekt sind, sinkt die Wahrscheinlichkeit falscher Antworten erheblich. Nicht auf null. Aber deutlich.
Und hier beginnt die eigentliche Debatte. Nicht jede Antwort, die nicht den Erwartungen entspricht, ist falsch. Nicht jede Nachfrage ist ein Beweis für ein schlechtes System. Und nicht jede Unschärfe ist ein KI-Problem. Oft ist sie ein Kommunikationsproblem – so wie im Umgang mit Menschen auch.
Der Unterschied besteht nur darin, dass wir Maschinen gerne an einem Ideal messen, das wir bei Menschen längst aufgegeben haben. Von der KI erwarten wir 100 Prozent. Vom Menschen hoffen wir auf Freundlichkeit, Erfahrung und einen brauchbaren zweiten Versuch. Dabei machen Menschen im Kundenverkehr, im Servicebereich, in der internen Kommunikation und sogar in hochspezialisierten Fachabteilungen häufig Fehler. Sie missverstehen Fragen. Sie vergessen Details. Sie kennen interne Dokumente nicht. Sie geben veraltete Auskünfte. Sie raten. Sie improvisieren. Und manchmal erfinden sie mit erstaunlicher Überzeugung Dinge, die schlicht nicht stimmen.
Die Frage ist daher nicht, ob KI-Systeme von Anfang an perfekt sind. Das sind sie nicht. Die sinnvollere Frage lautet: Wie gut müssen sie sein, um im Vergleich zur bestehenden menschlichen Praxis einen messbaren Fortschritt zu bringen?
Zitat: »Die KI muss besser werden. Keine Frage. Aber unsere Fragen, Daten und Erwartungen müssen es auch.«

Nicht jede unerwartete KI-Antwort ist falsch. Oft braucht gute Kommunikation – mit Menschen wie mit KI – eine präzisere Frage oder eine Nachfrage. (© www.i-Magazin.com / KI-generiertes Schaubild)
Wenn ein System heute einen großen Teil der Fragen sehr gut beantwortet und bei einem kleineren Teil Nachschärfung braucht, ist das kein Scheitern. Es ist ein Arbeitsstand. Vor allem dann, wenn diese nachzuschärfenden Antworten nicht im luftleeren Raum bleiben, sondern genutzt werden, um Fragen besser zu formulieren, Datenbestände zu verbessern, Prozesse zu schärfen und das System laufend zu optimieren. Genau darin liegt der eigentliche Wert: KI macht Wissenslücken sichtbar. Sie zeigt, wo Dokumente fehlen, wo Begriffe uneinheitlich verwendet werden, wo Zuständigkeiten unklar sind und wo Unternehmen selbst nicht sauber formuliert haben, was sie eigentlich wissen.
Vielleicht sollten wir daher weniger darüber sprechen, warum KI nicht immer sofort die perfekte Antwort liefert. Vielleicht sollten wir mehr darüber sprechen, warum wir von ihr Perfektion erwarten, während wir menschliche Fehler seit Jahrzehnten als Teil des Betriebs akzeptieren.
Denn am Ende ist die KI nicht der Zauberstab, der Kommunikation ersetzt. Sie ist ein Werkzeug, das Kommunikation verdichtet, beschleunigt und in vielen Fällen verbessert. Aber auch dieses Werkzeug braucht klare Fragen, saubere Daten und Menschen, die verstehen, dass Wissen nicht nur gespeichert, sondern auch richtig abgefragt werden muss.
Die Maschine muss lernen. Ja. Aber wir auch.