KI-Chatbots stehen weiterhin vor anhaltenden Halluzination-Problemen, die die Zuverlässigkeit beeinträchtigen

AI-Chatbots von führenden Tech-Unternehmen wie OpenAI und Google haben in den letzten Monaten Fortschritte in der Schlussfolgerungsfähigkeit erhalten, um die Zuverlässigkeit der Antworten zu verbessern. Aktuelle Tests zeigen jedoch, dass einige neuere Modelle schlechter abschneiden als frühere Versionen und eine Phänomen namens "Halluzinationen" aufweisen – Fehler, bei denen Chatbots falsche Informationen erzeugen oder Antworten liefern, die zwar faktisch korrekt, aber irrelevant oder instruktionenwidrig sind. Dieses Problem besteht bereits seit der Einführung großer Sprachmodelle (LLMs) wie OpenAIs ChatGPT und Googles Gemini, und es scheint unwahrscheinlich, dass es vollständig gelöst wird. Ein technischer Bericht von OpenAI zeigte, dass die im April veröffentlichten Modelle o3 und o4-mini deutlich höhere Halluzinationsraten aufwiesen als das ältere Modell o1 aus Ende 2024: o3 hatte eine Halluzinationsrate von 33 %, o4-mini 48 %, verglichen mit 16 % bei o1, basierend auf der Zusammenfassung öffentlich verfügbarer Fakten. Ebenso ergab die Vectara-Bestenliste zur Verfolgung der Halluzinationsraten, dass einige Schlussfolgerungsmodelle – darunter DeepSeek-R1 – im Vergleich zu Vorgängern deutliche Zuwächse bei Halluzinationen zeigten, trotz ihres Mehr-Schritt-Schlussfolgerungsansatzes vor der Antwort. OpenAI betont, dass die Schlussfolgerungsprozesse nicht zwangsläufig für den Anstieg der Halluzinationen verantwortlich seien und arbeitet aktiv an Wegen, diese in allen Modellen zu reduzieren. Das Fortbestehen von Halluzinationen bedroht mehrere Anwendungsbereiche: Modelle, die häufig falsche Tatsachen liefern, erschweren die Forschungsarbeit; Paralegal-Bots, die nicht existente Fälle zitieren, riskieren juristische Fehler; Kundenservice-Bots mit veralteten Informationen verursachen Betriebsprobleme. Anfangs erwarteten KI-Unternehmen, dass Halluzinationen mit der Zeit abnehmen würden, da frühe Modell-Updates Verbesserungen zeigten. Doch die jüngsten erhöhten Halluzinationsraten stellen diese Aussicht in Frage, unabhängig davon, ob das Modell Schlussfolgerungen zieht oder nicht. Die Vectara-Bestenliste zeigt, dass die Halluzinationsraten bei Schlussfolgerungs- und Nicht-Schlussfolgerungs-Modellen von OpenAI und Google etwa gleich hoch sind, wobei die genauen Zahlen weniger eine Rolle spielen als die relative Platzierung.
Google wollte dazu keinen Kommentar abgeben. Solche Rankings haben jedoch ihre Grenzen. Sie vermengen verschiedene Arten von Halluzinationen: So besteht die bei DeepSeek-R1 gemessene Rate von 14, 3 % hauptsächlich aus „harmlosen“ Fällen – Antworten, die logisch konsistent sind und durch Wissen gestützt werden, im Quelltext aber nicht vorkommen. Außerdem spiegeln Tests, die nur auf Textzusammenfassungen basieren, möglicherweise nicht die Häufigkeit der Halluzinationen in anderen Aufgaben wider, da LLMs nicht speziell für das Zusammenfassen ausgelegt sind. Emily Bender von der University of Washington betont, dass diese Modelle eher wahrscheinliche nächste Wörter vorhersagen, als Informationen zu verarbeiten, um den Text wirklich zu verstehen. Daher sei der Begriff „Halluzination“ irreführend und anthropomorphisierend. Bender kritisiert, dass „Halluzination“ problematisch sei, weil er Fehler als Abweichungen in ansonsten zuverlässigen Systemen darstelle und menschliche Wahrnehmung auf KI projiziere, die diese in keinem Sinne „wahrnehmen“ könne. Arvind Narayanan von Princeton ergänzt, dass Modelle außerdem durch die Nutzung unreliabler oder veralteter Daten Fehler machen, und dass einfach mehr Trainingsdaten oder Rechenleistung diese Probleme bislang nicht gelöst haben. Folglich könnten fehleranfällige KI-Modelle eine dauerhafte Realität sein. Narayanan schlägt vor, solche Modelle nur dann zu verwenden, wenn das Faktenchecken schneller geht als eigene Recherchen, während Bender empfiehlt, ganz auf die Nutzung von KI-Chatbots für Faktenwissen zu verzichten.
Brief news summary
Jüngste Fortschritte bei KI-Chatbots von Unternehmen wie OpenAI und Google, die sich auf die Verbesserung von Schlussfolgerungsfähigkeit und Genauigkeit konzentrieren, haben paradoxerweise zu einer erhöhten Rate an Halluzinationen geführt – Fällen, in denen Modelle falsche oder irreführende Informationen erzeugen und Anweisungen nicht richtig befolgen. Zum Beispiel zeigen die neueren Modelle von OpenAI, o3 und o4-mini, Halluzinationsraten von 33 % bzw. 48 %, verglichen mit 16 % beim älteren o1-Modell, wobei ähnliche Trends bei Modellen wie DeepSeek-R1 beobachtet werden. Trotz dieser Herausforderungen behauptet OpenAI, dass die Komponenten für Schlussfolgerungen nicht die Ursache sind, und arbeitet weiterhin daran, Halluzinationen zu reduzieren. Dieses Problem ist besonders kritisch in Bereichen wie Forschung, Rechtsberatung und Kundenservice, wo Ungenauigkeiten schwerwiegende Folgen haben können. Bewertungen durch Vectara zeigen, dass die Unterschiede in der Häufigkeit von Halluzinationen zwischen Schlussfolgerungsfähigen und nicht-schlussfolgernden Modellen minimal sind, obwohl die Daten noch begrenzt sind. Experten warnen, dass der Begriff „Halluzination“ komplexe Probleme vereinfachen könne, die von veralteten oder unzuverlässigen Daten abhängen. Angesichts anhaltender Ungenauigkeiten schlagen einige vor, den Einsatz von KI-Chatbots auf Szenarien zu beschränken, in denen die Verifizierung von Informationen einfacher ist als eine unabhängige Faktenprüfung. Insgesamt verbleiben Halluzinationen ein großes ungelöstes Problem bei KI-Sprachmodellen.
AI-powered Lead Generation in Social Media
and Search Engines
Let AI take control and automatically generate leads for you!

I'm your Content Manager, ready to handle your first test assignment
Learn how AI can help your business.
Let’s talk!
Hot news

Ilya Sutskever übernimmt die Führung bei sicherer…
Ilya Sutskever hat die Leitung von Safe Superintelligence (SSI) übernommen, dem KI-Startup, das er im Jahr 2024 gegründet hat.

„Der Weltsupercomputer“: Nexus aktiviert das letz…
Dieser Abschnitt stammt aus dem 0xResearch-Newsletter.

Technologiebranche arbeitet mit Pentagon zusammen…
Die Zusammenarbeit zwischen der US-Technologiesektor und dem Pentagon intensiviert sich angesichts zunehmender globaler Instabilität und der wachsenden strategischen Bedeutung Künstlicher Intelligenz (KI).

Potenzial und Akzeptanzherausforderungen von Stab…
Stablecoins werden weithin als eine transformativen Innovation für globale Zahlungen gefeiert, die schnelle, kostengünstige und transparente Transaktionen versprechen und so den grenzüberschreitenden Geldtransfer revolutionieren könnten.

US-M2-Geldmenge erreicht fast 22 Billionen Dollar
Im Mai erreichte die Vereinigten Staaten einen bedeutenden wirtschaftlichen Meilenstein, als die Geldmenge M2 einen Rekordwert von 21,94 Billionen US-Dollar erreichte, was einem Anstieg von 4,5 % im Vergleich zum Vorjahr entspricht – die höchste Wachstumsrate seit fast drei Jahren.

KI und Klimawandel: Vorhersage von Umweltveränder…
Wissenschaftler weltweit nutzen zunehmend künstliche Intelligenz (KI), um das Verständnis und die Vorhersage der Auswirkungen des Klimawandels auf diverse Ökosysteme zu verbessern.

KI im Einzelhandel: Personalisierung von Kundener…
Künstliche Intelligenz (KI) transformiert die Einzelhandelsbranche grundlegend und läutet eine neue Ära personalisierter Einkaufserlebnisse ein, die auf die einzigartigen Vorlieben und Verhaltensweisen einzelner Verbraucher abgestimmt sind.