KI-Chatbots stehen weiterhin vor anhaltenden Halluzination-Problemen, die die Zuverlässigkeit beeinträchtigen

AI-Chatbots von führenden Tech-Unternehmen wie OpenAI und Google haben in den letzten Monaten Fortschritte in der Schlussfolgerungsfähigkeit erhalten, um die Zuverlässigkeit der Antworten zu verbessern. Aktuelle Tests zeigen jedoch, dass einige neuere Modelle schlechter abschneiden als frühere Versionen und eine Phänomen namens "Halluzinationen" aufweisen – Fehler, bei denen Chatbots falsche Informationen erzeugen oder Antworten liefern, die zwar faktisch korrekt, aber irrelevant oder instruktionenwidrig sind. Dieses Problem besteht bereits seit der Einführung großer Sprachmodelle (LLMs) wie OpenAIs ChatGPT und Googles Gemini, und es scheint unwahrscheinlich, dass es vollständig gelöst wird. Ein technischer Bericht von OpenAI zeigte, dass die im April veröffentlichten Modelle o3 und o4-mini deutlich höhere Halluzinationsraten aufwiesen als das ältere Modell o1 aus Ende 2024: o3 hatte eine Halluzinationsrate von 33 %, o4-mini 48 %, verglichen mit 16 % bei o1, basierend auf der Zusammenfassung öffentlich verfügbarer Fakten. Ebenso ergab die Vectara-Bestenliste zur Verfolgung der Halluzinationsraten, dass einige Schlussfolgerungsmodelle – darunter DeepSeek-R1 – im Vergleich zu Vorgängern deutliche Zuwächse bei Halluzinationen zeigten, trotz ihres Mehr-Schritt-Schlussfolgerungsansatzes vor der Antwort. OpenAI betont, dass die Schlussfolgerungsprozesse nicht zwangsläufig für den Anstieg der Halluzinationen verantwortlich seien und arbeitet aktiv an Wegen, diese in allen Modellen zu reduzieren. Das Fortbestehen von Halluzinationen bedroht mehrere Anwendungsbereiche: Modelle, die häufig falsche Tatsachen liefern, erschweren die Forschungsarbeit; Paralegal-Bots, die nicht existente Fälle zitieren, riskieren juristische Fehler; Kundenservice-Bots mit veralteten Informationen verursachen Betriebsprobleme. Anfangs erwarteten KI-Unternehmen, dass Halluzinationen mit der Zeit abnehmen würden, da frühe Modell-Updates Verbesserungen zeigten. Doch die jüngsten erhöhten Halluzinationsraten stellen diese Aussicht in Frage, unabhängig davon, ob das Modell Schlussfolgerungen zieht oder nicht. Die Vectara-Bestenliste zeigt, dass die Halluzinationsraten bei Schlussfolgerungs- und Nicht-Schlussfolgerungs-Modellen von OpenAI und Google etwa gleich hoch sind, wobei die genauen Zahlen weniger eine Rolle spielen als die relative Platzierung.
Google wollte dazu keinen Kommentar abgeben. Solche Rankings haben jedoch ihre Grenzen. Sie vermengen verschiedene Arten von Halluzinationen: So besteht die bei DeepSeek-R1 gemessene Rate von 14, 3 % hauptsächlich aus „harmlosen“ Fällen – Antworten, die logisch konsistent sind und durch Wissen gestützt werden, im Quelltext aber nicht vorkommen. Außerdem spiegeln Tests, die nur auf Textzusammenfassungen basieren, möglicherweise nicht die Häufigkeit der Halluzinationen in anderen Aufgaben wider, da LLMs nicht speziell für das Zusammenfassen ausgelegt sind. Emily Bender von der University of Washington betont, dass diese Modelle eher wahrscheinliche nächste Wörter vorhersagen, als Informationen zu verarbeiten, um den Text wirklich zu verstehen. Daher sei der Begriff „Halluzination“ irreführend und anthropomorphisierend. Bender kritisiert, dass „Halluzination“ problematisch sei, weil er Fehler als Abweichungen in ansonsten zuverlässigen Systemen darstelle und menschliche Wahrnehmung auf KI projiziere, die diese in keinem Sinne „wahrnehmen“ könne. Arvind Narayanan von Princeton ergänzt, dass Modelle außerdem durch die Nutzung unreliabler oder veralteter Daten Fehler machen, und dass einfach mehr Trainingsdaten oder Rechenleistung diese Probleme bislang nicht gelöst haben. Folglich könnten fehleranfällige KI-Modelle eine dauerhafte Realität sein. Narayanan schlägt vor, solche Modelle nur dann zu verwenden, wenn das Faktenchecken schneller geht als eigene Recherchen, während Bender empfiehlt, ganz auf die Nutzung von KI-Chatbots für Faktenwissen zu verzichten.
Brief news summary
Jüngste Fortschritte bei KI-Chatbots von Unternehmen wie OpenAI und Google, die sich auf die Verbesserung von Schlussfolgerungsfähigkeit und Genauigkeit konzentrieren, haben paradoxerweise zu einer erhöhten Rate an Halluzinationen geführt – Fällen, in denen Modelle falsche oder irreführende Informationen erzeugen und Anweisungen nicht richtig befolgen. Zum Beispiel zeigen die neueren Modelle von OpenAI, o3 und o4-mini, Halluzinationsraten von 33 % bzw. 48 %, verglichen mit 16 % beim älteren o1-Modell, wobei ähnliche Trends bei Modellen wie DeepSeek-R1 beobachtet werden. Trotz dieser Herausforderungen behauptet OpenAI, dass die Komponenten für Schlussfolgerungen nicht die Ursache sind, und arbeitet weiterhin daran, Halluzinationen zu reduzieren. Dieses Problem ist besonders kritisch in Bereichen wie Forschung, Rechtsberatung und Kundenservice, wo Ungenauigkeiten schwerwiegende Folgen haben können. Bewertungen durch Vectara zeigen, dass die Unterschiede in der Häufigkeit von Halluzinationen zwischen Schlussfolgerungsfähigen und nicht-schlussfolgernden Modellen minimal sind, obwohl die Daten noch begrenzt sind. Experten warnen, dass der Begriff „Halluzination“ komplexe Probleme vereinfachen könne, die von veralteten oder unzuverlässigen Daten abhängen. Angesichts anhaltender Ungenauigkeiten schlagen einige vor, den Einsatz von KI-Chatbots auf Szenarien zu beschränken, in denen die Verifizierung von Informationen einfacher ist als eine unabhängige Faktenprüfung. Insgesamt verbleiben Halluzinationen ein großes ungelöstes Problem bei KI-Sprachmodellen.
AI-powered Lead Generation in Social Media
and Search Engines
Let AI take control and automatically generate leads for you!

I'm your Content Manager, ready to handle your first test assignment
Learn how AI can help your business.
Let’s talk!

ZK-Proof-Blockchain-Altcoin Lagrange (LA) startet…
Ein Zero-Knowledge (ZK)-Proof-Altcoin hat nach der Unterstützung durch Coinbase, der führenden US-amerikanischen Kryptowährungsbörse, eine signifikante Steigerung erlebt.

Blockchain- und Digital Assets Virtuelle Investor…
NEW YORK, 06.

Rechtsanwälte drohen Sanktionen wegen der Berufun…
Eine hochrangige britische Richterin, Victoria Sharp, hat eine deutliche Warnung an Juristen ausgesprochen bezüglich der Gefahren bei der Nutzung von KI-Tools wie ChatGPT, um erfundene Rechtshandlungen zu zitieren.

Was passiert, wenn Menschen nicht verstehen, wie …
Das weitreichende Missverständnis über künstliche Intelligenz (KI), insbesondere große Sprachmodelle (LLMs) wie ChatGPT, hat erhebliche Konsequenzen, die einer sorgfältigen Betrachtung bedürfen.

Skalierbar und dezentralisiert, schnell und siche…
Im heutigen sich schnell verändernden Kryptomarkt ziehen Investoren Blockchains an, die Skalierbarkeit, Dezentralisierung, Geschwindigkeit und Sicherheit miteinander vereinen.

Blockchain in der Bildung: Revolutionierung der Z…
Der Bildungssektor steht vor erheblichen Herausforderungen bei der Überprüfung akademischer Qualifikationen und der Sicherung von Aufzeichnungen.

Exploratorium eröffnet die Ausstellung „Abenteuer…
Diesen Sommer präsentiert das Exploratorium in San Francisco stolz seine neueste interaktive Ausstellung „Abenteuer in KI“, die darauf abzielt, den Besuchern eine gründliche und ansprechende Erforschung der künstlichen Intelligenz zu bieten.