KI-Chatbots stehen weiterhin vor anhaltenden Halluzination-Problemen, die die Zuverlässigkeit beeinträchtigen

AI-Chatbots von führenden Tech-Unternehmen wie OpenAI und Google haben in den letzten Monaten Fortschritte in der Schlussfolgerungsfähigkeit erhalten, um die Zuverlässigkeit der Antworten zu verbessern. Aktuelle Tests zeigen jedoch, dass einige neuere Modelle schlechter abschneiden als frühere Versionen und eine Phänomen namens "Halluzinationen" aufweisen – Fehler, bei denen Chatbots falsche Informationen erzeugen oder Antworten liefern, die zwar faktisch korrekt, aber irrelevant oder instruktionenwidrig sind. Dieses Problem besteht bereits seit der Einführung großer Sprachmodelle (LLMs) wie OpenAIs ChatGPT und Googles Gemini, und es scheint unwahrscheinlich, dass es vollständig gelöst wird. Ein technischer Bericht von OpenAI zeigte, dass die im April veröffentlichten Modelle o3 und o4-mini deutlich höhere Halluzinationsraten aufwiesen als das ältere Modell o1 aus Ende 2024: o3 hatte eine Halluzinationsrate von 33 %, o4-mini 48 %, verglichen mit 16 % bei o1, basierend auf der Zusammenfassung öffentlich verfügbarer Fakten. Ebenso ergab die Vectara-Bestenliste zur Verfolgung der Halluzinationsraten, dass einige Schlussfolgerungsmodelle – darunter DeepSeek-R1 – im Vergleich zu Vorgängern deutliche Zuwächse bei Halluzinationen zeigten, trotz ihres Mehr-Schritt-Schlussfolgerungsansatzes vor der Antwort. OpenAI betont, dass die Schlussfolgerungsprozesse nicht zwangsläufig für den Anstieg der Halluzinationen verantwortlich seien und arbeitet aktiv an Wegen, diese in allen Modellen zu reduzieren. Das Fortbestehen von Halluzinationen bedroht mehrere Anwendungsbereiche: Modelle, die häufig falsche Tatsachen liefern, erschweren die Forschungsarbeit; Paralegal-Bots, die nicht existente Fälle zitieren, riskieren juristische Fehler; Kundenservice-Bots mit veralteten Informationen verursachen Betriebsprobleme. Anfangs erwarteten KI-Unternehmen, dass Halluzinationen mit der Zeit abnehmen würden, da frühe Modell-Updates Verbesserungen zeigten. Doch die jüngsten erhöhten Halluzinationsraten stellen diese Aussicht in Frage, unabhängig davon, ob das Modell Schlussfolgerungen zieht oder nicht. Die Vectara-Bestenliste zeigt, dass die Halluzinationsraten bei Schlussfolgerungs- und Nicht-Schlussfolgerungs-Modellen von OpenAI und Google etwa gleich hoch sind, wobei die genauen Zahlen weniger eine Rolle spielen als die relative Platzierung.
Google wollte dazu keinen Kommentar abgeben. Solche Rankings haben jedoch ihre Grenzen. Sie vermengen verschiedene Arten von Halluzinationen: So besteht die bei DeepSeek-R1 gemessene Rate von 14, 3 % hauptsächlich aus „harmlosen“ Fällen – Antworten, die logisch konsistent sind und durch Wissen gestützt werden, im Quelltext aber nicht vorkommen. Außerdem spiegeln Tests, die nur auf Textzusammenfassungen basieren, möglicherweise nicht die Häufigkeit der Halluzinationen in anderen Aufgaben wider, da LLMs nicht speziell für das Zusammenfassen ausgelegt sind. Emily Bender von der University of Washington betont, dass diese Modelle eher wahrscheinliche nächste Wörter vorhersagen, als Informationen zu verarbeiten, um den Text wirklich zu verstehen. Daher sei der Begriff „Halluzination“ irreführend und anthropomorphisierend. Bender kritisiert, dass „Halluzination“ problematisch sei, weil er Fehler als Abweichungen in ansonsten zuverlässigen Systemen darstelle und menschliche Wahrnehmung auf KI projiziere, die diese in keinem Sinne „wahrnehmen“ könne. Arvind Narayanan von Princeton ergänzt, dass Modelle außerdem durch die Nutzung unreliabler oder veralteter Daten Fehler machen, und dass einfach mehr Trainingsdaten oder Rechenleistung diese Probleme bislang nicht gelöst haben. Folglich könnten fehleranfällige KI-Modelle eine dauerhafte Realität sein. Narayanan schlägt vor, solche Modelle nur dann zu verwenden, wenn das Faktenchecken schneller geht als eigene Recherchen, während Bender empfiehlt, ganz auf die Nutzung von KI-Chatbots für Faktenwissen zu verzichten.
Brief news summary
Jüngste Fortschritte bei KI-Chatbots von Unternehmen wie OpenAI und Google, die sich auf die Verbesserung von Schlussfolgerungsfähigkeit und Genauigkeit konzentrieren, haben paradoxerweise zu einer erhöhten Rate an Halluzinationen geführt – Fällen, in denen Modelle falsche oder irreführende Informationen erzeugen und Anweisungen nicht richtig befolgen. Zum Beispiel zeigen die neueren Modelle von OpenAI, o3 und o4-mini, Halluzinationsraten von 33 % bzw. 48 %, verglichen mit 16 % beim älteren o1-Modell, wobei ähnliche Trends bei Modellen wie DeepSeek-R1 beobachtet werden. Trotz dieser Herausforderungen behauptet OpenAI, dass die Komponenten für Schlussfolgerungen nicht die Ursache sind, und arbeitet weiterhin daran, Halluzinationen zu reduzieren. Dieses Problem ist besonders kritisch in Bereichen wie Forschung, Rechtsberatung und Kundenservice, wo Ungenauigkeiten schwerwiegende Folgen haben können. Bewertungen durch Vectara zeigen, dass die Unterschiede in der Häufigkeit von Halluzinationen zwischen Schlussfolgerungsfähigen und nicht-schlussfolgernden Modellen minimal sind, obwohl die Daten noch begrenzt sind. Experten warnen, dass der Begriff „Halluzination“ komplexe Probleme vereinfachen könne, die von veralteten oder unzuverlässigen Daten abhängen. Angesichts anhaltender Ungenauigkeiten schlagen einige vor, den Einsatz von KI-Chatbots auf Szenarien zu beschränken, in denen die Verifizierung von Informationen einfacher ist als eine unabhängige Faktenprüfung. Insgesamt verbleiben Halluzinationen ein großes ungelöstes Problem bei KI-Sprachmodellen.
AI-powered Lead Generation in Social Media
and Search Engines
Let AI take control and automatically generate leads for you!

I'm your Content Manager, ready to handle your first test assignment
Learn how AI can help your business.
Let’s talk!

Grok ist Elons einziger Verbündeter in einem hypo…
Wenn man gezwungen wäre, zwischen Elon Musk und Sam Altman zu wählen, um den AI-Wettlauf mit der Zukunft der Menschheit auf dem Spiel, bevorzugten KI-Chatbots überwiegend Altman, mit Ausnahme von Musk's Grok, der auf Musks Seite stand.

Robinhood entwickelt blockchain-basiertes Program…
Robinhood arbeitet an einer blockchain-basierten Plattform, die europäischen Händlern den Zugang zu US-Finanzanlagen ermöglichen soll, berichteten zwei mit der Situation vertraute Quellen gegenüber Bloomberg.

OpenAI bringt o3-mini auf den Markt: Schnelles, i…
OpenAI hat o3-mini vorgestellt, ein neues künstliches Intelligenz-Logikmodell, das speziell entwickelt wurde, um die Genauigkeit bei mathematischen Berechnungen, Programmieraufgaben und wissenschaftlichen Problemstellungen zu verbessern.

Tether's USDT startet auf der Kaia-Blockchain und…
Stablecoin-Anbieter Tether hat die Einführung seines nativen USDT-Stablecoins auf der Kaia-Blockchain angekündigt, einem Layer-1-Netzwerk, das im August 2024 gestartet wurde.

Elton John und Dua Lipa suchen Schutz vor KI
Dua Lipa, Sir Elton John, Sir Ian McKellen, Florence Welch und über 400 weitere britische Musiker, Schriftsteller und Künstler haben Premierminister Sir Keir Starmer aufgefordert, die Urheberrechtsgesetze zu aktualisieren, um Kreative vor Missbrauch ihrer Werke durch künstliche Intelligenz (KI) zu schützen.

Die Rolle der Blockchain bei Initiativen zur fina…
Blockchain-Technologie wird zunehmend als ein mächtiges Werkzeug anerkannt, um die finanzielle Inklusion weltweit voranzutreiben, insbesondere für unbanked und benachteiligte Bevölkerungsgruppen, die keinen Zugang zu traditionellen Bankdienstleistungen haben.

Blockchain im Gesundheitswesen: Sicherung von Pat…
Die Gesundheitsbranche durchläuft eine bedeutende Transformation, indem sie Blockchain-Technologie einführt, um die Sicherheit und Verwaltung von Patientendaten zu verbessern.