Chatboty AI nadal zmagają się z uporczywymi problemami halucynacji, które wpływają na ich niezawodność

Chatboty AI od czołowych firm technologicznych, takich jak OpenAI i Google, w ostatnich miesiącach otrzymywały ulepszenia w zakresie rozumowania, mające na celu zwiększenie wiarygodności odpowiedzi. Jednak najnowsze testy ujawniają, że niektóre nowsze modele wypadają gorzej niż wcześniejsze wersje, wykazując zjawisko zwane „halucynacjami” — błędy, w których chatboty generują fałszywe informacje lub udzielają odpowiedzi, które są poprawne merytorycznie, ale nieadekwatne lub niezgodne z instrukcjami. Problem ten utrzymuje się od czasów powstania dużych modeli językowych (LLM), takich jak ChatGPT od OpenAI czy Gemini od Google, i wydaje się mało prawdopodobne, aby został całkowicie rozwiązany. Raport techniczny OpenAI ujawnił, że modele o nazwach o3 i o4-mini, wypuszczone w kwietniu, wykazywały znacznie wyższy wskaźnik halucynacji niż starszy model o1 z końca 2024 roku: o3 miał współczynnik halucynacji 33%, o4-mini 48%, podczas gdy o1 tylko 16%, przy podsumowywaniu dostępnych publicznie faktów. Podobnie, ranking Vectary monitorujący wskaźniki halucynacji wykazał, że niektóre modele rozumowania — w tym DeepSeek-R1 — odnotowały znaczne wzrosty halucynacji w porównaniu z wcześniejszymi wersjami, mimo zastosowania wieloetapowego rozumowania przed udzieleniem odpowiedzi. OpenAI twierdzi, że procesy rozumowania same w sobie nie są przyczyną wzrostu halucynacji i aktywnie poszukuje sposobów na ich ograniczenie we wszystkich modelach. Utrzymujące się halucynacje zagrażają wielu zastosowaniom: modele, które często generują fałszywe informacje, utrudniają pomoc naukową; chatboty prawnicze cytujące nieistniejące orzeczenia mogą powodować błędy prawne; boty obsługi klienta z nieaktualnymi danymi wywołują problemy operacyjne. Na początku firmy zajmujące się sztuczną inteligencją oczekiwały, że halucynacje będą z czasem maleć, ponieważ pierwsze aktualizacje modeli przynosiły poprawę. Jednak niedawne wyższe poziomy halucynacji kwestionują te przypuszczenia, niezależnie od zaangażowania rozumowania. Ranking Vectary pokazuje, że wskaźniki halucynacji są mniej więcej równe w modelach rozumujących i nierozumujących zarówno od OpenAI, jak i Google, choć liczbowa dokładność jest mniej istotna od pozycji względem siebie.
Google odmówił komentarza. Należy jednak pamiętać, że takie rankingi mają ograniczenia. Mieszają różne rodzaje halucynacji; na przykład, w przypadku DeepSeek-R1, 14, 3% wskaźnika halucynacji obejmowało głównie „niewinne” przypadki — odpowiedzi, które są logicznie poprawne i poparte wiedzą, ale nie występują w tekście źródłowym. Ponadto, testy oparte wyłącznie na streszczeniu tekstu mogą nie odzwierciedlać częstotliwości halucynacji w innych zadaniach, ponieważ LLM-y nie są specjalnie zaprojektowane do streszczania. Emily Bender z Uniwersytetu Waszyngtońskiego podkreśla, że te modele przewidują najbardziej prawdopodobne kolejne słowa, zamiast przetwarzać informacje w celu ich dogłębnego zrozumienia, co czyni termin „halucynacje” mylący i antropomorficzny. Bender krytykuje „halucynacje” jako problemowe, bo sugerują, że błędy są odchyleniami od rzetelności systemu, i przypisują sztucznej inteligencji percepcję ludzkiego rodzaju, co jest nieuprawnione, bo AI nie „percepuje” w żadnym sensie. Arvind Narayanan z Princeton dodaje, że modele popełniają błędy także przez poleganie na niepewnych lub przestarzałych danych, a dodawanie tylko większej ilości danych treningowych czy mocy obliczeniowej nie rozwiązało tych problemów. W konsekwencji, AI podatna na błędy może być trwałym faktem. Narayanan sugeruje korzystanie z takich modeli tylko wtedy, gdy weryfikacja faktów jest szybsza niż własne poszukiwania, podczas gdy Bender zaleca całkowite unikanie polegania na chatbotach AI jako źródle faktów.
Brief news summary
Ostatnie postępy w rozwoju chatbotów AI przez firmy takie jak OpenAI i Google, skoncentrowane na poprawie rozumowania i precyzji, paradoxalnie doprowadziły do wzrostu częstości halucynacji — przypadków, gdy modele generują fałszywe lub mylące informacje i nie przestrzegają prawidłowo instrukcji. Na przykład nowsze modele OpenAI o nazwach o3 i o4-mini wykazują wskaźniki halucynacji odpowiednio 33% i 48%, w porównaniu do 16% w starszym modelu o1, przy czym podobne trendy zaobserwowano w modelach takich jak DeepSeek-R1. Pomimo tych wyzwań, OpenAI zapewnia, że komponenty rozumowania nie są winne i nadal pracuje nad ograniczeniem halucynacji. Problem ten jest szczególnie istotny w dziedzinach takich jak badania, doradztwo prawne czy obsługa klienta, gdzie nieścisłości mogą mieć poważne konsekwencje. Oceny przeprowadzone przez firmę Vectara ujawniają, że różnice w częstotliwości halucynacji między modelami rozumującymi a niewspierającymi rozumowania są minimalne, choć dane pozostają ograniczone. Eksperci ostrzegają, że termin „halucynacje” upraszcza złożone problemy, które często zależą od nieaktualnych lub niepewnych danych. Biorąc pod uwagę utrzymujące się błędy, niektórzy sugerują ograniczenie użycia chatbotów AI do scenariuszy, w których weryfikacja informacji jest łatwiejsza niż niezależne sprawdzanie faktów. Ogólnie rzecz biorąc, halucynacje pozostają głównym nierozwiązanym problemem w modelach językowych AI.
AI-powered Lead Generation in Social Media
and Search Engines
Let AI take control and automatically generate leads for you!

I'm your Content Manager, ready to handle your first test assignment
Learn how AI can help your business.
Let’s talk!

Kończy się kłamstwa na temat żywności: Blockchain…
Coraz więcej ekspertów ostrzega, że oszustwa żywnościowe cichaczem pochłaniają nawet do 50 miliardów dolarów rocznie z globalnego rynku spożywczego, stanowiąc poważne zagrożenie dla zdrowia konsumentów.

Dyrektor generalny Anthropic krytykuje proponowan…
W niedawnym op-ed w „The New York Times” Dario Amodei, CEO firmy Anthropic, wyraził zaniepokojenie propozycją wspieranej przez Republikanów, mającą na celu nałożenie dziesięcioletniego zakazu regulacji sztucznej inteligencji na poziomie stanowym.

Konsultant stanie przed sądem w związku z robocal…
Proces sądowy Stevena Kramera w New Hampshire przyciągnął znaczną uwagę w obliczu narastających obaw dotyczących roli sztucznej inteligencji (SI) w procesach politycznych.

Od glinianych tablic do kryptowalut: Nowe spojrze…
Jeśli pieniądze to nie monety, banknoty ani nawet kryptowaluty, to co naprawdę je definiuje? To pytanie leży u sedna tego tygodniowego odcinka podcastu The Clear Crypto, w którym gospodarze Nathan Jeffay (StarkWare) i Adrian Blust (Tonal Media) rozmawiają z Billem Maurerem, dziekanem Wydziału Nauk Społecznych Uniwersytetu Kalifornijskiego w Irvine oraz wybitnym antropologiem specjalizującym się w finansach.

The New York Times zawarł umowę licencyjną dotycz…
The New York Times zawarł wieloletnią umowę licencyjną z Amazonem, co stanowi ważny kamień milowy jako pierwsza tego typu umowa dziennika z firmą zajmującą się sztuczną inteligencją.

Ramowa głębokiego uczenia oparta na technologii b…
E-learning przeszedł znaczącą transformację, szczególnie podkreśloną podczas kryzysów takich jak pandemia COVID-19, kiedy to stał się koniecznością na skalę globalną.

Sztuczna inteligencja w opiece zdrowotnej: zwięks…
Algorytmy uczenia maszynowego rewolucjonizują opiekę zdrowotną, znacznie poprawiając dokładność diagnostyczną.