Chatboty AI nadal zmagają się z uporczywymi problemami halucynacji, które wpływają na ich niezawodność

Chatboty AI od czołowych firm technologicznych, takich jak OpenAI i Google, w ostatnich miesiącach otrzymywały ulepszenia w zakresie rozumowania, mające na celu zwiększenie wiarygodności odpowiedzi. Jednak najnowsze testy ujawniają, że niektóre nowsze modele wypadają gorzej niż wcześniejsze wersje, wykazując zjawisko zwane „halucynacjami” — błędy, w których chatboty generują fałszywe informacje lub udzielają odpowiedzi, które są poprawne merytorycznie, ale nieadekwatne lub niezgodne z instrukcjami. Problem ten utrzymuje się od czasów powstania dużych modeli językowych (LLM), takich jak ChatGPT od OpenAI czy Gemini od Google, i wydaje się mało prawdopodobne, aby został całkowicie rozwiązany. Raport techniczny OpenAI ujawnił, że modele o nazwach o3 i o4-mini, wypuszczone w kwietniu, wykazywały znacznie wyższy wskaźnik halucynacji niż starszy model o1 z końca 2024 roku: o3 miał współczynnik halucynacji 33%, o4-mini 48%, podczas gdy o1 tylko 16%, przy podsumowywaniu dostępnych publicznie faktów. Podobnie, ranking Vectary monitorujący wskaźniki halucynacji wykazał, że niektóre modele rozumowania — w tym DeepSeek-R1 — odnotowały znaczne wzrosty halucynacji w porównaniu z wcześniejszymi wersjami, mimo zastosowania wieloetapowego rozumowania przed udzieleniem odpowiedzi. OpenAI twierdzi, że procesy rozumowania same w sobie nie są przyczyną wzrostu halucynacji i aktywnie poszukuje sposobów na ich ograniczenie we wszystkich modelach. Utrzymujące się halucynacje zagrażają wielu zastosowaniom: modele, które często generują fałszywe informacje, utrudniają pomoc naukową; chatboty prawnicze cytujące nieistniejące orzeczenia mogą powodować błędy prawne; boty obsługi klienta z nieaktualnymi danymi wywołują problemy operacyjne. Na początku firmy zajmujące się sztuczną inteligencją oczekiwały, że halucynacje będą z czasem maleć, ponieważ pierwsze aktualizacje modeli przynosiły poprawę. Jednak niedawne wyższe poziomy halucynacji kwestionują te przypuszczenia, niezależnie od zaangażowania rozumowania. Ranking Vectary pokazuje, że wskaźniki halucynacji są mniej więcej równe w modelach rozumujących i nierozumujących zarówno od OpenAI, jak i Google, choć liczbowa dokładność jest mniej istotna od pozycji względem siebie.
Google odmówił komentarza. Należy jednak pamiętać, że takie rankingi mają ograniczenia. Mieszają różne rodzaje halucynacji; na przykład, w przypadku DeepSeek-R1, 14, 3% wskaźnika halucynacji obejmowało głównie „niewinne” przypadki — odpowiedzi, które są logicznie poprawne i poparte wiedzą, ale nie występują w tekście źródłowym. Ponadto, testy oparte wyłącznie na streszczeniu tekstu mogą nie odzwierciedlać częstotliwości halucynacji w innych zadaniach, ponieważ LLM-y nie są specjalnie zaprojektowane do streszczania. Emily Bender z Uniwersytetu Waszyngtońskiego podkreśla, że te modele przewidują najbardziej prawdopodobne kolejne słowa, zamiast przetwarzać informacje w celu ich dogłębnego zrozumienia, co czyni termin „halucynacje” mylący i antropomorficzny. Bender krytykuje „halucynacje” jako problemowe, bo sugerują, że błędy są odchyleniami od rzetelności systemu, i przypisują sztucznej inteligencji percepcję ludzkiego rodzaju, co jest nieuprawnione, bo AI nie „percepuje” w żadnym sensie. Arvind Narayanan z Princeton dodaje, że modele popełniają błędy także przez poleganie na niepewnych lub przestarzałych danych, a dodawanie tylko większej ilości danych treningowych czy mocy obliczeniowej nie rozwiązało tych problemów. W konsekwencji, AI podatna na błędy może być trwałym faktem. Narayanan sugeruje korzystanie z takich modeli tylko wtedy, gdy weryfikacja faktów jest szybsza niż własne poszukiwania, podczas gdy Bender zaleca całkowite unikanie polegania na chatbotach AI jako źródle faktów.
Brief news summary
Ostatnie postępy w rozwoju chatbotów AI przez firmy takie jak OpenAI i Google, skoncentrowane na poprawie rozumowania i precyzji, paradoxalnie doprowadziły do wzrostu częstości halucynacji — przypadków, gdy modele generują fałszywe lub mylące informacje i nie przestrzegają prawidłowo instrukcji. Na przykład nowsze modele OpenAI o nazwach o3 i o4-mini wykazują wskaźniki halucynacji odpowiednio 33% i 48%, w porównaniu do 16% w starszym modelu o1, przy czym podobne trendy zaobserwowano w modelach takich jak DeepSeek-R1. Pomimo tych wyzwań, OpenAI zapewnia, że komponenty rozumowania nie są winne i nadal pracuje nad ograniczeniem halucynacji. Problem ten jest szczególnie istotny w dziedzinach takich jak badania, doradztwo prawne czy obsługa klienta, gdzie nieścisłości mogą mieć poważne konsekwencje. Oceny przeprowadzone przez firmę Vectara ujawniają, że różnice w częstotliwości halucynacji między modelami rozumującymi a niewspierającymi rozumowania są minimalne, choć dane pozostają ograniczone. Eksperci ostrzegają, że termin „halucynacje” upraszcza złożone problemy, które często zależą od nieaktualnych lub niepewnych danych. Biorąc pod uwagę utrzymujące się błędy, niektórzy sugerują ograniczenie użycia chatbotów AI do scenariuszy, w których weryfikacja informacji jest łatwiejsza niż niezależne sprawdzanie faktów. Ogólnie rzecz biorąc, halucynacje pozostają głównym nierozwiązanym problemem w modelach językowych AI.
AI-powered Lead Generation in Social Media
and Search Engines
Let AI take control and automatically generate leads for you!

I'm your Content Manager, ready to handle your first test assignment
Learn how AI can help your business.
Let’s talk!

Robinhood opracowuje program oparty na technologi…
Robinhood pracuje nad platformą opartą na technologii blockchain, mającą na celu zapewnienie europejskim inwestorom dostępu do amerykańskich instrumentów finansowych, według dwóch źródeł zaznajomionych z sytuacją, które wypowiedziały się dla Bloomberga.

OpenAI wprowadza o3-mini: szybki, inteligentny i …
OpenAI zaprezentowało o3-mini, nowy model sztucznej inteligencji do rozumowania, zaprojektowany specjalnie w celu zwiększenia dokładności w obliczeniach matematycznych, zadaniach programistycznych oraz rozwiązywaniu problemów naukowych.

Tether’s USDT wprowadza się na blockchain Kaia, r…
Emitent stablecoinów Tether ogłosił wdrożenie swój rodzimy stablecoin USDT na blockchainie Kaia, będącym siecią Layer 1 uruchomioną w sierpniu 2024 roku.

Elton John i Dua Lipa szukają ochrony przed sztuc…
Dua Lipa, Sir Elton John, Sir Ian McKellen, Florence Welch oraz ponad 400 innych brytyjskich muzyków, pisarzy i artystów zaapelowało do premiera Sir Keira Starmera o zaktualizowanie przepisów dotyczących praw autorskich w celu ochrony twórców przed niewłaściwym wykorzystaniem ich dzieł przez sztuczną inteligencję (AI).

Rola blockchainu w inicjatywach na rzecz włączeni…
Technologia blockchain jest coraz częściej uznawana za potężne narzędzie wspierające globalne włączenie finansowe, szczególnie dla niezbankowanych i niedoreprezentowanych populacji, które nie mają dostępu do tradycyjnych usług bankowych.

Blockchain w opiece zdrowotnej: zapewnianie bezpi…
Branża opieki zdrowotnej przechodzi dużą transformację poprzez wdrażanie technologii blockchain w celu poprawy bezpieczeństwa i zarządzania dokumentacją medyczną pacjentów.

Papież Leo XIV przedstawia swoją wizję i wskazuje…
Watykan (AP) — W sobotę papież Leo XIV przedstawił wizję swojego pontyfikatu, podkreślając sztuczną inteligencję (AI) jako kluczowe wyzwanie stojące przed ludzkością i zobowiązał się do kontynuowania najważniejszych priorytetów wyznaczonych przez papieża Franciszka.