AI chatboti čelia pretrvávajúcim problémom halucinácií, ktoré ovplyvňujú spoľahlivosť

AI chatboti od popredných technologických firiem ako OpenAI a Google v posledných mesiacoch prijali vylepšenia v schopnosti uvažovania s cieľom zvýšiť spoľahlivosť odpovedí. Nové testy však ukazujú, že niektoré novšie modely sa dnes správajú horšie než staršie verzie, pričom sa objavuje fenomén nazývaný "hallucinácie" – chyby, kedy chatboti vytvárajú nepravdivé informácie alebo poskytujú odpovede, ktoré sú fakticky správne, ale nesúvisia s otázkou alebo nie sú v súlade s inštrukciami. Tento problém pretrváva od začiatku veľkých jazykových modelov (LLMs) ako sú ChatGPT od OpenAI alebo Gemini od Google, a zdá sa, že úplne nevyriešiteľný nebude. Technická správa od OpenAI ukázala, že modely o3 a o4-mini, vydané v apríli, mali podstatne vyšší podiel hallucinácií než starší model o1 z konca roka 2024: o3 vykazoval 33 % mätúcich odpovedí, o4-mini 48 %, zatiaľ čo o1 mal 16 %, keď sumarizoval verejne dostupné fakty. Podobne líderstvo Vectara monitorujúce podiel hallucinácií zistilo, že niektoré modely schopné uvažovania – vrátane DeepSeek-R1 – zaznamenali významný nárast týchto neurčitosťí v porovnaní s predchodcami, aj keď používajú metódu viacstupňového uvažovania pred odpoveďou. OpenAI tvrdí, že samotný proces uvažovania nie je podstatne zodpovedný za zvýšenie hallucinácií a aktívne hľadá spôsoby, ako ich znížiť vo všetkých modeloch. Pretrvávanie týchto problémov ohrozuje viaceré použitia: modely, ktoré často produkujú nepravdivé informácie, sťažujú výskumnú asistenciu; paralegálne chatboty citujúci neexistujúce prípady riskujú právne chyby; zákaznícke servisné chatboty s neaktuálnymi informáciami spôsobujú prevádzkové problémy. Na začiatku firmy pracujúce s umelou inteligenciou očakávali, že hallucinácie v priebehu času poklesnú, keďže prvé aktualizácie modelov ukázali zlepšenia. Napriek tomu však nedávne zvýšené hodnoty hallucinácií tento názor vyzývajú, a to nezávisle od zapojenia uvažovacieho procesu. Líderstvo Vectara ukazuje, že mieru hallucinácií majú modely od OpenAI i Google približne rovnakú, čiže rozdiel spočíva skôr v poradí podľa hodnotenia než v konkrétnych číselných hodnotách.
Google odmietol poskytnúť komentár. Avšak, takéto hodnotenia majú svoje obmedzenia. Miešajú rôzne typy hallucinácií: napríklad 14, 3 % podiel u DeepSeek-R1 tvorili najmä “neškodné” prípady – odpovede, ktoré sú logicky správne, podložené vedomosťami, ale v texte neboli uvedené. Testovanie iba na základe sumarizácie textu nemusí odhaľovať frekvenciu hallucinácií v iných úlohách, keďže LLMy nie sú navrhnuté špeciálne na sumarizáciu. Emily Bender z University of Washington zdôrazňuje, že tieto modely predpovedajú pravdepodobne najpravdepodobnejšie ďalšie slová, nie spracúvajú informácie na skutočné pochopenie textu, čo robí termín "hallucination" zavádzajúcim a antropomorfizujúcim. Bender kritizuje pojem "hallucination" ako problém, pretože naznačuje, že chyby sú odchýlkami v inak spoľahlivých systémoch a pridáva ľudský rys vnímania do AI, ktorá "nevníma" v pravom slova zmysle. Arvind Narayanan z Princeton dodáva, že modely zlyhávajú aj tým, že sa spoliehajú na nespoľahlivé alebo zastaralé dáta, a pridanie viac tréningových dát alebo výpočtovej sily tieto problémy nevyriešilo. Preto je možné, že chyby v AI ostanú trvalým javom. Narayanan navrhuje používať takéto modely len v prípadoch, keď je overovanie faktov rýchlejšie než originálne vyhľadávanie, zatiaľ čo Bender odporúča úplne sa vyhnúť spoľahnutiu na AI chatboti ako spoľahlivý zdroj faktických informácií.
Brief news summary
Posledné pokroky v oblasti AI chatbotov od spoločností ako OpenAI a Google, zamerané na zlepšenie logického uvažovania a presnosti, paradoxne viedli k zvýšeniu miery halucinácií — prípadov, keď modely generujú nepravdivé alebo zavádzajúce informácie a nesprávne dodržiavajú inštrukcie. Napríklad novšie modely OpenAI o3 a o4-mini majú miera halucinácií 33 % a 48 %, v porovnaní so starším modelom o1, ktorý dosahuje 16 %, pričom podobné trendy sú zaznamenané aj u modelov ako DeepSeek-R1. Napriek týmto výzvam OpenAI tvrdí, že za halucinácie nie sú zodpovedné komponenty logického uvažovania, a pokračuje v práci na ich znížení. Tento problém je obzvlášť kritický v oblastiach ako výskum, právne poradenstvo či zákaznícka podpora, kde nepresnosti môžu mať vážne následky. Vyhodnotenia spoločnosti Vectara odhalili minimálne rozdiely v počte halucinácií medzi modelmi s logickým uvažovaním a tými bez neho, hoci údaje sú zatiaľ obmedzené. Odborníci varujú, že pojem „halucinácie“ zjednodušuje zložité problémy, ktoré závisia od starých alebo nedôveryhodných dát. Vzhľadom na pretrvávajúce nepresnosti niektorí odporúčajú obmedziť používanie AI chatbotov na situácie, kde je overovanie informácií jednoduchšie ako samostatná kontrola faktov. Celkovo halucinácie zostávajú významným nevyriešeným problémom v oblasti jazykových modelov umelé inteligencie.
AI-powered Lead Generation in Social Media
and Search Engines
Let AI take control and automatically generate leads for you!

I'm your Content Manager, ready to handle your first test assignment
Learn how AI can help your business.
Let’s talk!

Grok je jediným spojencom Elona Muska v hypotetic…
Ak by bolo nutné vybrať si medzi Elonom Musk a Samom Altmanom na čele pretekov v umelej inteligencii, s osudom ľudstva na váhe, prevažne umelecky inteligentné chatboti uprednostňovali Altmana, okrem Muskoveho Groku, ktorý stál na strane Muska.

Robinhood vyvíja blockchainový program na obchodo…
Robinhood pracuje na platforme založenej na blockchaine, ktorá má Európskym obchodníkom umožniť prístup k americkým finančným aktívam, podľa dvoch zdrojov oboznámených so situáciou, ktoré poskytli informácie agentúre Bloomberg.

OpenAI uvádza o3-mini: Rýchly, inteligentný a cen…
OpenAI odhalil o3-mini, nový model umelej inteligencie na dôkladné uvažovanie, špeciálne navrhnutý na zvýšenie presnosti pri matematických výpočtoch, programovaní a vedeckom riešení problémov.

Tetherov USDT sa spúšťa na Kaia Blockchaine, rozš…
Issuer stablecoinu Tether oznámil nasadenie svojho vlastného stablecoinu USDT na blokochine Kaia, Layer 1 siete spustené v auguste 2024.

Elton John a Dua Lipa požadujú ochranu pred AI
Dua Lipa, Sir Elton John, Sir Ian McKellen, Florence Welch a viac ako 400 ďalších britských hudobníkov, spisovateľov a umelcov vyzvalo britského premiéra Sir Keira Starmera, aby aktualizoval autorské práva a ochránil tvorcov pred zneužívaním ich diel umelou inteligenciou (AI).

Úloha blockchainu v iniciatívach na podporu finan…
Technológia blockchain je čoraz viac uznávaná ako mocný nástroj na podporu finančnej inklúzie celosvetovo, najmä pre nebankované a nedostatočne obsluhované populácie, ktoré nemajú prístup ku klasickým bankovým službám.

Blockchain v zdravotníctve: zabezpečenie údajov p…
Zdravotnícky priemysel prechádza veľkou transformáciou zavádzaním technológie blockchain na zlepšenie bezpečnosti a správy zdravotných záznamov pacientov.