AI chatboti čelí přetrvávajícím problémům s halucinacemi, které ovlivňují jejich spolehlivost

Chatboti AI od předních technologických firem, jako jsou OpenAI a Google, od posledních měsíců zaznamenávají zlepšení v důvodu schopnosti lépe odvodit, aby zvýšily spolehlivost odpovědí. Nicméně nejnovější testy odhalily, že některé novější modely si vedou hůře než starší verze, což má za následek jev zvaný „halucinace“ – chyby, při nichž chatboti generují nepravdivé informace nebo poskytují odpovědi, které jsou fakticky správné, ale jsou irelevantní nebo nejsou v souladu s instrukcemi. Tento problém přetrvává od vzniku velkých jazykových modelů (LLMs), jako je ChatGPT od OpenAI či Gemini od Googlu, a je nepravděpodobné, že by byl zcela vyřešen. Technická zpráva od OpenAI ukázala, že jejich modely o3 a o4-mini z dubna měly výrazně vyšší míru halucinací než starší model o1 z konce roku 2024: o3 měl míru halucinací 33 %, o4-mini 48 %, zatímco o1 pouze 16 %, při shrnutí veřejně dostupných faktů. Podobně žebříček společnosti Vectara sledující míru halucinací zjistil, že některé modely schopné uvažování – včetně DeepSeek-R1 – zaznamenaly významný nárůst halucinací ve srovnání s předchůdci, přestože jejich postup při uvažování před odpovědí zahrnoval více kroků. OpenAI tvrdí, že samotný proces uvažování není přímou příčinou zvýšeného výskytu halucinací a aktivně hledá způsoby, jak je snížit ve všech modelech. Přetrvávání halucinací ohrožuje řadu aplikací: modely, jež často produkují nepravdivé informace, komplikují výzkumnou pomoc; právní chatboti citující neexistující případy mohou způsobit právní chyby; zákaznické služby s aktuálně neplatnými informacemi mohou vést k provozním problémům. Původně firmy zabývající se umělou inteligencí očekávaly, že se halucinace časem sníží, protože úpravy modelů z počátku přinesly zlepšení. Avšak nedávná vyšší míra halucinací tyto očekávání zpochybňuje, a to nezávisle na tom, zda je problém spojen s uvažováním. Žebříček Vectary ukazuje, že míra halucinací je přibližně stejná u modelů od OpenAI a Googlu s uvažováním i bez něj, přičemž přesné číslo je méně důležité než jejich vzájemné srovnání.
Google se k tématu nevyjádřil. Nicméně takové srovnání má své omezení. Kombinuje různé typy halucinací; například podle údajů DeepSeek-R1, jehož míra halucinací je 14, 3 %, tvořily hlavně „benigní“ případy – odpovědi, které jsou logicky správné a podložené znalostmi, ale chybí v textu zdroje. Navíc testování pouze na základě shrnutí textu nemusí přesně odrážet frekvenci halucinací v jiných úkolech, protože LLM nejsou speciálně navrženy k shrnování. Emily Bender z University of Washington poukazuje na to, že tyto modely předpovídají pravděpodobné další slovo spíše než fakticky zpracovávají informace ke skutečnému porozumění textu, což činí pojem „halucinace“ zavádějícím a antropomorfizujícím. Bender kritizuje „halucinace“ jako problematický termín, protože naznačuje, že chyby jsou odchylkami od spolehlivých systémů, a přisuzuje AI lidsky podobné vnímání, což není správné. Arvind Narayanan z Princetonu dodává, že modely také chybují tím, že spoléhají na nespolehlivé nebo zastaralé údaje, a samotné přidávání trénovacích dat nebo výpočetní kapacity problém nevyřešilo. Proto může být chyba-ky prone AI trvalým jevem. Narayanan navrhuje používat takové modely pouze v případech, kdy je ověřování faktů rychlejší než originální výzkum, zatímco Bender doporučuje úplně se vyhýbat spoléhání na AI chatboty jako zdroj faktických informací.
Brief news summary
Nedávné pokroky v AI chatbotách od společností jako OpenAI a Google, zaměřené na zlepšení uvažování a přesnosti, paradoxně vedly ke zvýšení počtu halucinací – případů, kdy modely generují nepravdivé nebo klamavé informace a nesplňují správně pokyny. Například novější modely OpenAI o3 a o4-mini vykazují míru halucinací 33 % a 48 %, ve srovnání s 16 % u staršího modelu o1, přičemž podobné trendy jsou zaznamenány i u modelů jako DeepSeek-R1. Přestože jsou tyto problémy významné, OpenAI tvrdí, že za uvažovací komponenty nejsou zodpovědné, a nadále pracuje na snižování počtu halucinací. Tento problém je obzvlášť kritický v oblastech jako výzkum, právní poradenství nebo zákaznický servis, kde mohou nepřesnosti mít vážné následky. Hodnocení společností Vectara odhalila minimální rozdíly v četnosti halucinací mezi modely s uvažováním a bez něj, i když data jsou stále omezená. Experti varují, že pojem „halucinace“ příliš zjednodušuje složité problémy, které často závisí na zastaralých nebo nespolehlivých datech. Vzhledem k přetrvávajícím nepřesnostem někteří navrhují omezit používání AI chatbotů na scénáře, kde je ověření informací jednodušší než nezávislá ověřování faktů. Celkově zůstávají halucinace jedním z hlavních nevyřešených problémů v oblasti jazykových modelů umělé intelligenci.
AI-powered Lead Generation in Social Media
and Search Engines
Let AI take control and automatically generate leads for you!

I'm your Content Manager, ready to handle your first test assignment
Learn how AI can help your business.
Let’s talk!

OpenAI představuje o3-mini: Rychlý, chytrý a dost…
OpenAI představilo o3-mini, nový model umělé inteligence určený ke zlepšení přesnosti v matematických výpočtech, úlohách programování a vědeckém řešení problémů.

Tetherův USDT spuštěn na blockchainu Kaia, rozšiř…
Vydavatel stablecoinu Tether oznámil nasazení svého vlastního stablecoinu USDT na blockchainu Kaia, Layer 1 síti spuštěné v srpnu 2024.

Elton John a Dua Lipa žádají ochranu před umělou …
Dua Lipa, Sir Elton John, Sir Ian McKellen, Florence Welch a více než 400 dalších britských hudebníků, spisovatelů a umělců naléhavě žádají premiéra Sir Keira Starmera, aby aktualizoval autorské právo a ochránil tvůrce před zneužíváním jejich děl umělou inteligencí (AI).

Role blockchainu v iniciativách pro finanční začl…
Technologie blockchain je stále více uznávána jako mocný nástroj pro podporu finanční inkluze po celém světě, zejména pro obyvatele bez bankovního účtu a underserved populace, kteří nemají přístup k tradičním bankovním službám.

Blockchain v zdravotnictví: Zabezpečení dat pacie…
Zdravotnický průmysl prochází zásadní transformací díky zavádění technologie blockchainu, která má zlepšit bezpečnost a správu zdravotních záznamů pacientů.

Papež Leo XIV představuje svoji vizi a označuje u…
Vatikán (AP) — V sobotu papež Lev XIV nastínil svou vizi pro své pontifikát, přičemž zdůraznil umělou inteligenci (AI) jako klíčovou výzvu, která čelí lidstvu, a slíbil pokračovat v hlavních prioritách stanovených papežem Františkem.

Skupina Blockchain zrychluje svou strategii Bitco…
Puteaux, 9.