A mesterséges intelligencia-chatbotok állandó látomásos problémákkal küzdenek, amelyek befolyásolják megbízhatóságukat

AI csetesbotok, mint az OpenAI és a Google vezető techcégei, az utóbbi hónapokban értek elérhető érvelési fejlesztéseket, hogy növeljék a válaszok megbízhatóságát. Azonban a legutóbbi tesztek azt mutatják, hogy néhány újabb modell rosszabbul teljesít, mint korábbi változatok, és megjelent egy "hallucinációk" nevű jelenség—hibák, amikor a chatbotok helytelen információkat generálnak, vagy tényekben helyes, de irreleváns vagy az utasításokat nem követő válaszokat adnak. Ez a probléma a nagy nyelvi modellek (LLM-ek), például az OpenAI ChatGPT-je és a Google Gemini-je óta fennáll, és úgy tűnik, hogy teljeskörű megoldására kevés esély van. Egy OpenAI technikai jelentés szerint az áprilisban kiadott o3 és o4-mini modellek lényegesen magasabb hallucinációs arányt mutattak, mint a késő 2024-es o1 modell: az o3 33%-os, az o4-mini 48%-os arányt ért el, szemben az o1 16%-os értékével, amikor nyilvánosan elérhető tényeket összegzett. Hasonlóképpen, a Vectara vezetői listája szerint néhány érv értelmező modell—ideértve a DeepSeek-R1-et—jelentősen növelte a hallucinációk számát a korábbiakhoz képest, annak ellenére, hogy több lépéses érvelést alkalmaznak a válaszadás előtt. Az OpenAI azt állítja, hogy az érvelési folyamatok nem magyarázzák önmagukban a hallucináció növekedését, és aktívan kutatják az utakat a hallucinációk csökkentésére valamennyi modell esetében. A hallucinációk állandósága számos alkalmazást veszélyeztet: azok a modellek, amelyek rendszeresen hamis információkat generálnak, akadályozzák a kutatási támogatást; olyan paralegal-botok, amelyek nem létező esetekre hivatkoznak, jogi hibákat okozhatnak; az ügyfélszolgálati botok, amelyek elavult adatokat tartalmaznak, működési problémákat eredményeznek. Eredetileg az AI cégek azt várták, hogy a hallucinációk idővel csökkennek, mivel az első modellek frissítései javulást mutattak. Azonban a legutóbbi magasabb szintek ezt a kilátást megkérdőjelezik, függetlenül attól, hogy az érvelés szerepet játszik-e vagy sem. A Vectara vezetői listája szerint a hallucinációs arányok nagyjából azonosak az érvelő és nem érvelő modellek között az OpenAI és a Google részéről, bár a pontos számok kevésbé fontosak, mint a relatív helyezések.
A Google nem nyilatkozott. Azonban az ilyen rangsoroknak vannak korlátai. Különböző hallucináció típusokat kever össze; például a DeepSeek-R1 14, 3%-os hallucinációs aránya főként "jóindulatú" eseteket tartalmazott— azok a válaszok, amelyek logikailag helyesek és támogatottak tudással, de hiányoznak a forrásszövegből. Emellett a szövegösszegzés alapú tesztelés nem feltétlenül tükrözi más feladatoknál a hallucinációk gyakoriságát, mivel az LLM-eket nem kifejezetten összegzésre tervezték. Emily Bender, a washingtoni Egyetem szakértője hangsúlyozza, hogy ezek a modellek a következő szavak valószínűségét jósolják, nem pedig valódi megértésen alapuló információfeldolgozást végeznek, így a "hallucináció" kifejezés félrevezető és emberi tulajdonságokat tulajdonít az AI-nak. Bender bírálja a "hallucináció" kifejezést, mivel az azt sugallja, hogy a hibák valami rendellenes torzulások az egyébként megbízható rendszerekben, és emberi tulajdonságokat tulajdonít az AI-nak, amely nem "érzékel" vagy "tapasztal" semmi ilyesmit. Arvind Narayanan, a Princetonről hozzátéve, hogy a modellek tévednek azzal is, hogy megbízhatatlan vagy elavult adatokra alapoznak, és hogy az eddigi módszerek— akár a tanulóadatok bővítése, akár a számítási kapacitás növelése— nem oldották meg ezeket a problémákat. Ennek eredményeként a hibákra hajlamos AI valószínűleg tartós marad. Narayanan szerint ilyen modelleket csak akkor érdemes használni, ha a tényellenőrzés gyorsabb, mint az eredeti kutatás, míg Bender szerint teljesen kerülendő az AI chatbotoktól származó tényalapú információkra való támaszkodás.
Brief news summary
A vállalatok, például az OpenAI és a Google által végzett legújabb fejlődések az AI-chatbotok terén, amelyek a gondolkodás és pontosság javítására összpontosítottak, paradox módon megnövelték a hallucinációk arányát – azaz azokat az eseteket, amikor a modellek hamis vagy félrevezető információkat generálnak, és nem tartják be megfelelően az utasításokat. Például az OpenAI újabb o3 és o4-mini modelljei esetében a hallucinációk aránya 33% és 48%, szemben a régebbi o1 modell 16%-os értékével, és hasonló tendenciák figyelhetők meg olyan modelleknél is, mint a DeepSeek-R1. Ezek a kihívások ellenére az OpenAI azt állítja, hogy a gondolkodási komponensek nem okolhatók, és továbbra is dolgoznak a hallucinációk csökkentésén. Ez a probléma különösen kritikus olyan területeken, mint a kutatás, jogi tanácsadás vagy az ügyfélszolgálat, ahol a pontatlanságok súlyos következményekkel járhatnak. A Vectara értékelései szerint a gondolkodást alkalmazó és nem alkalmazó modellek között minimális különbségek mutatkoznak a hallucinációk gyakoriságában, bár az adatok még korlátozottak. Szakértők arra figyelmeztetnek, hogy a „hallucináció” túlzott leegyszerűsítése bonyolult problémáknak, például az elavult vagy megbízhatatlan adatokra való függésnek a figyelembevételét kihívást jelent. A tartós pontatlanságok miatt néhányan azt javasolják, hogy az AI-chatbotok alkalmazását olyan helyzetekben korlátozzák, ahol az információ ellenőrzése egyszerűbb, mint független tényellenőrzés. Összességében a hallucinációk továbbra is nagy problémát jelentenek az AI nyelvi modellek fejlesztésében, és megoldatlan kérdésként maradnak előttünk.
AI-powered Lead Generation in Social Media
and Search Engines
Let AI take control and automatically generate leads for you!

I'm your Content Manager, ready to handle your first test assignment
Learn how AI can help your business.
Let’s talk!

A Grok Elon Musk egyetlen szövetségese egy hipote…
Ha kényszerítve lennék arra, hogy Elon Musk és Sam Altman közül válasszak az AI-harcvezér szerepére, amelyben az emberiség jövője forog kockán, a mesterséges intelligenciával működő csetrobotok döntően Altmant részesítették előnyben, kivéve Musk tulajdonú Grokot, amely Musk mellett állt.

Robinhood blokklánc-alapú programot fejleszt az E…
A Robinhood egy blockchain-alapú platformon dolgozik, amelynek célja, hogy európai kereskedők számára hozzáférést biztosítson az amerikai pénzügyi eszközökhöz, két, a helyzettel ismerős forrás szerint, akik a Bloombergnek nyilatkoztak.

Az OpenAI elindítja az o3-mini-t: Gyors, okos, me…
Az OpenAI bemutatta az o3-mini-t, egy új mesterséges intelligencia érvelési modellt, amelyet kifejezetten a matematikai számítások, kódolási feladatok és tudományos problémák pontosságának fokozására terveztek.

A Tether USDT elindul a Kaia blokkláncon, ezzel b…
A stablecoin-kibocsátó Tether bejelentette, hogy saját USDT stabilcoinját bevezet a Kaia blokkláncon, amely egy Layer 1 hálózat, és 2024 augusztusában indult el.

Elton John és Dua Lipa védelmet keres az MI ellen
Dua Lipa, Sir Elton John, Sir Ian McKellen, Florence Welch és több mint 400 brit zenész, író és művész arra kérte Sir Keir Starmer miniszterelnököt, hogy frissítse a szerzői jogi törvényeket, hogy védelmet nyújtsanak a alkotóknak azzal szemben, hogy munkáikat az AI (mesterséges intelligencia) félrehasználja.

A blokklánc szerepe a pénzügyi inklúzió kezdemény…
A blokklánc technológia egyre inkább elismert eszközként a globális pénzügyi inklúzió előmozdításában, különösen a bank nélküli és hátrányos helyzetű közösségek számára, akik nem férnek hozzá a hagyományos banki szolgáltatásokhoz.

Blockchain az egészségügyben: a betegek adatainak…
Az egész healthcare-ipar súlyos átalakuláson megy keresztül, mivel a blockchain technológiát alkalmazza a betegdárak biztonságának és kezelésének javítása érdekében.