lang icon En
May 10, 2025, 5:50 p.m.
4441

A mesterséges intelligencia-chatbotok állandó látomásos problémákkal küzdenek, amelyek befolyásolják megbízhatóságukat

Brief news summary

A vállalatok, például az OpenAI és a Google által végzett legújabb fejlődések az AI-chatbotok terén, amelyek a gondolkodás és pontosság javítására összpontosítottak, paradox módon megnövelték a hallucinációk arányát – azaz azokat az eseteket, amikor a modellek hamis vagy félrevezető információkat generálnak, és nem tartják be megfelelően az utasításokat. Például az OpenAI újabb o3 és o4-mini modelljei esetében a hallucinációk aránya 33% és 48%, szemben a régebbi o1 modell 16%-os értékével, és hasonló tendenciák figyelhetők meg olyan modelleknél is, mint a DeepSeek-R1. Ezek a kihívások ellenére az OpenAI azt állítja, hogy a gondolkodási komponensek nem okolhatók, és továbbra is dolgoznak a hallucinációk csökkentésén. Ez a probléma különösen kritikus olyan területeken, mint a kutatás, jogi tanácsadás vagy az ügyfélszolgálat, ahol a pontatlanságok súlyos következményekkel járhatnak. A Vectara értékelései szerint a gondolkodást alkalmazó és nem alkalmazó modellek között minimális különbségek mutatkoznak a hallucinációk gyakoriságában, bár az adatok még korlátozottak. Szakértők arra figyelmeztetnek, hogy a „hallucináció” túlzott leegyszerűsítése bonyolult problémáknak, például az elavult vagy megbízhatatlan adatokra való függésnek a figyelembevételét kihívást jelent. A tartós pontatlanságok miatt néhányan azt javasolják, hogy az AI-chatbotok alkalmazását olyan helyzetekben korlátozzák, ahol az információ ellenőrzése egyszerűbb, mint független tényellenőrzés. Összességében a hallucinációk továbbra is nagy problémát jelentenek az AI nyelvi modellek fejlesztésében, és megoldatlan kérdésként maradnak előttünk.

AI csetesbotok, mint az OpenAI és a Google vezető techcégei, az utóbbi hónapokban értek elérhető érvelési fejlesztéseket, hogy növeljék a válaszok megbízhatóságát. Azonban a legutóbbi tesztek azt mutatják, hogy néhány újabb modell rosszabbul teljesít, mint korábbi változatok, és megjelent egy "hallucinációk" nevű jelenség—hibák, amikor a chatbotok helytelen információkat generálnak, vagy tényekben helyes, de irreleváns vagy az utasításokat nem követő válaszokat adnak. Ez a probléma a nagy nyelvi modellek (LLM-ek), például az OpenAI ChatGPT-je és a Google Gemini-je óta fennáll, és úgy tűnik, hogy teljeskörű megoldására kevés esély van. Egy OpenAI technikai jelentés szerint az áprilisban kiadott o3 és o4-mini modellek lényegesen magasabb hallucinációs arányt mutattak, mint a késő 2024-es o1 modell: az o3 33%-os, az o4-mini 48%-os arányt ért el, szemben az o1 16%-os értékével, amikor nyilvánosan elérhető tényeket összegzett. Hasonlóképpen, a Vectara vezetői listája szerint néhány érv értelmező modell—ideértve a DeepSeek-R1-et—jelentősen növelte a hallucinációk számát a korábbiakhoz képest, annak ellenére, hogy több lépéses érvelést alkalmaznak a válaszadás előtt. Az OpenAI azt állítja, hogy az érvelési folyamatok nem magyarázzák önmagukban a hallucináció növekedését, és aktívan kutatják az utakat a hallucinációk csökkentésére valamennyi modell esetében. A hallucinációk állandósága számos alkalmazást veszélyeztet: azok a modellek, amelyek rendszeresen hamis információkat generálnak, akadályozzák a kutatási támogatást; olyan paralegal-botok, amelyek nem létező esetekre hivatkoznak, jogi hibákat okozhatnak; az ügyfélszolgálati botok, amelyek elavult adatokat tartalmaznak, működési problémákat eredményeznek. Eredetileg az AI cégek azt várták, hogy a hallucinációk idővel csökkennek, mivel az első modellek frissítései javulást mutattak. Azonban a legutóbbi magasabb szintek ezt a kilátást megkérdőjelezik, függetlenül attól, hogy az érvelés szerepet játszik-e vagy sem. A Vectara vezetői listája szerint a hallucinációs arányok nagyjából azonosak az érvelő és nem érvelő modellek között az OpenAI és a Google részéről, bár a pontos számok kevésbé fontosak, mint a relatív helyezések.

A Google nem nyilatkozott. Azonban az ilyen rangsoroknak vannak korlátai. Különböző hallucináció típusokat kever össze; például a DeepSeek-R1 14, 3%-os hallucinációs aránya főként "jóindulatú" eseteket tartalmazott— azok a válaszok, amelyek logikailag helyesek és támogatottak tudással, de hiányoznak a forrásszövegből. Emellett a szövegösszegzés alapú tesztelés nem feltétlenül tükrözi más feladatoknál a hallucinációk gyakoriságát, mivel az LLM-eket nem kifejezetten összegzésre tervezték. Emily Bender, a washingtoni Egyetem szakértője hangsúlyozza, hogy ezek a modellek a következő szavak valószínűségét jósolják, nem pedig valódi megértésen alapuló információfeldolgozást végeznek, így a "hallucináció" kifejezés félrevezető és emberi tulajdonságokat tulajdonít az AI-nak. Bender bírálja a "hallucináció" kifejezést, mivel az azt sugallja, hogy a hibák valami rendellenes torzulások az egyébként megbízható rendszerekben, és emberi tulajdonságokat tulajdonít az AI-nak, amely nem "érzékel" vagy "tapasztal" semmi ilyesmit. Arvind Narayanan, a Princetonről hozzátéve, hogy a modellek tévednek azzal is, hogy megbízhatatlan vagy elavult adatokra alapoznak, és hogy az eddigi módszerek— akár a tanulóadatok bővítése, akár a számítási kapacitás növelése— nem oldották meg ezeket a problémákat. Ennek eredményeként a hibákra hajlamos AI valószínűleg tartós marad. Narayanan szerint ilyen modelleket csak akkor érdemes használni, ha a tényellenőrzés gyorsabb, mint az eredeti kutatás, míg Bender szerint teljesen kerülendő az AI chatbotoktól származó tényalapú információkra való támaszkodás.


Watch video about

A mesterséges intelligencia-chatbotok állandó látomásos problémákkal küzdenek, amelyek befolyásolják megbízhatóságukat

Try our premium solution and start getting clients — at no cost to you

I'm your Content Creator.
Let’s make a post or video and publish it on any social media — ready?

Language

Hot news

Dec. 20, 2025, 1:24 p.m.

Az öt kulturális jellemző, amelyek befolyásolhatj…

Az AIÁtalakulás és a szervezeti kultúra összegzése és átírása Az AI-átalakulás elsősorban kulturális kihívást jelent, nem csupán technológiai jellegűt

Dec. 20, 2025, 1:22 p.m.

MIÉRTAI ÉRTÉKESÍTÉSI ÜGYNÖK: A legjobb 5 jövőbeli…

A vállalkozások végső célja a értékesítés növelése, azonban a kemény verseny akadályozhatja ezt a célt.

Dec. 20, 2025, 1:19 p.m.

AI és SEO: tökéletes páros a fokozott online láth…

A mesterséges intelligencia (MI) beépítése a keresőoptimalizálásba (SEO) alapjaiban változtatja meg, hogyan javítják a vállalkozások online láthatóságukat és vonzzák a szeritogató forgalmat.

Dec. 20, 2025, 1:15 p.m.

Deepfake technológia fejlődése: hatások a médiára…

A deepfake technológia az utóbbi időszakban jelentős előrelépéseket tett, olyan rendkívül hiteles manipulált videókat készítve, amelyek meggyőzően ábrázolják az egyéneket olyan dolgokat mondva vagy csinálva, amiket valójában soha nem tettek.

Dec. 20, 2025, 1:13 p.m.

Nvidia nyílt forráskódú mesterséges intelligencia…

Az Nvidia jelentős bővítést jelentett nyílt forráskódú kezdeményezéseiben, ezáltal stratégiai elkötelezettséget mutatva a nyílt forráskódú ökoszisztéma támogatása és fejlesztése iránt a nagy teljesítményű számítástechnika (HPC) és a mesterséges intelligencia (AI) területein.

Dec. 20, 2025, 9:38 a.m.

New York-i kormányzó, Kathy Hochul aláír egy átfo…

2025.

Dec. 20, 2025, 9:36 a.m.

A Stripe elindítja az Agentic Commerce Suite-ot a…

A Stripe, az életképes pénzügyi szolgáltatásokat kínáló vállalat, bemutatta az Agentic Commerce Suite-t, egy új megoldást, amely lehetővé teszi a vállalkozások számára, hogy több AI-ügynökön keresztül értékesítsenek.

All news

AI Company

Launch your AI-powered team to automate Marketing, Sales & Growth

and get clients on autopilot — from social media and search engines. No ads needed

Begin getting your first leads today