lang icon En
May 10, 2025, 5:50 p.m.
4315

Umetna inteligenca klepetalniki se soočajo s trdovratnimi težavami s halucinacijami, ki vplivajo na njihovo zanesljivost

Brief news summary

Nedavni napredek na področju AI klepetalnih robotov s strani podjetij, kot sta OpenAI in Google, osredotočen na izboljšanje razmišljanja in točnosti, je povsem paradoxno privedel do povečanja hitrosti halucinacij – primerov, ko modeli generirajo napačne ali zavajajoče informacije in se nepravilno držijo navodil. Na primer, novejši modeli OpenAI o3 in o4-mini izkazujejo stopnje halucinacij 33 % in 48 %, v primerjavi z 16 % pri starejšem modelu o1, podobni trendi pa so opaženi tudi pri modelih, kot je DeepSeek-R1. Kljub tem izzivom OpenAI trdi, da za težave s halucinacijami niso krivi sestavni deli razmišljanja in nadaljuje z delom na zmanjšanju teh težav. Ta problem je še posebej pomemben na področjih, kot so raziskave, pravni nasveti in storitve za stranke, kjer lahko natančnost povzroči resne posledice. Ocenitve podjetja Vectara kažejo, da so razlike v pogostosti halucinacij med modeli z razmišljanjem in brez njega minimalne, vendar so podatki še vedno omejeni. Strokovnjaki opozarjajo, da pojem “halucinacija” preveč poenostavlja kompleksne probleme, ki vključujejo odvisnost od zastarelih ali nezanesljivih podatkov. Glede na vztrajno prisotne napake nekateri predlagajo, da bi uporabo AI klepetalnih robotov omejili na scenarije, kjer je preverjanje informacij enostavnejše od samostojnega preverjanja dejstev. Skupno gledano halucinacije ostajajo glavni nerešeni problem v jezikovnih modelih umetne inteligence.

AI klepetalniki iz vodilnih tehnoloških podjetij, kot sta OpenAI in Google, so v zadnjih mesecih prejeli izboljšave v razmišljanju, da bi povečali zanesljivost odgovorov. Vendar pa najnovejši testi razkrivajo, da nekateri novejši modeli delujejo slabše od prejšnjih različic, saj pokažejo pojav, imenovan "halucinacije" – napake, pri katerih klepetalniki generirajo lažne informacije ali dajejo odgovore, ki so dejansko točni, a niso ustrezni ali v skladu z navodili. Ta težava je prisotna že od začetka velikih jezikovnih modelov (LLM), kot sta ChatGPT podjetja OpenAI in Gemini podjetja Google, in se zdi, da je ne bo mogoče povsem odpraviti. Tehnični poročilo OpenAI je pokazalo, da so modeli o3 in o4-mini, predstavljeni aprila, imeli znatno višje stopnje halucinacij v primerjavi z starejšim modelom o1 z dl. Prvega 2024: o3 je imel stopnjo halucinacij 33 %, o4-mini 48 %, za o1 pa le 16 %, pri povzemanju javno dostopnih dejstev. Podobno je lestvica Vectare, ki spremlja stopnje halucinacij, odkrila, da so nekateri modeli razmišljanja, vključno z DeepSeek-R1, doživeli opazno zvišanje halucinacij v primerjavi s preteklimi modeli, kljub njihovemu večstopenjskemu pristopu razmišljanja pred odgovorom. OpenAI trdi, da so procesi razmišljanja po naravi odgovorni za povečanje halucinacij, in aktivno raziskuje načine za njihovo zmanjšanje pri vseh modelih. Vztrajanje halucinacij ogroža več aplikacij: modeli, ki pogosto proizvajajo lažne trditve, onemogočajo raziskovalno pomoč; pravni pomočniki, ki navajajo neobstoječe primere, tvegate pravne napake; uporabniške službe z zastarelimi informacijami povzročajo operativne težave. Sprva so podjetja za umetno inteligenco pričakovala, da se bo število halucinacij sčasoma zmanjšalo, saj so posodobitve modelov že kazale na izboljšave. Vendar pa nedavne višje ravni halucinacij to teorijo izpodbijajo, ne glede na vključevanje razmišljanja. Lestvica Vectare kaže, da so stopnje halucinacij približno enake pri modelih z razmišljanjem in brez, tako pri OpenAI kot Googlu, čeprav so natančne številke manj pomembne od relativnega mesta na lestvici.

Google ni želel dati komentarjev. Vendar pa imajo takšni razporedi svoje omejitve. Mešajo različne vrste halucinacij; na primer je 14, 3-odstotna stopnja halucinacij pri DeepSeek-R1 večinoma sestavljena iz "neškodljivih" primerov – odgovori, ki so logično skladni in podprti z znanjem, vendar niso prisotni v izvorni kodi. Poleg tega testiranje zgolj na osnovi povzemanja besedil morda ne odraža dejanske pogostosti halucinacij pri drugih nalogah, saj LLM-ji niso namenjeni posebej povzemanju. Emily Bender z Univerze v Seattleu poudarja, da ti modeli napovedujejo najverjetnejše naslednje besede, namesto da bi procesirali informacije za resnično razumevanje besedila, zaradi česar je izraz "halucinacija" zavajajoč in antropomorfiziran. Bender kritizira izraz "halucinacija" kot problematičen, ker implicira napake kot motnje v sicer zanesljivih sistemih ter pripisuje AI-ju človeško podobno percepcijo, česar ta ne izvaja v nobenem pomenu. Arvind Narayanan z Princetona dodaja, da modeli tudi napake delajo zaradi zanašanja na neropovedljive ali zastarele podatke, in enostavno dodajanje več podatkov ali računalnih virov ni rešilo teh problemov. Posledično je, da bo zmotljiv AI lahko ostal trajen pojav. Narayanan predlaga, da takšne modele uporabljamo le, če je preverjanje dejstev hitrejše od opravljanja lastnih raziskav, Bender pa svetuje, naj se popolnoma izogibamo zanašanju na AI klepetalnike za dejstvene informacije.


Watch video about

Umetna inteligenca klepetalniki se soočajo s trdovratnimi težavami s halucinacijami, ki vplivajo na njihovo zanesljivost

Try our premium solution and start getting clients — at no cost to you

I'm your Content Creator.
Let’s make a post or video and publish it on any social media — ready?

Language

Hot news

Dec. 12, 2025, 1:42 p.m.

Disney pošilja zahtevo za prenehanje in opomin Go…

Podjetje Walt Disney je sprožilo obsežno pravno tožbo proti Googlu z izdajo opomnika za prenehanje in odpravo, v katerem očita tehnološkemu velikanu kršitev avtorskih pravic Disneyja med usposabljanjem in razvojem generativnih modelov umetne inteligence (UI) brez ustreznega plačila.

Dec. 12, 2025, 1:35 p.m.

AI in prihodnost optimizacije iskalnikov

Ko napredek umetne inteligence (UI) in njen vse boljši vključevanje v digitalni marketing, njen vpliv na optimizacijo za iskalnike (SEO) postaja vse pomembnejši.

Dec. 12, 2025, 1:33 p.m.

Umetna inteligenca: MiniMax in Zhipu AI načrt za …

MiniMax in Zhipu AI, dve vodilni podjetji na področju umetne inteligence, naj bi se že januarja prihodnje leto pripravili na javno listo na hranlski borzi v Hongkongu.

Dec. 12, 2025, 1:31 p.m.

OpenAI imenovalo Slackove izvršne direktorice Den…

Denise Dresser, izvršna direktorica Slacka, se namerava zaposliti kot glavni vodja za prihodke v OpenAI-ju, podjetju za ChatGPT.

Dec. 12, 2025, 1:30 p.m.

Tehnike umetne inteligence za sintezo videa izbol…

Filmska industrija doživlja veliko preobrazbo, saj studii vse pogosteje uporabljajo tehnike umetne inteligence (UI) za sintezo videa, s čimer izboljšujejo postopke v postprodukciji.

Dec. 12, 2025, 1:24 p.m.

19 najboljših orodij za umetno inteligenco na dru…

AI revolucionira trženje na družbenih omrežjih z uporabo orodij, ki poenostavljajo in izboljšujejo angažiranost občinstva.

Dec. 12, 2025, 9:42 a.m.

Umetna inteligenca vplivnežev na družbenih omrežj…

Pojav umetno ustvarjenih vplivnežev na družbenih omrežjih predstavlja pomemben preobrat v digitalnem okolju, ki sproža razprave o pristnosti spletnih interakcij in etičnih vprašanjih povezanih s temi virtualnimi osebnostmi.

All news

AI Company

Launch your AI-powered team to automate Marketing, Sales & Growth

and get clients on autopilot — from social media and search engines. No ads needed

Begin getting your first leads today