AI chatboti suočavaju se sa stalnim problemima halucinacija koji utiču na pouzdanost

AI chatbotovi od vodećih tehnoloških firmi poput OpenAI i Google posljednjih mjeseci unaprjeđuju sposobnosti razmišljanja kako bi povećali pouzdanost odgovora. Međutim, najnoviji testovi otkrivaju da neki noviji modeli rade lošije od ranijih verzija, pokazujući fenomen nazvan "halucinacije" — greške u kojima chatbotovi generiraju lažne informacije ili pružaju odgovore koji su faktualno tačni, ali su irelevantni ili nisu u skladu s uputama. Ovaj problem traje od početka razvoja velikih modela jezika (LLM), poput ChatGPT-a od OpenAI-ja i Gemini od Google-a, i čini se da ga neće biti moguće potpuno riješiti. Tehnički izvještaj OpenAI-ja pokazao je da su modeli o3 i o4-mini, objavljeni u aprilu, imali znatno višu stopu halucinacija nego stariji o1 model iz kraja 2024. godine: o3 je imao stopu halucinacija od 33%, o4-mini 48%, dok je o1 imao 16%, prilikom sažimanja javno dostupnih činjenica. Slično tome, na listi Vectarine, koja prati stopu halucinacija, zabilježeno je da neki modeli za razmišljanje — uključujući DeepSeek-R1 — bilježe značajan porast halucinacija u poređenju s prethodnicima, uprkos njihovu višestepenom razmišljanju prije odgovora. OpenAI tvrdi da proces razmišljanja nije nužno odgovoran za porast halucinacija te aktivno radi na smanjenju ovih problema u svim modelima. Trajanje halucinacija ugrožava brojne primjene: modeli koji često proizvedu netočnosti otežavaju istraživačku pomoć; paralegal botovi koji citiraju nepostojeće slučajeve rizikuju pravne greške; botovi za korisničku podršku s zastarjelim informacijama uzrokuju operativne probleme. Isprva su tehnološke kompanije očekivale da će se halucinacije vremenom smanjivati, jer su ranije nadogradnje modela pokazivale poboljšanja. Međutim, sadašnje povećane razine halucinacija, bez obzira na proces razmišljanja, dovode u pitanje ovu prognozu.
Vectarina lista prikazuje da su stope halucinacija približno jednake kod modela s i bez razmišljanja od strane OpenAI i Google-a, iako točan broj nije toliko važan koliko i relativni rangovi. Google je odbio komentarisati. Međutim, takve rang liste imaju određena ograničenja. One miješaju različite tipove halucinacija; na primjer, kod DeepSeek-R1, stopa od 14, 3% uglavnom se sastoji od "benignih" slučajeva — odgovora koji su logički ispravni i podržani znanjem, ali nisu prisutni u izvornom tekstu. Osim toga, testiranje isključivo na sažimanju teksta može ne odražavati stvarnu učestalost halucinacija u drugim zadacima, jer LLM-ovi nisu posebno dizajnirani za sažimanje. Emily Bender sa Sveučilišta u Washingtonu ističe da ti modeli predviđaju najvjerojatnije sljedeće riječi, a ne obrađuju informacije na način koji bi im omogućio da zaista razumiju tekst, zbog čega su pojmovi "halucinacija" i antropomorfizam zbunjujući i dovode do pogrešnog doživljaja. Bender kritikuje "halucinaciju" kao problematičnu jer podrazumijeva da su greške izuzetni slučajevi u inače pouzdanim sistemima, te pridaje ljudske percepcije AI-u, što je pogrešno jer AI ne "percipira" na isti način. Arvind Narayanan s Princetona dodaje da modeli također griješe jer se oslanjaju na nepouzdane ili zastarjele podatke, a jednostavno povećanje količine trening podataka ili računske snage nije riješilo ove probleme. Stoga je moguće da će krizni modeli umjetne inteligencije ostati trajni izazov. Narayanan savjetuje korištenje takvih modela samo kada je provjera činjenica brža od vlastitog istraživanja, dok Bender preporučuje da se u potpunosti izbjegava oslanjanje na AI chatbotove za vjerodostojne informacije.
Brief news summary
Nedavni napredci u AI chatbotovima od strane kompanija poput OpenAI i Google, usmjereni na poboljšanje razmišljanja i tačnosti, paradoksalno su doveli do povećanja stopa halucinacija — slučajeva kada modeli generišu lažne ili obmanjujuće informacije i ne pridržavaju se pravilno uputa. Na primjer, noviji modeli OpenAI o3 i o4-mini pokazuju stope halucinacija od 33% i 48%, u poređenju sa 16% kod starijeg modela o1, dok slični trendovi važe i za modele poput DeepSeek-R1. Uprkos ovim izazovima, OpenAI tvrdi da razmišljajuće komponente nisu krive i nastavljaju raditi na smanjenju halucinacija. Ovaj problem je posebno kritičan u oblastima poput istraživanja, pravnih savjeta i korisničke podrške, gdje tačnost može imati ozbiljne posledice. Procjene kompanije Vectara pokazuju minimalne razlike u učestalosti halucinacija između modela sa i bez razmišljanja, iako su podaci još uvijek ograničeni. Stručnjaci upozoravaju da termin „halucinacija” pojednostavljuje složene probleme koji uključuju zavisnost od zastarjelih ili nepouzdanih podataka. S obzirom na stalne netočnosti, neki predlažu da se korištenje AI chatbotova ograniči na scenarije u kojima je provjera informacija jednostavnija od nezavisne provjere istinitosti. U ukupnom zbiru, halucinacije ostaju veliki nerešeni problem u jezičkim modelima umjetne inteligencije.
AI-powered Lead Generation in Social Media
and Search Engines
Let AI take control and automatically generate leads for you!

I'm your Content Manager, ready to handle your first test assignment
Learn how AI can help your business.
Let’s talk!

Robinhood razvija blockchain-bazirani program za …
Robinhood radi na platformi zasnatoj na blockchainu koja je usmjerena na pružanje evropskim trgovcima pristupa američkim financijskim imovinama, navode dvije osobe upoznate sa situacijom koje su razgovarale za Bloomberg.

OpenAI pokreće o3-mini: Brz, pametan i povoljan A…
OpenAI je predstavio o3-mini, novi model umjetne inteligencije za zaključivanje, posebno dizajniran za poboljšanje tačnosti u matematičkim izračunima, zadacima programiranja i rješavanju naučnih problema.

Tetherov USDT pokreće na Kaia blockchainu, šireći…
Izvršilac stabilnih coina Tether najavio je implementaciju svog vlastitog USDT stabilnog coina na Kaia blockchainu, Layer 1 mreži pokrenutoj u augustu 2024.

Elton John i Dua Lipa traže zaštitu od umjetne in…
Dua Lipa, Sir Elton John, Sir Ian McKellen, Florence Welch i više od 400 drugih britanskih muzičara, pisaca i umjetnika pozvalo su premijera Sir Keira Starmera da ažurira zakone o autorskim pravima u cilju zaštite tvoraca od zloupotrebe njihovih djela od strane umjetne inteligencije (AI).

Uloga blockchaina u inicijativama za finansijsku …
Blockchain tehnologija sve se više prepoznaje kao moćan alat za unapređenje finansijske uključenosti globalno, posebno za nebankirane i nedovoljno zastupljene populacije koje nemaju pristup tradicionalnim bankarskim uslugama.

Blokchain u zdravstvu: osiguranje podataka pacije…
Zdravstvena industrija prolazi kroz veliki izazov transformacije usvajanjem blockchain tehnologije radi poboljšanja sigurnosti i upravljanja zdravstvenim evidencijama pacijenata.

Papa Leone XIV izlaže svoju viziju i ističe umjet…
VATIKAN (AP) — U subotu, papa Leo XIV predstavio je viziju svoje papinske službe, ističući umjetnu inteligenciju (AI) kao ključni izazov s kojim se suočava čovječanstvo i obećavši da će nastaviti s glavnim prioritetima koje je postavio papa Franjo.