lang icon Croatian
Auto-Filling SEO Website as a Gift

Launch Your AI-Powered Business and get clients!

No advertising investment needed—just results. AI finds, negotiates, and closes deals automatically

May 10, 2025, 5:50 p.m.
2

AI chatbotovi suočavaju se s trajnim problemima halucinacija kojima su pogođena pouzdanost

AI chatbotovi vodećih tehnoloških tvrtki poput OpenAI i Google u posljednjim su mjesecima primali poboljšanja u razmišljanju radi unaprjeđenja pouzdanosti odgovora. Međutim, nedavni testovi otkrivaju da neki noviji modeli rade lošije od ranijih verzija, pokazujući fenomen nazvan "halucinacije" — pogreške u kojima chatboti generiraju lažne informacije ili daju odgovore koji su faktički točni, ali su nerelevantni ili neusklađeni s uputama. Ovaj je problem prisutan još od početka velikih jezičnih modela (LLMs) poput ChatGPT-a od OpenAI i Googleovog Gemini, te se čini da će biti teško potpuno ga riješiti. Tehničko izvješće OpenAI-a pokazuje da su njegovi modeli o3 i o4-mini, objavljeni u travnju, imali znatno veću stopu halucinacija od starijeg modela o1 s kraja 2024. : o3 je imao stopu halucinacija od 33 %, o4-mini 48 %, u usporedbi s 16 % za o1, pri sažimanju javno dostupnih podataka. Slično tome, Vectarina lista najboljih modela koji prate stope halucinacija otkrila je da su neki modeli razmišljanja — uključujući DeepSeek-R1 — zabilježili značajan porast halucinacija u usporedbi s prethodnicima, iako koriste višestupanjski proces razmišljanja prije odgovora. OpenAI ustvrđuje da procesi razmišljanja sami po sebi nisu razlog za porast halucinacija i aktivno istražuje načine za smanjenje halucinacija u svim modelima. Očuvanje ovog problema prijeti brojnim primjenama: modeli koji često generiraju neistine otežavaju istraživačku pomoć; paralegal botovi koji citiraju nepostojeće slučajeve mogu prouzročiti pravne pogreške; chatbotovi za korisničku podršku s zastarjelim informacijama uzrokuju operativne probleme. Isprva su tvrtke za umjetnu inteligenciju očekivale da će halucinacije s vremenom opadati, jer su prve nadogradnje modela pokazale poboljšanja. No, nedavne veće razine halucinacija izazivaju sumnju u takvu prognozu, bez obzira na razinu razmišljanja. Vectarina lista otkriva da su stope halucinacija otprilike jednake kod modela s razmišljanjem i bez njega, od OpenAI-a i Googlea, iako točan broj nije toliko važan koliko relativne pozicije.

Google je odbio komentirati. Međutim, takve ljestvice imaju svoja ograničenja. One miješaju različite vrste halucinacija; na primjer, stopa od 14, 3 % za DeepSeek-R1 uglavnom se sastojala od "benignih" slučajeva — odgovora koji su logično ispravni i podržani znanjem, ali nedostaju u izvoru. Osim toga, testiranje isključivo na temelju sažimanja teksta možda ne odražava učestalost halucinacija u drugim zadacima, jer LLM-ovi nisu posebno dizajnirani za sažimanje. Emily Bender s Sveučilišta u Washingtonu ističe da ti modeli predviđaju vjerojatne sljedeće riječi, a ne obrađuju informacije za istinsko razumijevanje teksta, te je pojam "halucinacija" u tom kontekstu zbunjujući i antropomorfizirajući. Bender kritizira "halucinaciju" jer implicira da su pogreške izuzetci u inače pouzdanim sustavima te pridaje ljudska perceptivna svojstva AI-u, koja ne "percipira" u nikakvom smislu. Arvind Narayanan s Princetona dodaje da modeli također griješe jer se oslanjaju na nepouzdane ili zastarjele podatke, a dodavanje više podataka za obuku ili računarske snage nije riješilo te probleme. Stoga je pogrešno orijentirana AI dugoročno moguća stvarnost. Narayanan sugerira korištenje takvih modela samo kada je provjera činjenica brža od samostalnog istraživanja, dok Bender preporučuje potpuno izbjegavanje oslanjanja na AI chatbote za provjeru činjenica.



Brief news summary

Nedavni napredak u razvoju AI chatbota od strane tvrtki poput OpenAI i Google, s fokusom na poboljšanje razonovanja i točnosti, paradoksalno je doveo do povećanja stope halucinacija—situacija u kojima modeli generiraju netočne ili zbunjujuće informacije i ne pridržavaju se pravilno uputa. Na primjer, noviji modeli OpenAI o3 i o4-mini imaju stope halucinacija od 33% i 48%, u usporedbi sa 16% kod starijeg modela o1, a slični trendovi zabilježeni su i kod modela poput DeepSeek-R1. Unatoč tim izazovima, OpenAI tvrdi da razlog nisu razonovni dijelovi i nastavlja raditi na smanjenju halucinacija. Ovaj problem je posebno važan u područjima poput istraživanja, pravnih savjeta i korisničke podrške, gdje netočnosti mogu imati ozbiljne posljedice. Procjene tvrtke Vectara otkrivaju minimalne razlike u frekvenciji halucinacija između modela s razumnim i bez razumnog razmišljanja, iako su podaci ograničeni. Stručnjaci upozoravaju da termin "halucinacija" pojednostavljuje složene probleme koji uključuju oslanjanje na zastarjele ili nepouzdane podatke. S obzirom na ustrajavanje u netočnostima, neki predlažu da se korištenje AI chatbota ograniči na scenarije u kojima je provjera informacija jednostavnija od samostalnog provjeravanja činjenica. Ukupno gledano, halucinacije ostaju glavni nerešeni problem u modelima umjetne inteligencije za jezik.
Business on autopilot

AI-powered Lead Generation in Social Media
and Search Engines

Let AI take control and automatically generate leads for you!

I'm your Content Manager, ready to handle your first test assignment

Language

Content Maker

Our unique Content Maker allows you to create an SEO article, social media posts, and a video based on the information presented in the article

news image

Last news

The Best for your Business

Learn how AI can help your business.
Let’s talk!

May 10, 2025, 10:30 p.m.

Grok je jedini saveznik Elona Muska u hipotetskoj…

Ako bih bio prisiljen između Elona Muska i Sama Altmana odabrati voditelja u utrci za umjetnu inteligenciju s budućnošću čovječanstva na kocki, prvenstveno su favorizirali Altmana, osim Groka u vlasništvu Muska, koji je stao uz Muska.

May 10, 2025, 9:47 p.m.

Robinhood razvija program temeljen na blockchainu…

Robinhood radi na platformi temeljitoj na blockchainu koja će europskim trgovcima pružiti pristup američkim financijskim imovinama, prema dvjema osobama upoznatima sa situacijom koje su za Bloomberg govorile.

May 10, 2025, 9:02 p.m.

OpenAI pokreće o3-mini: brzi, pametni i povoljni …

OpenAI je predstavio o3-mini, novi model umjetne inteligencije za razmišljanje koji je posebno osmišljen za poboljšanje točnosti u matematičkim računima, zadacima programiranja i rješavanju znanstvenih problema.

May 10, 2025, 8:22 p.m.

Tetherova USDT lansira se na Kaia blockchainu, ši…

Izgorius stabilnih kovanica Tether objavio je izdanje svoje matične USDT stabilne valute na Kaia blockchainu, Layer 1 mreži lansiranoj u kolovozu 2024.

May 10, 2025, 7:29 p.m.

Elton John i Dua Lipa traže zaštitu od umjetne in…

Dua Lipa, Sir Elton John, Sir Ian McKellen, Florence Welch i više od 400 drugih britanskih glazbenika, pisaca i umjetnika pozvali su premijera Sir Keira Starmera da ažurira zakone o autorskim pravima kako bi zaštitio kreativce od zloupotrebe njihovog rada od strane umjetne inteligencije (AI).

May 10, 2025, 6:49 p.m.

Uloga blockchain tehnologije u inicijativama za f…

Blockchain tehnologija sve se više prepoznaje kao moćan alat za unapređenje financijske uključenosti diljem svijeta, osobito za nepokrivene i one s nedostatkom pristupa tradicionalnim bankarskim uslugama.

May 10, 2025, 5:14 p.m.

Blockchain u zdravstvu: Osiguravanje podataka pac…

Zdravstvena industrija proživljava veliku transformaciju usvajanjem blockchain tehnologije kako bi poboljšala sigurnost i upravljanje zdravstvenim evidencijama pacijenata.

All news