lang icon Serbian
Auto-Filling SEO Website as a Gift

Launch Your AI-Powered Business and get clients!

No advertising investment needed—just results. AI finds, negotiates, and closes deals automatically

May 10, 2025, 5:50 p.m.
3

Veštački inteligentni čatboti suočavaju se sa stalnim problemima halucinacija koje utiču na njihovu pouzdanost

AI čatboti iz vodećih tehnoloških firmi poput OpenAI i Google poslednjih meseci dobijaju poboljšanja u razmišljanju u cilju povećanja pouzdanosti odgovora. Međutim, najnoviji testovi otkrivaju da neki noviji modeli rade lošije od ranijih verzija, pokazujući pojava koju nazivaju "Halucinacije" — greške u kojima čatboti generišu lažne informacije ili daju odgovore koji su činjenicijski tačni, ali su nebitni ili neusklađeni sa uputstvima. Ovaj problem traje od početka velikih jezičkih modela (LLM) poput ChatGPT od OpenAI i Geminija od Google, i deluje da neće biti potpuno rešen. Tehničko izveštavanje OpenAI prikazuje da su njihovi modeli o3 i o4-mini, koji su pušteni u aprilu, imali znatno višu stopu halucinacija nego stariji model o1 iz kraja 2024: o3 je imao stopu halucinacija od 33%, o4-mini 48%, dok je o1 imao 16% pri sažimanju javno dostupnih činjenica. Slično tome, Vectarina na svojoj rang listi prati stope halucinacija i otkriva da su neki modeli razmišljanja — uključujući DeepSeek-R1 — zabeležili značajno povećanje u poređenju sa prethodnicima, uprkos svom višestepenom razmišjanju pre odgovora. OpenAI tvrdi da procesi razmišljanja nisu inherentno odgovorni za porast halucinacija i aktivno rade na pronalaženju načina za njihovo smanjenje kod svih modela. Očuvanje halucinacija ugrožava brojne primene: modeli koji često proizvode netačne informacije otežavaju istraživačku pomoć; čatboti paralegala koji citiraju nepostojeće slučajeve rizikuju pravne greške; čatboti za podršku korisnicima sa zastarelim informacijama izazivaju operativne probleme. Autobusi za veštačku inteligenciju na početku su očekivali da će halucinacije vremenom opadati, jer su ranije nadogradnje modela pokazivale poboljšanja. No, nedavni veći nivoi halucinacija dovode u pitanje tu prognozu, bez obzira na razliku u razmišljanju. Vectarinaova rang lista pokazuje da su stope halucinacija približno jednake kod modela sa i bez razmišljanja iz OpenAI i Google, iako tačni brojevi nisu toliko važni kao relativne pozicije.

Google je odbio da komentariše. Međutim, takve rang liste imaju ograničenja. One mešaju različite tipove halucinacija; na primer, kod DeepSeek-R1, stopa od 14. 3% uglavnom je sastavljena od "benignih" slučajeva — odgovora koji su logički ispravni i podržani znanjem, ali nedostaju u izvorom tekstu. Pored toga, testiranje zasnovano isključivo na sažimanju teksta možda ne odražava tačnost u frekvenciji halucinacija u drugim zadacima, jer LLM-ovi nisu specijalizovani za sažimanje. Emily Bender sa Univerziteta u Vašingtonu ističe da ti modeli predviđaju verovatne sledeće reči, a ne obrađuju informacije radi pravog razumevanja teksta, čineći termina "halucinacija" zbunjujućim i antropomorfnim. Bender kritikuje pojam "halucinacija" jer implicira da su greške izuzetci u inače pouzdanim sistemima, i pripisuje ljudski perceptivni doživljaj AI-u, koji uopšte ne "percipira". Arvind Narayanan sa Princetona dodaje da modeli greše i zbog oslanjanja na nepouzdane ili zastarele podatke, a dodavanje više podataka za obuku ili računarske snage nije rešilo te probleme. Zbog toga, modeli veštačke inteligencije sklonih greškama mogu ostati trajni. Narayanan predlaže da se takvi modeli koriste samo onda kada je proveravanje činjenica brže od obavljanja originalnog istraživanja, dok Bender preporučuje u potpunosti izbegavanje oslanjanja na AI čatbote za pronalaženje činjenica.



Brief news summary

Nedavni napredci u razvoju AI chatbotova od strane kompanija kao što su OpenAI i Google, usredsređeni na poboljšanje rezonovanja i tačnosti, paradoksalno su doveli do povećanja stope halucinacija—slučajeva kada modeli generišu lažne ili obmanjujuće informacije i ne pridržavaju se pravilno uputstava. Na primer, noviji modeli OpenAI o3 i o4-mini imaju stopu halucinacija od 33% i 48%, u poređenju sa 16% kod starijeg modela o1, uz slične trendove kod modela poput DeepSeek-R1. Uprkos tim izazovima, OpenAI tvrdi da razmišljajne komponente nisu krive i nastavljaju da rade na smanjenju halucinacija. Ovaj problem je posebno kritičan u oblastima poput istraživanja, pravnih saveta i korisničke podrške, gde netačnosti mogu imati ozbiljne posledice. Procene kompanije Vectara pokazuju da su minimalne razlike u frekvenciji halucinacija između modela sa i bez razmišljanja, mada su podaci još uvek ograničeni. Stručnjaci upozoravaju da termin „halucinacija“ pojednostavljuje složene probleme koji uključuju zavisnost od zastarelih ili nepouzdanih podataka. S obzirom na kontinuirane netačnosti, neki sugerišu da bi korišćenje AI chatbotova trebalo ograničiti na scenarije gde je potvrda informacija jednostavnija od samostalnog proveravanja činjenica. Ukupno gledano, halucinacije ostaju glavni nerešeni problem u modelima jezika veštačke inteligencije.
Business on autopilot

AI-powered Lead Generation in Social Media
and Search Engines

Let AI take control and automatically generate leads for you!

I'm your Content Manager, ready to handle your first test assignment

Language

Content Maker

Our unique Content Maker allows you to create an SEO article, social media posts, and a video based on the information presented in the article

news image

Last news

The Best for your Business

Learn how AI can help your business.
Let’s talk!

May 11, 2025, 12:57 a.m.

Regulatorni izazovi u primeni blokchain tehnologi…

Недавно су лидери индустрије из финансијског сектора састали како би разговарали о главним изазовима у спровођењу блокчейн решења, са посебним освртом на критичне последице регулаторне неизвесности.

May 11, 2025, 12:06 a.m.

2 Jednostavne Akcije veštačke inteligencije (AI) …

Многа улагања у велике технолошке компаније које у великој мери инвестирају у инфраструктуру вештачке интелигенције (ВИ), јављају се као интересовање инвеститора који питају када или да ли ће ова улагања донети одговарајуће поврате.

May 10, 2025, 11:24 p.m.

XRP ubrzava globalnu revoluciju plaćanja, investi…

Pouzdani urednički sadržaj, pregledan od strane vrhunskih stručnjaka i urednika u industriji.

May 10, 2025, 10:30 p.m.

Grok je jedini saveznik Elona Muska u hipotetičko…

Ako bih morao da biram između Elona Maska i Sama Oltmana da vode trku u razvoju veštačke inteligencije dok je budućnost čovečanstva ugrožena, veštački inteligentni chatboti uglavnom su favorizovali Oltmana, osim Groka u vlasništvu Maska, koji je stao uz Maska.

May 10, 2025, 9:47 p.m.

Robinhood razvija program zasnovan na blockchain …

Robinhood radi na platformi zasnovanoj na blockchain tehnologiji s ciljem da evropskim trgovcima omogući pristup američkim finansijskim sredstvima, navode dve osobe upoznate sa situacijom koje su za Bloomberg govorile pod uslovom anonimnosti.

May 10, 2025, 9:02 p.m.

OpenAI predstavlja o3-mini: brzi, pametni i prist…

OpenAI je predstavio o3-mini, novi model veštačke inteligencije za rezonovanje, koji je posebno osmišljen da poboljša tačnost u matematičkim računanjima, programerskim zadacima i naučnom rešavanju problema.

May 10, 2025, 8:22 p.m.

Tetherov USDT pokreće na Kaia blockchain-u, širi …

Imeđu stabilnih novčanica, Tether je najavio implementaciju svoje matične USDT stabilne kovanice na Kaia blockchain, Layer 1 mreži pokrenutoj u avgustu 2024.

All news