lang icon En
May 10, 2025, 5:50 p.m.
4318

Mākslīgā intelekta čatboti saskaras ar pastāvīgām halucinācijas problēmām, kas ietekmē uzticamību

Brief news summary

Nesenie progresi AI čatbotu jomā OpenAI un Google uzņēmumos, kas ir vērsti uz domāšanas un precizitātes uzlabošanu, paradoxi rezultātā ir novēroti pieaugoši halucināciju līmeņi — gadījumi, kad modeļi ģenerē nepatiesu vai maldinošu informāciju un nepiemērojas pareizi instrukcijām. Piemēram, OpenAI jaunākie modeļi o3 un o4-mini parāda halucināciju līmeņus attiecīgi 33% un 48%, salīdzinot ar vecā modeļa o1 16%, turklāt līdzīgas tendences novērotas modeļiem kā DeepSeek-R1. Neskatoties uz šīm izaicinājumiem, OpenAI apgalvo, ka vainojami nav domāšanas komponenti un turpina strādāt pie halucināciju samazināšanas. Šī problēma ir īpaši svarīga jomās, kā pētījumi, juridiskie padomi un klientu apkalpošana, kur neprecizitātes var radīt nopietnas sekas. Vectara novērojumi liecina, ka starp domājošiem un nedomājošiem modeļiem halucināciju biežums ir salīdzinoši līdzīgs, taču datu apjoms ir ierobežots. Eksperti brīdina, ka “halucinācija” pārāk vienkāršo sarežģītas problēmas, kas ietver atkarību no novecojušiem vai neuzticamiem datiem. Ņemot vērā pastāvošās neprecizitātes, daži norāda, ka AI čatbota lietošanu būtu jāsagremo tikai situācijās, kur informācijas pārbaude ir vienkāršāka nekā neatkarīga faktiem pārbaudīšana. Kopumā halucinācijas joprojām ir būtiska neatrisināta problēma AI valodas modeļos.

AI tērzēšanas botu no vadošajiem tehnoloģiju uzņēmumiem, piemēram, OpenAI un Google, pēdējo mēnešu laikā ir uzlabojuši racionālas domāšanas spējas, lai uzlabotu atbilžu ticamību. Taču nesenie testi atklāj, ka dažādi jauni modeļi dažkārt darbojas sliktāk nekā iepriekšējās versijas, parādot fenomenu, ko sauc par "halucinācijām" — kļūdām, kurās tērzēšanas botu ģenerēta informācija ir nepatiesa vai sniegtas atbildes, kas ir faktu pareizas, bet neattiecas uz konkrēto uzdevumu vai ir pretrunā ar instrukcijām. Šī problēma pastāv kopš lielo valodu modeļu (LLM), tādu kā OpenAI ChatGPT un Google Gemini, ieviešanas, un nav paredzams, ka tā tiks pilnībā novērsta. OpenAI tehniskais ziņojums liecina, ka tās aprīlī izlaistie modeļi o3 un o4-mini ir izrādījušies ievērojami bēdīgāki halucināciju ziņā nekā vecākais o1 modelis no 2024. gada beigām: o3 rādītājs bija 33%, o4-mini 48%, salīdzinot ar 16% o1 modelim, analizējot publiski pieejamos faktus. Tāpat Vectara vadības panelis, kas uzrauga halucināciju līmeņus, atklāj, ka dažiem racionālas domāšanas modeļiem, tostarp DeepSeek-R1, ir ievērojami palielinājies halucināciju skaits salīdzinājumā ar iepriekšējām versijām, neraugoties uz daudzpakāpju analīzes pieeju pirms atbildes sniegšanas. OpenAI uzskata, ka pati domāšanas procesa aktivizēšana nav galvenais iemesls halucināciju pieaugumam, un aktīvi pēta veidus, kā samazināt halucinācijas visos modeļos. Halucināciju pastāvēšana apdraud vairākas jomas: modeļi, kas bieži ģenerē nepatiesu informāciju, kavē akadēmisko pētījumu atbalstu; paralegālo botu, kas atsaucas uz neeksistējošiem gadījumiem, ir juridiskas kļūdas; klientu apkalpošanas botu ar novecojušu informāciju rada operatīvas problēmas. Sākotnēji AI uzņēmumi cerēja, ka halucinācijas laika gaitā samazināsies, jo agrīnās modeļu versijas uzlabojās. Taču nesenie augstie halucināciju līmeņi apšauba šo prognozi, neatkarīgi no domāšanas procesa iesaistes.

Vectara vadības panelis norāda, ka halucināciju līmenis ir līdzīgs racionālas un neracionālas domāšanas modeļiem no OpenAI un Google, taču precīvi skaitļi ir mazāk svarīgi nekā relatīvā situācija un pozīcija sarakstā. Google atteicās komentēt. Tomēr šādas vērtēšanas sistēmas ir ierobežotas. Tās sajauc dažādus halucināciju veidus; piemēram, DeepSeek-R1 14, 3% halucināciju galvenokārt būtībā sastāvēja no "labdabīgām" kļūdām — atbildēm, kas ir loģiski pamatotas un atbalstītas ar zināšanām, bet nav atrodamas avotu tekstā. Turklāt testēšana tikai uz teksta kopsavilkumiem ne vienmēr atspoguļo halucināciju biežumu citās uzdevumu kategorijās, jo LLM nav speciāli paredzēti šiem uzdevumiem. Vašingtonas universitātes Emīlija Bender uzsver, ka šie modeļi paredz iespējamos nākamos vārdus, nevis patiešām apstrādā informāciju, lai patiesi to saprastu, padarot terminu "halucinācija" maldinošu un antropomorfu. Bender kritizē "halucināciju" kā problēmu, jo tas rada maldīgu priekšstatu, ka kļūdas ir iracionālas sistēmas novirzes, un piešķir mākslīgajai intelektam līdzīgu uztveri, kas patiesībā "neuztver" neko. Prinstonas universitātes Arvinds Narajansans papildina, ka modeļi kļūdās arī izmantojoši neuzticamu vai novecojušu datu bāzi, un vienkārši papildus apmācības dati vai jauda nav atrisinājuši šīs problēmas. Tādējādi kļūdainam AI var būt ilgstoša realitāte. Narajansans iesaka izmantot šādus modeļus tikai, ja fakto pārbaudīšana ir ātrāka nekā sākotnējo pētījumu veikšana, bet Bender rekomendē pilnībā atturēties no paļaušanās uz AI tērzēšanas botu faktsnieciskai informācijai.


Watch video about

Mākslīgā intelekta čatboti saskaras ar pastāvīgām halucinācijas problēmām, kas ietekmē uzticamību

Try our premium solution and start getting clients — at no cost to you

I'm your Content Creator.
Let’s make a post or video and publish it on any social media — ready?

Language

Hot news

Dec. 12, 2025, 1:42 p.m.

Disney nosūta Google iejaukšanās un atteikuma vēs…

The Walt Disney Company ir sākusi būtisku juridisku procesu pret Google, nosūtot brīdinājuma un aizlieguma vēstuli, apsūdzot tehnoloģiju gigantu pārkāpumos Disney autortiesību aizsargātajiem materiāliem, kas tika izmantoti ģeneratīvās mākslīgā intelekta (AI) modeļu apmācībai un izstrādei bez atbilstošas kompensācijas.

Dec. 12, 2025, 1:35 p.m.

IKAI un Meklētājprogrammu Optimizācijas Nākotne

Vienar NLP un prognozējošā analītika kļūst par galvenajiem elementiem, kas maina mūsdienu SEO.

Dec. 12, 2025, 1:33 p.m.

Mākslīgais intelekts: MiniMax un Zhipu AI plāno k…

MiniMax un Zhipu AI, divas vadošās mākslīgā intelekta uzņēmumu, ziņo, ka gatavojas iekļūt publiskajā tirgū Honkongas Biržā jau nākamā gada janvārī.

Dec. 12, 2025, 1:31 p.m.

OpenAI iecērt Slack līdzdibinātāju un CEO Denise …

Denise Dresser, Slack izpilddirektore, ir gatava atstāt savu amatu, lai kļūtu par galveno ieņēmumu virspriesti OpenAI, uzņēmuma aiz ChatGPT.

Dec. 12, 2025, 1:30 p.m.

Ar AI video sintēzes tehnoloģijām uzlabojas filmu…

Filmu industrija saskaras ar būtisku pārmaiņu, jo studijas arvien vairāk izmanto mākslīgā intelekta (MI) video sintēzes tehnikas, lai uzlabotu postprodukcijas darba plūsmas.

Dec. 12, 2025, 1:24 p.m.

19 labākie sociālo mediju mākslīgā intelekta rīki…

AI revolucija sociālo mediju mārketingā, piedāvājot rīkus, kas vienkāršo un uzlabo auditorijas iesaisti.

Dec. 12, 2025, 9:42 a.m.

Mākslīgā intelekta ietekmētāji sociālajos tīklos:…

AI ģenerētu influenceri sociālajos medijos iezīmē būtisku pārmaiņu digitālajā vidē, veicinot plašas diskusijas par tiešsaistes mijiedarbības autentiskumu un ētikas jautājumiem, kas saistīti ar šīm virtuālajām personām.

All news

AI Company

Launch your AI-powered team to automate Marketing, Sales & Growth

and get clients on autopilot — from social media and search engines. No ads needed

Begin getting your first leads today