Tehisintellekti vestlusbotid seisavad silmitsi püsivate hallutsinatsioonide probleemidega, mis mõjutavad nende usaldusväärsust

Tehisintellekti vestlusrobotid juhtivatelt tehnoloogiafirmadelt nagu OpenAI ja Google on viimastel kuudel saanud täiustusi põhjusmõtlemise võimes, et parandada vastuste usaldusväärsust. Siiski näitavad hiljutised testid, et mõned uuemad mudelid toimivad halvemini kui varasemad versioonid ning näitavad nähtust nimega "hallutsinatsioonid" – vigu, kus vestlusbotid genereerivad valesid teateid või annavad vastuseid, mis on faktuaalselt õige, kuid onignosis või ebamõistlikud või instruktsioonidele mittevastavad. See probleem on kestnud alates suure keelemudelite (LLMs), nagu OpenAI ChatGPT ja Google Gemini, algusest ning tundub, et seda ei õnnestu täielikult lahendada. OpenAI tehniline raport näitas, et nende aprillis avaldatud o3 ja o4-mini mudelid omasid oluliselt kõrgemaid hallutsinatsioonide määrasid kui vana o1 mudel, mis pärines hiljutisest hetkest 2024. lõpus: o3 puhul oli hallutsinatsioonide määra 33%, o4-mini puhul 48%, samal ajal kui o1 puhul oli see 16%, kui ta tõi kokku avalikult kättesaadavaid faktid. Samamoodi leiti Vectara juhtkonkursilt, et mõne mõtlemise mudelid – sealhulgas DeepSeek-R1 – kogesid silmatorkavat hallutsinatsioonide suurenemist võrreldes eelkäijatega, hoolimata nende mitmetsüüdalisest mõtlemisprotsessist enne vastamist. OpenAI kinnitab, et mõtlemisprotsessid ise ei ole põhjuseks hallutsinatsioonide tõusu ning tegeleb aktiivselt võimalustega hallutsinatsioonide vähendamiseks kõigis mudelites. Hallutsinatsioonide püsivus ohustab mitmeid rakendusi: mudelid, mis sageli genereerivad valeinfot, takistavad teaduslikku abi; abiliste botid, kes tsiteerivad mittetäielikke juhtumeid, võivad põhjustada õiguslikke vigu; klienditeenindusbotid, kellel on vananenud teave, põhjustavad tegevuslikke probleeme. Alguses ootasid tehisintellekti ettevõtted, et hallutsinatsioonid vähenevad aja jooksul, kuna esialgsed mudelivärskendused näitasid paranemist. Kuid hiljutised kõrgemad hallutsinatsioonide tasemed esitavad selle ootuse väljakutse ning sõltumata mõtlemise osalusest on juhtkonkursid nagu Vectara näidanud, et OpenAI ja Google mudelite hallutsinatsioonimäärad on ligikaudu võrdsed, kuigi täpsed arvud ei ole vähem oluline kui suhteline koht.
Google keeldus kommentaarist. Sellised järjestused on siiski piiratud. Need ühendavad erinevaid hallutsinatsiooni tüüpe; näiteks DeepSeek-R1 14, 3% hallutsinatsioonide määr koosnes peamiselt "kahjutu" juhtumitest – vastused, mis on loogiliselt õiged ja toetuvad teadmisele, kuid puuduvad lähteandmestikust. Lisaks ei pruugi tekstipõhised testid või kokkuvõtted peegeldada hallutsinatsioonide sagedust muudes ülesannetes, kuna LLM-id ei ole spetsiaalselt mõeldud kokkuvõtete tegemiseks. Washingtoni ülikooli Emily Bender rõhutab, et need mudelid prognoosivad tõenäoliselt järgmisi sõnu ning ei tööta informatsiooni tõeliseks mõistmiseks, mistõttu on mõiste "hallutsinatsioon" nii eksitav kui ka antropomorfne. Bender kritiseerib "hallutsinatsiooni" kui probleemset terminit, kuna see eeldab, et vead on kõrvalekalded muidu usaldusväärsetes süsteemides ning omistab tehisintellektile inimliku tajumise, mis ei "tajugi" mingil moel. Princetoni ülikooli Arvind Narayanan lisab, et mudelid teevad vigu ka usaldusväärsete või vananenud andmete põhjal ning lihtsalt treeningandmete või arvutusvõimsuse suurendamine ei ole neid probleeme lahendanud. Seetõttu võib veaga tehisintellekt olla püsiv reaalsus. Narayanan soovitab selliseid mudeleid kasutada vaid siis, kui fakti kontrollimine on kiirem kui algse uurimistöö tegemine, samas kui Bender soovitab vältida täielikult usaldust tehisintellekti vestlusrobotide faktipõhises teabes.
Brief news summary
Viimased edusamme tehisintellekti vestlusrobotite alal ettevõtetes nagu OpenAI ja Google, keskendudes järeldus- ja täpsusvõime parandamisele, on paradoksaalselt suurendanud hallutsinatsiooni määrasid – juhtumeid, kus mudelid genereerivad vale või eksitavat teavet ning ei järgi korralikult instruktsioone. Näiteks OpenAI uusimad o3 ja o4-mini mudelid näitavad hallutsinatsiooni määrasid 33% ja 48%, võrreldes vanema o1 mudeli 16%-ga, ning sarnased trendid on täheldatud sellistes mudelites nagu DeepSeek-R1. Vaatamata nendele väljakutsetele väidab OpenAI, et järelduskomponentide süüle ei saa panna ning jätkatakse hallutsinatsioonide vähendamisega tööd. See probleem on olulisel kohal valdkondades nagu teadustöö, õigusnõustamine ja klienditeenindus, kus eksimused võivad avaldada tõsiseid tagajärgi. Vectara hindamised näitavad, et hallutsinatsioonide sagedus erineb järeldus- ja mitte-järeldusmudelite vahel vaid vähesel määral, kuigi andmed on piiratud. Ekspertid hoiatasid, et “hallutsinatsioon” liialdaselt lihtsustab keerulisi probleeme, mis hõlmavad sõltuvust vananenud või ebameeldivast teabest. Püsivate täpsusvigade tõttu soovitatakse osade eksperdid piirata tehisintellekti vestlusrobotite kasutust olukordades, kus teabe kontrollimine on lihtsam kui iseseisev faktide kinnitamine. Üldiselt jääb hallutsinatsioon pidevalt suureks ja lahendamata probleemiks tehisintellekti keelemudelites.
AI-powered Lead Generation in Social Media
and Search Engines
Let AI take control and automatically generate leads for you!

I'm your Content Manager, ready to handle your first test assignment
Learn how AI can help your business.
Let’s talk!

Robinhood arendab plokiahelal põhinevat programmi…
Robinhood töötab plokiahelapõhise platvormi kallal, mille eesmärk on pakkuda Euroopa kauplejatele juurdepääsu USA finantssuunale, kirjutavad kaks olukorraga tuttavat allikat Bloombergile.

OpenAI käivitab o3-mini: kiire, nutikas ja taskuk…
OpenAI tutvustas o3-mini uud kataloogteadlikku tehisintellekti mõistmismudel, mis on spetsiaalselt loodud suurendama täpsust matemaatilistes arvutustes, programmeerimistegevustes ja teaduslikes probleemides.

Tetheri USDT käivitub Kaia blokkjalis ning laiend…
Stablecoini väljastaja Tether on teatanud oma vara USDT stabiilsecoini kasutuselevõtust Kaia plokiahelal, mis on Layer 1 võrk, käivitati augustis 2024.

Elton John ja Dua Lipa otsivad kaitset tehisintel…
Dua Lipa, Sir Elton John, Sir Ian McKellen, Florence Welch ning üle 400 teise briti muusiku, kirjaniku ja kunstniku on kutsunud peaminister Sir Keir Starmeri üles uuendama autoriõigusseadust, et kaitsta loojusi nende töö väärkasutamise eest tehisintellekti (TI) poolt.

Blockchain'i roll finantsilise kaasamise algatust…
Blokiahel tehnoloogia tunnustatakse üha enam võimsana tööriistana globaalse rahalise kaasamise edendamiseks, eriti panka mittetulnud ja alamakstud kogukondade jaoks, kellel puudub juurdepääs traditsioonilisele finantsasutustele.

블록체인 tervishoius: patsiendiandmete turvamine
Tervishoiutööstus läbib olulise muutuse, kasutades plokiahelatehnoloogiat patsientide terviseandmete turvalisuse ja haldamise parandamiseks.

Paavi Leo XIV seab välja oma visiooni ning nendib…
VATICAN (AP) — Laupäeval kirjeldas paavst Leo XIV oma pontifikaadi visiooni, tõstes esile tehisintellekti (AI) kui olulise väljakutse inimkonnale ning lubades jätkata paavst Francise seatud põhilisi prioriteete.