AI-chatboter står overfor vedvarende hallucinasjonsproblemer som påvirker påliteligheten

AI-chatboter fra ledende teknologiselskaper som OpenAI og Google har de siste månedene mottatt forbedringer i evnen til å resonere for å øke påliteligheten i svarene. Imidlertid viser nylige tester at noen av de nyere modellene presterer dårligere enn tidligere versjoner, og viser et fenomen som kalles "hallusinasjoner" – feil hvor chatboter genererer falsk informasjon eller gir svar som er faktamessig riktige, men irrelevante eller i strid med instruksjonene. Dette problemet har vært til stede siden etableringen av store språkmodeller (LLMs) som OpenAIs ChatGPT og Googles Gemini, og det fremstår som lite sannsynlig at det vil bli fullt ut løst. En teknisk rapport fra OpenAI viste at modellene deres o3 og o4-mini, som ble lansert i april, hadde betydelig høyere forekomster av hallusinasjoner enn den eldre o1-modellen fra slutten av 2024: o3 hadde en hallusinasjonsrate på 33 %, o4-mini 48 %, sammenlignet med 16 % for o1, når de oppsummerte offentlige tilgjengelige fakta. Tilsvarende fant Vectaras ledertavle, som følger med på hallusinasjonsrater, at noen resonneringsmodeller – inkludert DeepSeek-R1 – opplevde merkbare økninger i hallusinasjoner sammenlignet med forgjengerne, til tross for deres flertrinns resonneringsmetode før svar. OpenAI fastholder at resonneringsprosesser ikke er det som i seg selv er ansvarlig for økningen i hallusinasjoner, og de forsker aktivt på måter å redusere dette i alle modeller. Vedvarende hallusinasjoner truer flere bruksområder: modeller som ofte produserer falsk informasjon, hindrer forskning og assistanse; juridiske chatboter som viser til ikke-eksisterende saker, risikerer juridiske feil; kundeservice-boter med utdaterte opplysninger kan skape operasjonelle problemer. Opprinnelig forventet AI-virksomhetene at hallusinasjoner skulle avta over tid, ettersom oppdateringer av tidlige modeller viste forbedringer. Men de nylige økte nivåene utfordrer dette synet, uansett hvor mye resonnering modellen bruker. Vectaras ledertavle antyder at hallusinasjonsratene er tilnærmet like i modeller med og uten resonnering fra OpenAI og Google, selv om de eksakte tallene spiller mindre rolle enn relative plasseringer.
Google har valgt å ikke kommentere. Det er imidlertid viktig å erkjenne begrensningene ved slike rangeringer. De blander ulike typer hallusinasjoner; for eksempel utgjorde DeepSeek-R1s 14, 3 % hallusinasjonsrate hovedsakelig “harmløse” tilfeller – svar som var logisk og støttet av kunnskap, men som manglet i kilden. I tillegg kan testing basert utelukkende på tekstsammendrag ikke gi et fullstendig bilde av hvor ofte hallusinasjoner oppstår i andre oppgaver, ettersom LLM-er ikke er spesifikt utviklet for oppsummering. Emily Bender ved University of Washington påpeker at disse modellene predikerer sannsynlige neste ord, heller enn å behandle informasjon for å forstå teksten fullt ut, noe som gjør begrepet "hallusinasjon" både misvisende og antropomorfisk. Bender kritiserer begrepet "hallusinasjon" fordi det antyder at feil oppstår som avvik i ellers pålitelige systemer, og at det tillegges AI menneskelignende oppfatning, noe det ikke gjør i noen forstand. Arvind Narayanan ved Princeton legger til at modellene også kan gjøre feil ved å bruke upålitelige eller utdaterte data, og at å bare legge til mer treningsdata eller øke datakraft ikke har løst disse problemene. Som en følge kan feilaktige AI-modeller bli en varig realitet. Narayanan foreslår å bruke slike modeller bare når faktasjekk tar kortere tid enn å gjøre egen forskning, mens Bender anbefaler å unngå å stole på AI-chatboter for faktabasert informasjon helt.
Brief news summary
Nylige fremskritt innen AI-chatboter fra selskaper som OpenAI og Google, med fokus på å forbedre resonnement og nøyaktighet, har paradoksalt nok ført til økte hallucinasjonsrater – tilfeller der modeller genererer feilaktig eller villedende informasjon og ikke følger instruksjonene nøye. For eksempel viser OpenAI sine nyere o3- og o4-mini modeller hallucinasjonsrater på henholdsvis 33 % og 48 %, sammenlignet med 16 % for den eldre o1-modellen, med lignende trender for modeller som DeepSeek-R1. Til tross for disse utfordringene hevder OpenAI at resonnementselementene ikke er årsaken, og de fortsetter å jobbe med å redusere hallucinasjoner. Dette problemet er spesielt kritisk innen områder som forskning, juridisk rådgivning og kundeservice, hvor unøyaktigheter kan få alvorlige konsekvenser. Evalueringer utført av Vectara viser minimale forskjeller i hallucinasjonsfrekvenser mellom resonnerende og ikke-resonnerende modeller, selv om datagrunnlaget er begrenset. Eksperter advarer om at begrepet «hallusinasjon» forenkler komplekse problemer som involverer avhengighet av utdaterte eller upålitelige data. Gitt de vedvarende unøyaktighetene, foreslår noen å begrense bruken av AI-chatboter til scenarier der det er enklere å verifisere informasjonen enn å utføre uavhengig faktasjekk. Alt i alt forblir hallucinasjoner et stort uløst problem i AI-språkmodeller.
AI-powered Lead Generation in Social Media
and Search Engines
Let AI take control and automatically generate leads for you!

I'm your Content Manager, ready to handle your first test assignment
Learn how AI can help your business.
Let’s talk!

Hva skjer når folk ikke forstår hvordan kunstig i…
Den utbredte misforståelsen av kunstig intelligens (KI), spesielt store språkmodeller (LLMs) som ChatGPT, har betydelige konsekvenser som krever grundig vurdering.

Skalerbare og Desentraliserte, Raske og Sikre, Co…
I dagens raske endrende kryptomarked retter investorer seg mot blockchain-prosjekter som kombinerer skalerbarhet, desentralisering, hastighet og sikkerhet.

Blockchain i utdanning: Revolusjonerer verifiseri…
Utdanningssektoren står overfor betydelige utfordringer når det gjelder å verifisere akademiske kvalifikasjoner og opprettholde sikre registre.

Exploratorium lanserer utstillingen 'Eventyr i AI…
Denne sommeren presenterer San Franciscos Exploratorium stolt sin nyeste interaktive utstilling, "Eventyr i AI", med mål om å gi en grundig og engasjerende utforskning av kunstig intelligens til besøkende.

Google avduker Ironwood TPU for AI-inferens
Google har avduket sitt siste gjennombrudd innen kunstig intelligens-hardvare: Ironwood TPU, deres mest avanserte tilpassede AI-akselerator hittil.

Bortenfor støyen: Jakten på blockchainens håndgri…
Blockchain-landskapet har modnet fra tidlige spekulasjoner til et område som krever visjonært lederskap som forener banebrytende innovasjon med reell nytte.

AI innen underholdning: Skape virtuelle virkeligh…
Kunstig intelligens forvandler underholdningsindustrien ved å betydelig forbedre virtuell virkelighet (VR) opplevelser.