AI-chatboter står overfor vedvarende hallucinasjonsproblemer som påvirker påliteligheten

AI-chatboter fra ledende teknologiselskaper som OpenAI og Google har de siste månedene mottatt forbedringer i evnen til å resonere for å øke påliteligheten i svarene. Imidlertid viser nylige tester at noen av de nyere modellene presterer dårligere enn tidligere versjoner, og viser et fenomen som kalles "hallusinasjoner" – feil hvor chatboter genererer falsk informasjon eller gir svar som er faktamessig riktige, men irrelevante eller i strid med instruksjonene. Dette problemet har vært til stede siden etableringen av store språkmodeller (LLMs) som OpenAIs ChatGPT og Googles Gemini, og det fremstår som lite sannsynlig at det vil bli fullt ut løst. En teknisk rapport fra OpenAI viste at modellene deres o3 og o4-mini, som ble lansert i april, hadde betydelig høyere forekomster av hallusinasjoner enn den eldre o1-modellen fra slutten av 2024: o3 hadde en hallusinasjonsrate på 33 %, o4-mini 48 %, sammenlignet med 16 % for o1, når de oppsummerte offentlige tilgjengelige fakta. Tilsvarende fant Vectaras ledertavle, som følger med på hallusinasjonsrater, at noen resonneringsmodeller – inkludert DeepSeek-R1 – opplevde merkbare økninger i hallusinasjoner sammenlignet med forgjengerne, til tross for deres flertrinns resonneringsmetode før svar. OpenAI fastholder at resonneringsprosesser ikke er det som i seg selv er ansvarlig for økningen i hallusinasjoner, og de forsker aktivt på måter å redusere dette i alle modeller. Vedvarende hallusinasjoner truer flere bruksområder: modeller som ofte produserer falsk informasjon, hindrer forskning og assistanse; juridiske chatboter som viser til ikke-eksisterende saker, risikerer juridiske feil; kundeservice-boter med utdaterte opplysninger kan skape operasjonelle problemer. Opprinnelig forventet AI-virksomhetene at hallusinasjoner skulle avta over tid, ettersom oppdateringer av tidlige modeller viste forbedringer. Men de nylige økte nivåene utfordrer dette synet, uansett hvor mye resonnering modellen bruker. Vectaras ledertavle antyder at hallusinasjonsratene er tilnærmet like i modeller med og uten resonnering fra OpenAI og Google, selv om de eksakte tallene spiller mindre rolle enn relative plasseringer.
Google har valgt å ikke kommentere. Det er imidlertid viktig å erkjenne begrensningene ved slike rangeringer. De blander ulike typer hallusinasjoner; for eksempel utgjorde DeepSeek-R1s 14, 3 % hallusinasjonsrate hovedsakelig “harmløse” tilfeller – svar som var logisk og støttet av kunnskap, men som manglet i kilden. I tillegg kan testing basert utelukkende på tekstsammendrag ikke gi et fullstendig bilde av hvor ofte hallusinasjoner oppstår i andre oppgaver, ettersom LLM-er ikke er spesifikt utviklet for oppsummering. Emily Bender ved University of Washington påpeker at disse modellene predikerer sannsynlige neste ord, heller enn å behandle informasjon for å forstå teksten fullt ut, noe som gjør begrepet "hallusinasjon" både misvisende og antropomorfisk. Bender kritiserer begrepet "hallusinasjon" fordi det antyder at feil oppstår som avvik i ellers pålitelige systemer, og at det tillegges AI menneskelignende oppfatning, noe det ikke gjør i noen forstand. Arvind Narayanan ved Princeton legger til at modellene også kan gjøre feil ved å bruke upålitelige eller utdaterte data, og at å bare legge til mer treningsdata eller øke datakraft ikke har løst disse problemene. Som en følge kan feilaktige AI-modeller bli en varig realitet. Narayanan foreslår å bruke slike modeller bare når faktasjekk tar kortere tid enn å gjøre egen forskning, mens Bender anbefaler å unngå å stole på AI-chatboter for faktabasert informasjon helt.
Brief news summary
Nylige fremskritt innen AI-chatboter fra selskaper som OpenAI og Google, med fokus på å forbedre resonnement og nøyaktighet, har paradoksalt nok ført til økte hallucinasjonsrater – tilfeller der modeller genererer feilaktig eller villedende informasjon og ikke følger instruksjonene nøye. For eksempel viser OpenAI sine nyere o3- og o4-mini modeller hallucinasjonsrater på henholdsvis 33 % og 48 %, sammenlignet med 16 % for den eldre o1-modellen, med lignende trender for modeller som DeepSeek-R1. Til tross for disse utfordringene hevder OpenAI at resonnementselementene ikke er årsaken, og de fortsetter å jobbe med å redusere hallucinasjoner. Dette problemet er spesielt kritisk innen områder som forskning, juridisk rådgivning og kundeservice, hvor unøyaktigheter kan få alvorlige konsekvenser. Evalueringer utført av Vectara viser minimale forskjeller i hallucinasjonsfrekvenser mellom resonnerende og ikke-resonnerende modeller, selv om datagrunnlaget er begrenset. Eksperter advarer om at begrepet «hallusinasjon» forenkler komplekse problemer som involverer avhengighet av utdaterte eller upålitelige data. Gitt de vedvarende unøyaktighetene, foreslår noen å begrense bruken av AI-chatboter til scenarier der det er enklere å verifisere informasjonen enn å utføre uavhengig faktasjekk. Alt i alt forblir hallucinasjoner et stort uløst problem i AI-språkmodeller.
AI-powered Lead Generation in Social Media
and Search Engines
Let AI take control and automatically generate leads for you!

I'm your Content Manager, ready to handle your first test assignment
Learn how AI can help your business.
Let’s talk!

Robinhood utvikler blockchain-basert program for …
Robinhood jobber med en blockchain-basert plattform som har som mål å gi europeiske tradere tilgang til amerikanske finansielle eiendeler, ifølge to kilder kjent med situasjonen som snakket med Bloomberg.

OpenAI lanserer o3-mini: Rask, intelligent og rim…
OpenAI har lansert o3-mini, en ny kunstig intelligens-evnemodell som er spesielt utviklet for å forbedre nøyaktigheten i matematiske beregninger, kodingsoppgaver og vitenskapelig problemløsning.

Tether sin USDT lanseres på Kaia Blockchain og Ut…
Stablecoin-utstederen Tether har kunngjort utplasseringen av sin native USDT-stablecoin på Kaia-blockkjeden, et Layer 1-nettverk lansert i august 2024.

Elton John og Dua Lipa søker beskyttelse mot kuns…
Dua Lipa, Sir Elton John, Sir Ian McKellen, Florence Welch og over 400 andre britiske musikere, forfattere og artister har oppfordret statsminister Sir Keir Starmer til å oppdatere opphavsrettslovgivningen for å beskytte skapere mot misbruk av deres verk av kunstig intelligens (AI).

Blockchain sin rolle i finansielle inkluderingsin…
Blockchain-teknologi blir stadig mer anerkjent som et kraftfullt verktøy for å fremme finansiell inkludering globalt, spesielt for de som er uten bankkonto og underbetjente grupper som mangler tilgang til tradisjonelle banktjenester.

Blockchain i helsesektoren: Sikring av pasientdata
Helsevesenet er undergår en stor transformasjon ved å ta i bruk blokkjede-teknologi for å forbedre sikkerheten og administrasjonen av pasientjournaler.

Pave Leo XIV legger frem sin visjon og peker ut k…
VATICANSTAD (AP) — På lørdag presenterte pave Leo XIV sin visjon for sitt papestykke, og fremhevet kunstig intelligens (AI) som en avgjørende utfordring for menneskeheten og lovet å fortsette viktige prioriteringer satt av pave Frans.