lang icon Danish
Auto-Filling SEO Website as a Gift

Launch Your AI-Powered Business and get clients!

No advertising investment needed—just results. AI finds, negotiates, and closes deals automatically

May 10, 2025, 5:50 p.m.
5

AI-chatbots kæmper stadig med vedvarende hallucinationer, der påvirker pålideligheden

AI-chatbots fra førende teknologivirksomheder som OpenAI og Google har i de seneste måneder modtaget forbedringer i deres evne til at ræsonnere for at øge pålideligheden af deres svar. Men nylige tests viser, at nogle nyere modeller klarer sig dårligere end ældre versioner, hvilket viser et fænomen kaldet " hallucinationer"—fejl hvor chatbots genererer falsk information eller giver svar, der er faktuelt korrekte men irrelevante eller ikke i overensstemmelse med instruktioner. Dette problem har eksisteret siden etableringen af store sproglige modeller (LLMs) som OpenAIs ChatGPT og Googles Gemini, og det synes usandsynligt, at det vil blive fuldstændigt løst. En teknisk rapport fra OpenAI viste, at deres modeller o3 og o4-mini, udgivet i april, havde væsentligt højere hallucinationsrater end den ældre o1-model fra slutningen af 2024: o3 havde en hallucinationsrate på 33 %, o4-mini 48 %, i forhold til 16 % for o1, når der opsummeres offentligt tilgængelige fakta. Tilsvarende viste Vectaras leaderboard, der overvåger hallucinationsrater, at nogle ræsonneringsmodeller—herunder DeepSeek-R1—oplevede markante stigninger i hallucinationer i forhold til deres forgængere, på trods af deres flerstadie-reasoning inden svar. OpenAI hævder, at ræsonneringsprocesser ikke er årsag til stigningen i hallucinationer, og arbejder aktivt på at finde metoder til at reducere hallucinationer i alle modeller. Vedvarende hallucinationer udgør en trussel mod flere anvendelser: modeller, der ofte producerer falske oplysninger, kan forhindre forskning, paralegal-bots, der henviser til ikke-eksisterende sager, kan føre til juridiske fejl, og kundeservice-bots med forældet information kan skabe driftsmæssige problemer. Oprindeligt forventede AI-virksomheder, at hallucinationerne ville falde over tid, da tidlige modelopdateringer viste forbedringer. Men de seneste højere niveauer af hallucinationer udfordrer denne forventning, uanset graden af ræsonnering. Vectaras leaderboard viser, at hallucinationsrater er omtrent lige høje i modeller med og uden ræsonnering fra OpenAI og Google, selv om de præcise tal er mindre vigtige end den relative placering.

Google ønskede ikke at kommentere. Dog har sådanne rangeringer deres begrænsninger. De blander forskellige typer af hallucinationer; for eksempel var DeepSeek-R1’s 14, 3 % hallucinationsrate primært bestående af "harmløse" tilfælde—svar, der er logisk sammenhængende og understøttet af viden, men som mangler i selve kildeteksten. Desuden kan test baseret udelukkende på tekstopsummering ikke afspejle hallucinationsfrekvenser i andre opgaver, da LLM’er ikke er specielt designet til opsummering. Emily Bender fra University of Washington understreger, at disse modeller forudsiger sandsynlige næste ord, snarere end at behandle information for ægte at forstå teksten, hvilket gør begrebet "hallucination" både misvisende og antropomorfisk. Bender kritiserer "hallucination" som problematisk, fordi det antyder fejl er afvigelser i ellers pålidelige systemer, og tillægger AI menneskelignende perception, hvilket det ikke har. Princeton’s Arvind Narayanan tilføjer, at modeller også fejler ved at relyere på upålidelige eller forældede data, og at blot at tilføje træningsdata eller regnekraft ikke har løst disse problemer. Som følge heraf kan fejlbehæftede AI være en varig realitet. Narayanan foreslår, at man kun bør bruge sådanne modeller, når faktatjek er hurtigere end at foretage egen research, mens Bender anbefaler helt at undgå at stole på AI-chatbots som kilde til faktuel information.



Brief news summary

De seneste fremskridt inden for AI-chatbots fra virksomheder som OpenAI og Google, med fokus på at forbedre ræsonnering og nøjagtighed, har paradoksalt nok medført en stigning i hallucinationer – tilfælde hvor modeller genererer falsk eller vildledende information og ikke følge instruktioner korrekt. For eksempel viser OpenAI’s nyere o3- og o4-mini-modeller hallucinationsrater på henholdsvis 33% og 48%, sammenlignet med 16% for den ældre o1-model, med lignende tendenser i modeller som DeepSeek-R1. På trods af disse udfordringer påstår OpenAI, at ræsonneringskomponenterne ikke er skyld i problemet, og de fortsætter arbejdet med at reducere hallucinationer. Dette problem er særligt kritisk inden for områder som forskning, juridisk rådgivning og kundeservice, hvor unøjagtigheder kan få alvorlige konsekvenser. Evalueringer foretaget af Vectara viser små forskelle i hallucinationsfrekvenser mellem modeller med og uden ræsonnering, selv om data er begrænset. Eksperter advarer om, at “hallucination” forenkler komplekse problemer, der involverer afhængighed af forældet eller upålidelig data. På grund af vedvarende unøjagtigheder foreslår nogle at begrænse brugen af AI-chatbots til scenarier, hvor verifikation af oplysninger er lettere end selvstændig faktatjek. Overordnet forbliver hallucinationer et stort uløst problem i AI-sprogmodeller.
Business on autopilot

AI-powered Lead Generation in Social Media
and Search Engines

Let AI take control and automatically generate leads for you!

I'm your Content Manager, ready to handle your first test assignment

Language

Content Maker

Our unique Content Maker allows you to create an SEO article, social media posts, and a video based on the information presented in the article

news image

Last news

The Best for your Business

Learn how AI can help your business.
Let’s talk!

May 10, 2025, 10:30 p.m.

Grok er Elon Musks eneste allier i en hypotetisk …

Hvis man blev tvunget til at vælge mellem Elon Musk og Sam Altman til at lede AI-race for menneskehedens fremtid, foretrak de fleste kunstigt intelligente chatbots Altman, bortset fra Musk-ejede Grok, som støttede Musk.

May 10, 2025, 9:47 p.m.

Robinhood udvikler blockchain-baseret program til…

Robinhood arbejder på en blockchain-baseret platform med det formål at give europæiske handlende adgang til amerikanske finansielle aktiver, ifølge to kilder med kendskab til situationen, som har talt med Bloomberg.

May 10, 2025, 9:02 p.m.

OpenAI lancerer o3-mini: Hurtigt, Smart, Prisvenl…

OpenAI har lanceret o3-mini, en ny kunstig intelligens-udføringsmodel, der er specielt designet til at forbedre nøjagtigheden i matematiske beregninger, kodningsopgaver og videnskabelige problemløsninger.

May 10, 2025, 8:22 p.m.

Tether's USDT lanceres på Kaia blockchainen og ud…

Stablecoin-udstederen Tether har annonceret implementeringen af sin native USDT stablecoin på Kaia-blockchainen, en Layer 1-netværk lanceret i august 2024.

May 10, 2025, 7:29 p.m.

Elton John og Dua Lipa søger beskyttelse mod AI

Dua Lipa, Sir Elton John, Sir Ian McKellen, Florence Welch og over 400 andre britiske musikere, forfattere og kunstnere har opfordret premierminister Sir Keir Starmer til at opdatere ophavsretslovgivningen for at beskytte skabere mod misbrug af deres værker af kunstig intelligens (AI).

May 10, 2025, 6:49 p.m.

Blockchain's rolle i finansielle inklusionsinitia…

Blockchain-teknologi bliver i stigende grad anerkendt som et kraftfuldt værktøj til at fremme finansiel inklusion globalt, især for ukontrollerede og underforsynede befolkninger, der mangler adgang til traditionelle banktjenester.

May 10, 2025, 5:14 p.m.

Blockchain i sundhedsvæsenet: Sikring af patientd…

Sundhedssektoren gennemgår en større omvæltning ved at adoptere blockchain-teknologi for at forbedre sikkerheden og styringen af patientjournaler.

All news