lang icon Swedish
Auto-Filling SEO Website as a Gift

Launch Your AI-Powered Business and get clients!

No advertising investment needed—just results. AI finds, negotiates, and closes deals automatically

May 10, 2025, 5:50 p.m.
3

AI-chatbottar står inför ihållande hallucinationsproblem som påverkar tillförlitligheten

AI-chatbottar från ledande teknikföretag som OpenAI och Google har under de senaste månaderna fått förbättrade förmågor till resonemang för att öka pålitligheten i svaren. Men nyare tester visar att vissa av de nyaste modellerna presterar sämre än äldre versioner, och uppvisar ett fenomen som kallas "hallucinationer" – fel där chatbottar genererar falsk information eller ger svar som är faktamässigt korrekta men irrelevanta eller nonchalanta mot instruktioner. Detta problem har funnits sedan starten av stora språkmodeller (LLMs) som OpenAIs ChatGPT och Googles Gemini, och det verkar osannolikt att det helt kan lösas. En teknisk rapport från OpenAI visade att deras modeller o3 och o4-mini, som släpptes i april, hade betydligt högre hallucinationsfrekvenser än den äldre o1-modellen från slutet av 2024: o3 hade en hallucinationsfrekvens på 33 %, o4-mini 48 %, jämfört med 16 % för o1, när man sammanfattade offentligt tillgängliga fakta. På samma sätt visade Vectaras topplista för hallucinationsfrekvenser att vissa resonemangsmotorer – inklusive DeepSeek-R1 – hade märkbara ökningar i hallucinationer jämfört med tidigare modeller, trots deras flerstegsresonemang innan svar. OpenAI hävdar att resonemangsprocesserna inte är den inneboende orsaken till ökningen av hallucinationer och bedriver aktiv forskning för att minska hallucinationerna i alla modeller. Den fortsatta förekomsten av hallucinationer hotar flera tillämpningar: modeller som ofta producerar felaktigheter hindrar forskningsstöd; juristassistansbotar som citerar icke-existerande fall riskerar juridiska fel; kundtjänstbotar med föråldrad information orsakar driftsproblem. Initialt förväntade AI-företagen att hallucinationerna skulle minska över tid, eftersom tidigare modelluppdateringar visade förbättringar. Men de senaste högre nivåerna av hallucinationer utmanar denna syn, oavsett om modellen använder resonemang eller inte. Vectaras topplista visar att hallucinationsfrekvenser är ungefär lika hög i resonemangs- som icke-resonemangsmodeller från både OpenAI och Google, även om de exakta siffrorna är mindre viktiga än de relativa placeringarna.

Google vägrade kommentera. Det finns dock begränsningar med sådana rankningar. De blandar olika typer av hallucinationer; till exempel bestod DeepSeek-R1:s 14, 3 % hallucinationsfrekvens mestadels av "harmlösa" fall – svar som är logiskt rimliga och stöds av kunskap men saknas i källtexten. Dessutom kan tester som enbart bygger på textsammanfattning inte ge en full bild av hallucinationerna i andra uppgifter, eftersom LLMs inte är specifikt utformade för sammanfattning. Emily Bender vid University of Washington påpekar att dessa modeller förutsäger sannolika nästa ord snarare än att aktivt bearbeta information för att förstå texten, vilket gör termen "hallucination" både missvisande och antropomorfiserande. Bender kritiserar "hallucination" eftersom den antyder att felen är avvikande i annars tillförlitliga system och att AI "perceperar" på ett mänskligt sätt, vilket inte är fallet. Arvind Narayanan vid Princeton tillägger att modeller också gör fel genom att förlita sig på opålitlig eller föråldrad data, och att bara lägga till mer träningsdata eller beräkningskraft inte har löst dessa problem. Följaktligen kan det felaktiga AI:et mycket väl vara en bestående verklighet. Narayanan föreslår att man bara ska använda sådana modeller när faktagranskning går snabbare än att göra egen research, medan Bender rekommenderar att undvika att vara beroende av AI-chatbottar för faktainformation helt och hållet.



Brief news summary

Nya framsteg inom AI-chatbottar från företag som OpenAI och Google, med fokus på att förbättra resonemang och noggrannhet, har paradoxalt nog lett till ökade hallucinationsfrekvenser – fall där modeller genererar falsk eller vilseledande information och misslyckas med att följa instruktioner korrekt. Till exempel visar OpenAI:s nyare modeller o3 och o4-mini hallucinationsfrekvenser på 33 % respektive 48 %, jämfört med 16 % för den äldre o1-modellen, och liknande mönster har observerats i modeller som DeepSeek-R1. Trots dessa utmaningar hävdar OpenAI att resonemangskomponenterna inte är boven och fortsätter arbeta för att minska hallucinationerna. Detta problem är särskilt kritiskt inom områden som forskning, juridisk rådgivning och kundservice, där felaktigheter kan få allvarliga konsekvenser. Utvärderingar från Vectara visar minimala skillnader i hallucinationsfrekvenser mellan resonemangs- och icke-resonemangsmodeller, även om datamängden är begränsad. Experter varnar för att termen "hallucination" förenklar komplexa problem som innebär beroende av föråldrad eller opålitlig data. Givet de kvarstående felaktigheterna föreslår vissa att användningen av AI-chatbottar begränsas till scenarier där verifiering av information är enklare än egen faktakoll. Sammanfattningsvis förblir hallucinationer ett betydande olöst problem inom AI-språkmodeller.
Business on autopilot

AI-powered Lead Generation in Social Media
and Search Engines

Let AI take control and automatically generate leads for you!

I'm your Content Manager, ready to handle your first test assignment

Language

Content Maker

Our unique Content Maker allows you to create an SEO article, social media posts, and a video based on the information presented in the article

news image

Last news

The Best for your Business

Learn how AI can help your business.
Let’s talk!

May 10, 2025, 9:47 p.m.

Robinhood utvecklar blockchain-baserat program fö…

Robinhood arbetar på en blockchain-baserad plattform som syftar till att ge europeiska handlare tillgång till amerikanska finansiella tillgångar, enligt två källor som är bekanta med situationen och som talat med Bloomberg.

May 10, 2025, 9:02 p.m.

OpenAI lanserar o3-mini: Snabb, smart och prisvär…

OpenAI har lanserat o3-mini, en ny modell för artificiell intelligens för resonemang, specifikt utformad för att förbättra precisionen vid matematiska beräkningar, kodningsuppgifter och vetenskapliga problemlösningar.

May 10, 2025, 8:22 p.m.

Tethers USDT lanseras på Kaia Blockchain och utök…

Stablecoin-utgivaren Tether har tillkännagett att dess inhemska USDT-stablecoin ska implementeras på Kaia-blockchain, ett Layer 1-nätverk som lanserades i augusti 2024.

May 10, 2025, 7:29 p.m.

Elton John och Dua Lipa efterlyser skydd mot AI

Dua Lipa, Sir Elton John, Sir Ian McKellen, Florence Welch och över 400 andra brittiska musiker, författare och artister har uppmanat premiärministern Sir Keir Starmer att uppdatera upphovsrättslagarna för att skydda skapare från missbruk av deras verk av artificiell intelligens (AI).

May 10, 2025, 6:49 p.m.

Blockchain:s roll i initiativ för finansiell inkl…

Blockchainteknologi erkänns alltmer som ett kraftfullt verktyg för att främja finansiell inkludering globalt, särskilt för obankade och underbetjänade befolkningar som saknar tillgång till traditionella banktjänster.

May 10, 2025, 5:14 p.m.

Blockkedjan inom hälsa: Säkerställande av patient…

Hälso- och sjukvårdsbranschen genomgår en stor omvälvning genom att anta blockchain-teknologi för att förbättra säkerheten och hanteringen av patientjournaler.

May 10, 2025, 4:16 p.m.

Pope Leo XIV presenterar sin vision och pekar ut …

VATICANSTAD (AP) — På lördagen beskrev påve Leo XIV sin vision för sitt pontifikat och lyfte fram artificiell intelligens (AI) som en avgörande utmaning för mänskligheten samt lovade att fortsätta de huvudprioriteringar som påve Francis har fastställt.

All news