lang icon Dutch
Auto-Filling SEO Website as a Gift

Launch Your AI-Powered Business and get clients!

No advertising investment needed—just results. AI finds, negotiates, and closes deals automatically

May 10, 2025, 5:50 p.m.
3

AI-chatbots kampen met hardnekkige hallucinatieproblemen die de betrouwbaarheid beïnvloeden

AI-chatbots van toonaangevende technologiebedrijven zoals OpenAI en Google krijgen de laatste maanden verbeteringen in hun redeneringsvermogen om de betrouwbaarheid van hun antwoorden te vergroten. Uit recente tests blijkt echter dat sommige nieuwere modellen slechter presteren dan eerdere versies, en een fenomeen vertonen dat "hallucinaties" wordt genoemd—fouten waarbij chatbots valse informatie genereren of antwoorden geven die feitelijk correct maar irrelevant of niet in overeenstemming met de instructies zijn. Dit probleem bestaat al sinds het ontstaan van grote taalmodellen (LLM's) zoals OpenAI’s ChatGPT en Google’s Gemini, en het lijkt onwaarschijnlijk dat het volledig opgelost wordt. Een technisch rapport van OpenAI toonde aan dat hun in april uitgebrachte o3- en o4-mini-modellen significant hogere hallucinatiepercentages hadden dan de oudere o1 van eind 2024: o3 had een hallucinatiepercentage van 33%, o4-mini 48%, vergeleken met 16% voor o1, bij het samenvatten van openbaar beschikbare feiten. Evenzo ontdekte Vectara’s ranglijst die hallucinatiepercentages bijhoudt dat sommige redeneringsmodellen— waaronder DeepSeek-R1—merkbare stijgingen in hallucinaties lieten zien in vergelijking met voorgangers, ondanks hun meerlagige redeneerproces voordat ze antwoorden gaven. OpenAI beweert dat redeneringsprocessen niet per se verantwoordelijk zijn voor de toename van hallucinaties en doet actief onderzoek naar manieren om hallucinaties in alle modellen te verminderen. Het aanhouden van hallucinaties bedreigt verschillende toepassingen: modellen die vaak onwaarheden produceren, belemmeren onderzoeksassistentie; paralegale bots die niet-bestaande rechtszaken aanhalen, riskeren juridische fouten; klantenservice-bots met verouderde informatie veroorzaken operationele problemen. Aanvankelijk verwachtten AI-bedrijven dat hallucinaties in de loop van de tijd zouden afnemen, aangezien vroege modelupdates verbeteringen lieten zien. Maar de recent hogere hallucinatieniveaus roepen dit verwachtingspatroon in twijfel, ongeacht het redeneringsproces. Vectara’s ranglijst geeft aan dat de hallucinatiepercentages ongeveer gelijk zijn bij redenerings- en niet-reasonerende modellen van OpenAI en Google, hoewel exacte cijfers minder belangrijk zijn dan de relatieve positie.

Google wilde niet reageren. Echter, zulke ranglijsten hebben beperkingen. Ze mengen verschillende soorten hallucinaties; bijvoorbeeld bestond het 14, 3% hallucinatiepercentage van DeepSeek-R1 vooral uit "onschuldige" gevallen—antwoorden die logisch klinken en door kennis ondersteund worden, maar niet in de brontekst voorkomen. Bovendien reflecteert testen die uitsluitend gebaseerd zijn op tekstsamenvatting mogelijk niet de frequentie van hallucinaties in andere taken, aangezien LLM’s niet specifiek ontworpen zijn voor samenvatten. Emily Bender van de Universiteit van Washington benadrukt dat deze modellen voorspellen wat waarschijnlijk het volgende woord is in plaats van informatie te verwerken om de tekst echt te begrijpen, waardoor de term "hallucinaties" zowel misleidend als antropomorfiserend is. Bender bekritiseert "hallucinatie" omdat het impliceert dat fouten afwijkingen zijn in verder betrouwbare systemen en menselijke perceptie toeschchrijft aan AI, dat in geen enkel opzicht "waarnemen" doet. Arvind Narayanan van Princeton voegt toe dat modellen ook fouten maken door te vertrouwen op onbetrouwbare of verouderde data, en dat simpelweg meer training data of rekenkracht deze problemen niet opgelost hebben. Als gevolg daarvan kan foutgevoelige AI een blijvend gegeven zijn. Narayanan suggereert dat dergelijke modellen alleen gebruikt moeten worden wanneer factchecking sneller gaat dan eigen onderzoek doen, terwijl Bender aanbeveelt om helemaal niet te vertrouwen op AI-chatbots voor feitelijke informatie.



Brief news summary

Recente ontwikkelingen in AI-chatbots door bedrijven als OpenAI en Google, gericht op het verbeteren van redenering en nauwkeurigheid, hebben paradoxaal genoeg geleid tot een hogere hallucinatieratio—gevallen waarin modellen valse of misleidende informatie genereren en niet goed specificaties naleven. Bijvoorbeeld, de nieuwere modellen van OpenAI, o3 en o4-mini, vertonen hallucinatieratio's van respectievelijk 33% en 48%, tegenover slechts 16% voor het oudere o1-model, met soortgelijke tendensen bij modellen zoals DeepSeek-R1. Ondanks deze uitdagingen beweert OpenAI dat de redeneeraspecten niet de schuld zijn en blijft het team werken aan het verminderen van hallucinaties. Dit probleem is vooral kritiek in vakgebieden zoals onderzoek, juridisch advies en klantenservice, waar onjuistheden ernstige gevolgen kunnen hebben. Evaluaties door Vectara tonen minimale verschillen in hallucinatieratio’s tussen redeneermodellen en niet-redeneermodellen, hoewel de beschikbare data beperkt blijft. Experts waarschuwen dat de term “hallucinatie” een vereenvoudiging is van complexe problemen waarin afhankelijkheid van verouderde of onbetrouwbare data een rol speelt. Gezien de aanhoudende onjuistheden suggereren sommigen dat het gebruik van AI-chatbots beperkt zou moeten blijven tot scenario’s waarin het verifiëren van informatie eenvoudiger is dan het uitvoeren van onafhankelijke feitchecking. Over het algemeen blijven hallucinaties een groot, nog onbekend probleem in AI-taalmodellen.
Business on autopilot

AI-powered Lead Generation in Social Media
and Search Engines

Let AI take control and automatically generate leads for you!

I'm your Content Manager, ready to handle your first test assignment

Language

Content Maker

Our unique Content Maker allows you to create an SEO article, social media posts, and a video based on the information presented in the article

news image

Last news

The Best for your Business

Learn how AI can help your business.
Let’s talk!

May 10, 2025, 10:30 p.m.

Grok is Elon Musk's enige bondgenoot in een hypot…

Als men gedwongen zou worden te kiezen tussen Elon Musk en Sam Altman om de AI-wapenwedloop te leiden met de toekomst van de mensheid op het spel, gunden kunstmatig intelligente chatbots vooral Altman de voorkeur, behalve voor Musk’s Grok, dat aan de zijde van Musk stond.

May 10, 2025, 9:47 p.m.

Robinhood ontwikkelt blockchain-gebaseerd program…

Robinhood werkt aan een op blockchain gebaseerd platform dat Europese handelaren toegang moet geven tot Amerikaanse financiële activa, volgens twee bronnen die bekend zijn met de situatie en met Bloomberg spraken.

May 10, 2025, 9:02 p.m.

OpenAI lanceert o3-mini: snel, slim en betaalbaar…

OpenAI heeft o3-mini onthuld, een nieuw kunstmatig intelligentie-redinctiemodel dat specifiek is ontworpen om de nauwkeurigheid bij wiskundige berekeningen, programmeertaken en wetenschappelijke probleemoplossing te verbeteren.

May 10, 2025, 8:22 p.m.

Tether’s USDT lanceert op Kaia Blockchain en brei…

Stablecoin-uitgever Tether heeft de inzet aangekondigd van zijn native USDT-stablecoin op de Kaia-blockchain, een Layer 1-netwerk dat in augustus 2024 werd gelanceerd.

May 10, 2025, 7:29 p.m.

Elton John en Dua Lipa zoeken bescherming tegen AI

Dua Lipa, Sir Elton John, Sir Ian McKellen, Florence Welch en meer dan 400 andere Britse muzikanten, schrijvers en kunstenaars hebben premier Sir Keir Starmer opgeroepen om de auteursrechtenwetgeving bij te werken om makers te beschermen tegen misbruik van hun werken door kunstmatige intelligentie (AI).

May 10, 2025, 6:49 p.m.

De rol van blockchain bij initiatieven voor finan…

Blockchain-technologie wordt steeds meer erkend als een krachtig hulpmiddel om wereldwijde financiële inclusie te bevorderen, vooral voor onbankierten en onderbediende bevolkingsgroepen die geen toegang hebben tot traditioneel banking.

May 10, 2025, 5:14 p.m.

Blockchain in de Gezondheidszorg: Beveiliging van…

De gezondheidszorgsector ondergaat een grote transformatie door de adoptie van blockchain-technologie om de beveiliging en het beheer van patiëntendossiers te verbeteren.

All news