lang icon En
May 10, 2025, 5:50 p.m.
4319

Chatbottest me AI përballen me probleme të vazhdueshme të "halucinacioneve", që ndikojnë në besueshmërinë e tyre

Brief news summary

Përparimet e fundit në chatbotët inteligjentë artificiale nga kompani si OpenAI dhe Google, të fokusuara në përmirësimin e razonimit dhe saktësisë, kanë sjellë paradoksalisht një rritje të shkallës së hallucinationeve— raste ku modelet gjenerojnë informacion të gabuar ose të mashtre dhe dështojnë të respektojnë në mënyrë të duhur udhëzimet. Për shembull, modelet më të reja o3 dhe o4-mini të OpenAI shfaqin shkallë hallucinationesh prej 33% dhe 48%, krahasuar me 16% për modelin më të vjetër o1, duke shënuar trende të ngjashme edhe në modele si DeepSeek-R1. Pavarësisht këtyre sfidave, OpenAI pohon se komponentët e razonimit nuk janë shkaku kryesor dhe vazhdon të punojë për uljen e hallucinationeve. Ky problem është veçanërisht i rëndësishëm në fusha si kërkimi shkencor, këshillimi ligjor dhe shërbimi ndaj klientit, ku gabimet mund të shkaktojnë pasoja serioze. Vlerësimet nga Vectara tregojnë ndryshime të vogla në frekuencën e hallucinationeve midis modeleve që përdorin razonimin dhe atyre pa të, megjithatë të dhënat mbeten të kufizuara. Ekspertët paralajmërojnë se termi “hallucination” e thjeshton shumë problemin kompleks që përfshin varësinë nga të dhëna të vjetëruara ose të pabesueshme. Duke qenë se gabimet janë të qëndrueshme, disa sugjerojnë që përdorimi i chatbotëve të AI të kufizohet në situata ku verifikimi i informacionit është më i thjeshtë se vërtetimi i pavarur i fakteve. Në përgjithësi, hallucinationet mbeten një problem kryesor i papërmirësuar në modelet gjuhësore të AI-së.

Bisht Teknologji si OpenAI dhe Google janë përditësuar kohët e fundit për të përmirësuar arsyetimin në chatbote, në përpjekje për rritjen e besueshmërisë së përgjigjeve. Megjithatë, teste të fundit zbulojnë se disa modele më të reja performojnë më keq se versionet e kaluara, duke shfaqur një fenomen të quajtur "llukje"—gabime ku chatbote gjenerojnë informacione të gënjeshtëta ose japin përgjigje që janë faktikisht të sakta por të papërfshira ose jopërputhëse me instrukcionet. Ky problem ka vazhduar që nga fillimi i modeleve të mëdha të gjuhës (LLM), si ChatGPT i OpenAI dhe Gemini i Google, dhe duket se nuk do të zgjidhet plotësisht. Një raport teknik i OpenAI tregoi se modelet e lëshuar në prill, o3 dhe o4-mini, kishin norma shumë më të larta të llukjeve sesa modeli më i vjetër o1 nga fundi i 2024: o3 kishte një normë llukjesh prej 33%, o4-mini 48%, krahasuar me 16% për o1, kur përmbledheshin faktet e disponueshme publikisht. Ngjashmërisht, tabela e Vectara-s që ndjek normat e llukjesh, gjeti që disa modele të arsyetimit—përfshirë DeepSeek-R1—përjetuan rritje të dukshme të llukjeve krahasuar me paraardhësit, edhe pse përdornin qasje me shumë hapa arsyetimi para përgjigjes. OpenAI konfirmon se procese të arsyetimit nuk janë atëherë përgjegjëse për rritjen e llukjeve dhe është aktive në kërkimin e mënyrave për të reduktuar llukjet në të gjitha modelet. Ky fenomen kërcënon disa aplikacione: modelet që shpesh prodhojnë gënjeshtra pengojnë ndihmën në kërkim shkencor; botët paralegalë që citojnë raste të pavërteta rrezikojnë gabime ligjore; botët e shërbimit të klientit me informacione të vjetëruara shkaktojnë probleme operative. Fillimisht, kompanitë e AI prisnin që llukjet të zbeheshin në kohë, duke pasur parasysh përmirësimet në modelet e para, por nivelet më të larta të fundit sfidojnë këtë pritshmëri, pavarësisht nga përfshirja e arsyetimit. Tabla e Vectara-s tregon që normat e llukjeve janë afërsisht të barabarta në modelet me dhe pa arsyetim nga OpenAI dhe Google, edhe pse numrat të saktë kanë më pak rëndësi sesa renditjet relative.

Google nuk bëri komente për këtë çështje. Megjithatë, këto renditje kanë kufizime. Ato janë të përziera me lloje të ndryshme llukjesh; për shembull, 14. 3% e llukjeve të DeepSeek-R1 kryesisht përbëheshin nga raste “jo-dëmtuese”—përgjigje logjikisht të qëndrueshme dhe të mbështetura nga njohuria, por që mungonin në tekstin burimor. Po kështu, testimi bazuar vetëm në përmbledhjen e tekstit mund të mos tregojë frekuencën e llukjeve në detyra të tjera, pasi LLM-të nuk janë krijuar posaçërisht për përmbledhje. Emily Bender nga Universiteti i Washington-it thekson se këto modele parashikojnë fjalët më të mundshme pasuese, jo duke përpunuar informacionin për të kuptuar vërtet tekstin, duke e bërë termin "llukje" edhe të gabueshëm edhe antropomorfik. Bender kritikoi termin "llukje" si problematik sepse nënkupton që gabimet janë devijime në sisteme të tjera të besueshme dhe i atribuon perceptim të ngjashëm me njeriun AI-së, gjë që nuk "percepton" në asnjë mënyrë. Arvind Narayanan i Princeton-thekson se modelet gabojnë edhe për shkak të përdorimit të të dhënave të paverfetuara ose të vjetëruara, dhe shtimi i të dhënave të trajnimit ose rritja e fuqisë së përpunimit nuk kanë qenë në gjendje të zgjidhin këto probleme. Prandaj, AI-ja që gabon vazhdimisht mund të jetë një realitet i përhershëm. Narayanan sugjeron që këto modele të përdoren vetëm kur verifikimi i fakteve është më i shpejtë se sa kërkimi origjinal, ndërsa Bender këshillon që të shmanget plotësisht mbështetja tek chatboto AI për informacion të saktë.


Watch video about

Chatbottest me AI përballen me probleme të vazhdueshme të "halucinacioneve", që ndikojnë në besueshmërinë e tyre

Try our premium solution and start getting clients — at no cost to you

I'm your Content Creator.
Let’s make a post or video and publish it on any social media — ready?

Language

Hot news

Dec. 12, 2025, 1:42 p.m.

Disney dërgon urdhër ndalimi dhe ndalues për Goog…

Kompania Walt Disney ka ndërmarrë një veprim të rëndësishëm ligjor kundër Google duke lëshuar një letër ndalimi dhe paralajmërimi, duke akuzuar gjigantin teknologjik për shkelje të të drejtave të autorit mbi përmbajtjen e Disney-t gjatë trajnimit dhe zhvillimit të modeleve të inteligjencës artificiale (AI) gjeneruese pa ofruar kompensim.

Dec. 12, 2025, 1:35 p.m.

Inteligjenca Artificiale dhe E ardhmja e Optimizi…

Ndërsa inteligjenca artificiale (IA) përparon dhe gjithnjë e më shumë integron në marketingun digjital, ndikimi i saj në optimizimin e motorëve të kërkimit (SEO) bëhet gjithnjë e më i dukshëm.

Dec. 12, 2025, 1:33 p.m.

Inteligjenca Artificiale: Planifikimi MiniMax dhe…

MiniMax dhe Zhipu AI, dy kompani kryesore të inteligjencës artificiale, raportohen se po përgatiten të dalin në publik në Bursën e Hong Kongut sa më shpejt në janar të vitit të ardhshëm.

Dec. 12, 2025, 1:31 p.m.

OpenAI emëron CEO-n e Slack, Denise Dresser, si D…

Denise Dresser, CEO e Slack-ut, është gati të largohet nga pozicioni i saj për t'u bërë Drejtorja Kryesore e të Ardhurave në OpenAI, kompaninë pas ChatGPT-së.

Dec. 12, 2025, 1:30 p.m.

Teknikat e Sintezës së Videos me Inteligjencë Art…

Industria e filmit po përjeton një transformim të madh, ndërsa studio gjithnjë e më shumë po integrojnë teknologjitë e sintezës së videos me inteligjencë artificiale (IA) për të përmirësuar rrjedhën e punës në post-prodhim.

Dec. 12, 2025, 1:24 p.m.

19 mjetet më të mira artificiale për mediat socia…

AI po revolucionarizon marketingun në rrjete sociale duke ofruar mjete që thjeshtësojnë dhe përmirësojnë angazhimin e audiencës.

Dec. 12, 2025, 9:42 a.m.

Influencuesit AI në Rrjetet Sociale: Mundësi dhe …

Shfaqja e influencuesve të krijuar nga Inteligjenca artificiale në rrjete sociale përbën një ndryshim të madh në mjedisin digjital, duke shkaktuar debate të shfrenuara mbi autenticitetin e ndërveprimeve online dhe shqetësimet etike lidhur me këto personazhe virtuale.

All news

AI Company

Launch your AI-powered team to automate Marketing, Sales & Growth

and get clients on autopilot — from social media and search engines. No ads needed

Begin getting your first leads today