Ang mga AI Chatbot ay Patuloy na Nakakaranas ng Problema sa Pagkakaroon ng Walang Katotohanang Pagkakatao na Nakakaapekto sa kanilang Bisa

Ang mga AI chatbot mula sa mga nangungunang kumpanya sa teknolohiya tulad ng OpenAI at Google ay nakakatanggap ng mga pag-ayos sa reasoning sa mga nakaraang buwan upang mapahusay ang pagiging maaasahan ng kanilang mga sagot. Gayunpaman, ipinapakita ng mga kamakailang pagsusuri na ang ilan sa mga mas bagong modelo ay mas masahol pa kaysa sa mga naunang bersyon, na nagpapakita ng isang phenomena na tinatawag na "hallucinations"—mga error kung saan ang mga chatbot ay gumagawa ng mga maling impormasyon o nagbibigay ng mga sagot na tama sa katotohanan ngunit hindi makabuluhan o hindi sumusunod sa mga instruksyon. Matagal nang nananatili ang isyung ito mula nang maitatag ang mga malalaking modelo ng wika (LLMs) tulad ng ChatGPT ng OpenAI at Gemini ng Google, at tila hindi ito ganap na malulutas. Ipinakita ng isang ulat teknikal mula sa OpenAI na ang kanilang mga modelong o3 at o4-mini na inilabas noong Abril ay may mas mataas na porsyento ng hallucination kumpara sa mas luma nilang modelo na o1 mula huling bahagi ng 2024: ang o3 ay may 33% na hallucination rate, ang o4-mini ay 48%, kumpara sa 16% para sa o1, kapag nagbubuod ng mga pampublikong impormasyon. Ganun din, natuklasan sa leaderboard ng Vectara na ang ilang mga reasoning models—kabilang na ang DeepSeek-R1—ay nakaranas ng makabuluhang pagtaas sa hallucinations kumpara sa mga nauna, sa kabila ng kanilang multi-step reasoning bago magbigay ng sagot. Pinanghahawakan ng OpenAI na ang mga proseso ng pangangatwiran ay hindi likas na dahilan ng pagtaas ng hallucinations at aktibong nagsasaliksik ng mga paraan upang mabawasan ang hallucinations sa lahat ng kanilang mga modelo. Ang pagpupumilit na ito ay nagdudulot ng banta sa ilang aplikasyon: ang mga modelong madalas gumawa ng mga maling impormasyon ay nakasasagabal sa tulong sa pananaliksik; ang mga paralegal bot na nagsasaliksik ng mga walang-gaanong kaso ay nanganganib na magdulot ng mga legal na kamalian; ang mga customer service bot na may luma nang impormasyon ay nagdudulot ng mga problema sa operasyon. Sa simula, inaasahan ng mga kumpanya ng AI na ang hallucinations ay bababa sa paglipas ng panahon, dahil nagsimula nang magpakita ng mga pag-ayos ang mga unang update ng modelo. Ngunit, ang mga kamakailang mas mataas na porsyento ng hallucinations ay hamon sa pananaw na ito, anuman ang usapin ng reasoning. Ipinapakita ng leaderboard ng Vectara na halos pantay ang bilang ng hallucinations sa mga reasoning at non-reasoning na modelo mula sa OpenAI at Google, kahit na mas mahalaga ang mga relasyong ranggo kaysa sa eksaktong numero.
Tumanggi ang Google na magkomento tungkol dito. Gayunpaman, may mga limitasyon ang ganitong mga ranggo. Pinagsasama-sama nila ang iba't ibang uri ng hallucinations; halimbawa, ang 14. 3% na hallucination rate ng DeepSeek-R1 ay pangunahing binubuo ng mga "benign" na kaso—mga sagot na lohikal at suportado ng kaalaman ngunit wala sa teksto ng pinagmulan. Bukod dito, ang pagsusuri na nakatutok lamang sa pagbuo ng buod ng teksto ay maaaring hindi sumasalamin sa dalas ng hallucinations sa ibang gawain, dahil ang mga LLM ay hindi partikular na idinisenyo para sa pagbubuod. Binibigyang-diin ni Emily Bender ng University of Washington na ang mga modelong ito ay nagpo-prodyus ng mga malamang na susunod na salita sa halip na totoo nilang pinoproseso ang impormasyon upang tunay na maunawaan ang teksto, kaya ang terminong "hallucination" ay parehong nakalilito at nakakatawan sa tao. Pinuna ni Bender ang "hallucination" bilang isang problemang terminolohiya dahil ipinapahiwatig nitong ang mga mali ay mga aberrasyon sa mga karaniwang mapagkakatiwalaang sistema, at iniuugnay nito ang human-like perception sa AI, na hindi naman talaga nakararamdam o nakakaunawa. Idinagdag ni Arvind Narayanan ng Princeton na ang mga modelo ay nagkakamali rin sa pamamagitan ng pag-asa sa hindi mapagkakatiwalaang o luma nang datos, at ang simpleng pagdaragdag ng training data o computing power ay hindi pa rin nakaaayos sa mga problemang ito. Dahil dito, posibleng maging isang pangmatagalang katotohanan ang error-prone na AI. Hinihikayat ni Narayanan na gamitin lamang ang mga ganitong modelo kapag mas mabilis ang fact-checking kaysa sa paggawa ng orihinal na pananaliksik, habang inirerekomenda ni Bender na iwasan ang pagbibigay-sentral sa AI chatbots para sa factual na impormasyon nang buo.
Brief news summary
Ang mga kamakailang pag-unlad sa AI chatbots ng mga kumpanyang tulad ng OpenAI at Google, na nakatuon sa pagpapahusay ng pangangatwiran at katumpakan, ay salungat na nagresulta sa pagtaas ng bilang ng mga hallucination—mga pagkakataon kung saan ang mga modelo ay gumagawa ng maling o nakalilinlang na impormasyon at hindi sumusunod nang maayos sa mga tagubilin. Halimbawa, ang mga bagong modelo ng OpenAI tulad ng o3 at o4-mini ay nagpapakita ng mga hallucination rate na 33% at 48%, kumpara sa 16% ng mas lumang modelo na o1, na may kaparehong trend na nakikita sa mga modelo tulad ng DeepSeek-R1. Sa kabila ng mga hamong ito, iginiit ng OpenAI na hindi dapat sisihin ang mga bahagi ng pangangatwiran at patuloy silang nagsusumikap na mabawasan ang mga hallucination. Mahalaga ang isyung ito sa mga larangan tulad ng pananaliksik, legal na payo, at serbisyo sa customer, kung saan ang mga mali ay maaaring magdulot ng seryosong resulta. Ipinapakita ng mga pagsusuri ng Vectara na kakaunti lamang ang pinagkaibahan sa dalas ng hallucination sa pagitan ng mga modelo na may pangangatwiran at walang pangangatwiran, bagamat limitado pa rin ang datos. Nagbababala ang mga eksperto na ang termino nilang “hallucination” ay nagpapasimple sa mga komplikadong problema na may kinalaman sa pag-asa sa luma o hindi maaasahang datos. Dahil sa patuloy na mga katiwalian, ilang nagsasabi na limitahan na lamang ang paggamit ng AI chatbots sa mga sitwasyong mas madali ang pag-verify ng impormasyon kaysa sa independiyenteng pagsusuri. Sa kabuuan, nananatiling isang malaking hindi pa maresolbang problema ang hallucinations sa mga modelong pangwika sa AI.
AI-powered Lead Generation in Social Media
and Search Engines
Let AI take control and automatically generate leads for you!

I'm your Content Manager, ready to handle your first test assignment
Learn how AI can help your business.
Let’s talk!

Robinhood Nagde-develop ng Blockchain-Based na Pr…
Pinagtatrabahuhan ng Robinhood ang isang platform na nakabase sa blockchain na layuning bigyan ang mga European trader ng access sa mga pinansyal na ari-arian sa U.S., ayon sa dalawang pinagkakatiwalaang source na nakapanayam ng Bloomberg.

Inilunsad ng OpenAI ang o3-mini: Mabilis, Matalin…
Inilabas ng OpenAI ang o3-mini, isang bagong modelo ng artipisyal na katalinuhan na pangangatwiran na partikular na idinisenyo upang mapahusay ang katumpakan sa mga kalkulasyong matematikal, gawain sa coding, at paglutas ng problemang pang-agham.

Inilunsad ng Tether ang kanilang USDT sa Kaia Blo…
Inanunsyo ng stablecoin issuer na Tether ang pag-deploy ng kanilang native USDT stablecoin sa Kaia blockchain, isang Layer 1 network na inilunsad noong Agosto 2024.

Nangangailangan si Elton John at Dua Lipa ng prot…
Si Dua Lipa, Sir Elton John, Sir Ian McKellen, Florence Welch, at higit sa 400 pang British na musikero, manunulat, at artista ay nanawagan kay Punong Ministro Sir Keir Starmer na i-update ang mga batas ukol sa copyright upang maprotektahan ang mga likha mula sa maling paggamit ng artificial intelligence (AI).

Ang Papel ng Blockchain sa mga Inisyatiba para sa…
Ang teknolohiyang blockchain ay lalong kinikilala bilang isang makapangyarihang kasangkapan sa pagpapalaganap ng financial inclusion sa buong mundo, partikular para sa mga walang banko at kabilang sa mga hindi nabibigyan ng sapat na serbisyo, na walang akses sa tradisyong bangko.

Blockchain sa Pangangalaga ng Kalusugan: Segurida…
Ang industriya ng pangangalagang pangkalusugan ay sumasailalim sa isang malaking pagbabago sa pamamagitan ng pagtanggap sa teknolohiyang blockchain upang mapabuti ang seguridad at pangangasiwa sa mga talaan ng kalusugan ng pasyente.

Ipinapakita ni Papa Leo XIV ang kanyang pangitain…
VATICAN CITY (AP) — Noong Sabado, inilatag ni Papa Leo XIV ang kanyang pananaw para sa kanyang pontipiko, binigyang-diin ang artipisyal na intelihensiya (AI) bilang isang mahalagang hamon na kinakaharap ng sangkatauhan at nangakong ipagpapatuloy ang mga pangunahing prayoridad na itinakda ni Papa Francisco.