MITA-spjallmenntaleyfar eru áframhaldandi villumálsásáhrif sem ógna áreiðanleika

Gervigreindar spjallbotar frá leiðandi tæknifyrirtækjum eins og OpenAI og Google hafa undanfarið fengið úrbætur á rökfræði til að auka áreiðanleika svaranna. En nýleg próf sýna að sum nýrri módel standa verr en eldri útgáfur, og sýna þannig fyrirbærið sem kallast „heilkenni“ — villur þar sem spjallbotar framleiða röngar upplýsingar eða gefa svör sem eru sönn að efni, en ekki viðeigandi eða samræmast ekki leiðbeiningum. Þetta vandamál hefur komið fram síðan stórir tungumálamódel (LLM) eins og ChatGPT frá OpenAI og Gemini frá Google komu á markaðinn, og virðist rangt að búast við að þetta verði algjörlega leyst. Tækniskel á veggskjali frá OpenAI sýndi að módel þeirra sem kom út í apríl, o3 og o4-mini, höfðu mun meira heilkennisprósentu en eldra o1-módel frá síðasta árs: o3 hafði 33% heilkennisprósentu, o4-mini 48%, en o1 aðeins 16%, þegar verið var að draga saman staðreyndir sem eru opinberlega tiltækar. Á sama hátt fann Vectara á lista sínum yfir heilkennisprósentu að sum rökfræðimódel — þar á meðal DeepSeek-R1 — höfðu aukningu í heilkennum samanborið við fyrri gerðir, þrátt fyrir að þau noti margskiptar rökfræðiaðferðir áður en þau svara. OpenAI heldur því fram að rökfræðiaðferðir séu ekki sjálfkrafa ábyrg fyrir aukningu heilkenna og vinna að rannsóknum til að minnka heilkenni í öllum módelum. Þessi viðvarandi heilkenni ógnar mörgum notkunarmöguleikum: módel sem gefa oftum röngum upplýsingum trufla vísindaleg rannsóknarverkfæri; lögfræðihjálparspjallmenntur sem vitna í óskráð mál, gætu valdið lögfræðivillum; og þjónustuspjallmenntur með úreltar upplýsingar valda störfumótum og truflun. Áður fyrr þvíuðu AI-fyrirtæki að heilkenni myndi minnka með tímanum, þar sem smávægilegar endurbætur á módelum sýndu framfarir. En nýleg aukning í heilkennum krefst þess að horfa öðruvísi á þróunina, sama hversu rökfræðihneigðin er. Vectara-listinn sýnir að heilkennisprósenta er tiltölulega svipuð í módelum með rökum og án þeirra frá OpenAI og Google, þó að nákvæmustu tölurnar skipti minna máli en hvernig staðan er í samanburði.
Google vildi ekki tjá sig um málið. En slíkar staðhæfingar hafa takmörk. Þær blanda mismunandi gerðum heilkenna; til dæmis var helmingur heilkennis DeepSeek-R1’s, 14, 3%, „góðvildar“ gerðir — svör sem eru rökréttar og styðjast við þekkingu, en eru úrlausninni eða innskotsum vasit texta. Einnig getur prófun einungis út frá textaóssamstæðu ekki endurspeglað tíðni heilkenna í aðrar verkefni, þar sem LLM eru ekki hönnuð sérstaklega til þess að draga saman. Emily Bender við Háskólann í Washington stuðlar að því að þessar gerðir af módelum spá líklegustu næstu orðum frekar en að vinna með upplýsingarnar til að skilja textann í raun og veru, og kallast „heilkenni“ bæði gefið og rangt. Bender gagnrýnir „heilkenni“ sem vandamál vegna þess að það gefur til kynna að villur séu einstök undantekning í vanalega áreiðanlegum kerfum, og að það eigi við um AI sem hafi mannlega skynjun, sem það ekki. Arvind Narayanan við Princeton bætir við að módel geti líka gert villur með því að treysta á óáreiðanlegar eða úreltar upplýsingar, og að það hafi ekki leyst þessi vandamál að aðeins bæta við gögn eða aukið útreikningaafl. Þannig gæti villurótt AI verið varanleg rauntíð. Narayanan leggur til að nota slík módel aðeins þegar staðfesting á staðreyndum tekur minna tíma en að gera frumrannsókn, en Bender mælir með því að forðast algjörlega að treysta á AI-spjallmenntun til að gefa sönn gögn.
Brief news summary
Nýlegar þróaðar útfærslur á gervigreindarspjallbotum frá fyrirtækjum eins og OpenAI og Google, sem einblína á að bæta rökhugsun og nákvæmni, hafa á móti komið auknum hlutum af ranghugmyndum—tilvikum þar sem módel framleiða falskar eða villandi upplýsingar og ekki fylgja leiðbeiningum rétt. Til dæmis sýna nýjustu módel OpenAI, o3 og o4-mini, hallucination hlutfall upp á 33% og 48%, samanborið við 16% hjá eldri o1-manninum, með svipaða þróun í módelum eins og DeepSeek-R1. Þrátt fyrir þessi vandamál fullyrðir OpenAI að rökhugsunarkeflarnir séu ekki að valda og halda áfram að vinna að því að draga úr ranghugmyndum. Þetta mál er sérstaklega mikilvægt í sviðum eins og rannsóknarstarfi, lögfræðilegu ráðgjöf og þjónustu við viðskiptavini, þar sem villur geta leitt til alvarlegra afleiðinga. Mat Vectara sýnir að munur á tíðni ranghugmynda er litill á milli rökhugsunarmódela og annarra, þó gögnin séu takmörkuð. Sérfræðingar vara við því að „ranghugmynd“ einfaldi flókin vandamál sem byggja á ótíma- eða óáreiðanlegum gögnum. Með óunna villum eru sumir farnir að leggja til að takmarka notkun gervigreindarspjallbóta við aðstæður þar sem auðvelt er að sannreyna upplýsingar, fremur en að treysta á sjálfstæða staðfestingu. Almennt séð eru ranghugmyndir enn eitt stóra vandamálið sem óunnum gervigreindarmódelum stendur enn opið.
AI-powered Lead Generation in Social Media
and Search Engines
Let AI take control and automatically generate leads for you!

I'm your Content Manager, ready to handle your first test assignment
Learn how AI can help your business.
Let’s talk!

Robinhood að þróa blokkarkeðjubundið forrit til a…
Robinhood er að vinna að vettvangi byggðum á blokkarkeðju sem miðar að því að veita evrópskum kaupendum aðgang að fjármálainnskjám Bandaríkjanna, samkvæmt tveimur heimildarmönnum sem þekktu til málsins og töluðu við Bloomberg.

OpenAI kynnti o3-mini: Fljótlegt, snjallt og ódýr…
OpenAI hefur frumsýnt o3-mini, nýtt gervigreintíðsgreiningarlíkan sem er sérstaklega hannað til að bæta nákvæmni í stærðfræðilegum útreikningum, forritun verkefnum og vísindalegri lausn vandamála.

Tether's USDT hefir komið á Kaia blokkorku, eykur…
Stabílkornseigandi Tether hefur tilkynnt að nýta eigið USDT stöðugjaldskorn á Kaia blockchain, Layer 1 neti sem var rekið í ágúst 2024.

Elton John og Dua Lipa leita verndar gegn gervigr…
Dua Lipa, Sir Elton John, Sir Ian McKellen, Florence Welch og yfir 400 aðrir breskir tónlistarmenn, rithöfundar og listamenn hafa hvatt forsætisráðherra Sir Keir Starmer til að uppfæra höfundaréttarreglur til að vernda skapara gegn misnotkun á verki þeirra af hálfu gervigreindar (AI).

Hlutverk blockchain í fjárhagslegri félagslegri i…
Tæknin á blockchain er sífellt viðurkennd sem öflugt verkfæri til að auka fjárhagslega þátttöku á heimsvísu, sérstaklega fyrir fólk án bankareikninga og þau sem fá ekki þjónustu frá hefðbundnum fjármálakerfum.

Blockað með þróun í heilbrigðiskerfi: Tryggja gög…
Heilbrigðisgeirinn gengur í gegnum mikla umbreytinu með innleiðingu reikniritatækni (blockchain) til að bæta öryggi og stjórnun á sjúklingastarfsemi.

Páfinn Leó XIV lýsir sýn sinni og nefnir gervigre…
VÍTÍKÍKÁRÍKÁ (AP) — Á laugardaginn lagði páfi Leo XIV fram sýn sína fyrir pápavist sína, þar sem hann lagði áherslu á gervigreind (GA) sem mikilvægasta áskorun mannkynsins og hét að halda áfram helstu áherslum Páfa Frakkárs.