Tekoäly-chatbotit kohtaavat pysyviä harhailluvaongelmia vaikuttaen luotettavuuteen

Tekoäly-chatbotit johtavilta teknologiayrityksiltä, kuten OpenAI ja Google, ovat viime kuukausina saaneet parannuksia päättelyn kyvyissään vastauksien luotettavuuden lisäämiseksi. Kuitenkin viimeaikaiset testit paljastavat, että jotkut uudemmat mallit suoriutuvat heikommin kuin aiemmat versiot, osoittaen ilmiön nimeltä "hallusinaatiot" – virheitä, joissa chatbotit tuottavat väärää tietoa tai antavat vastauksia, jotka ovat faktuaalisesti oikeita mutta merkitykseltään epäolennaisia tai vastoin ohjeita. Tämä ongelma on jatkunut suurten kielimallien (LLM), kuten OpenAI:n ChatGPT:n ja Google:n Gemini:n, alusta asti, eikä näytä todennäköiseltä, että se täysin ratkeaisi. OpenAI:n tekninen raportti osoitti, että sen huhtikuussa julkaisemat mallit o3 ja o4-mini olivat merkittävästi suuremmassa hallusinaatiovaiheessa kuin vanhempi o1-malli vuodelta 2024: o3:lla oli 33% hallusinaatioprosentti, o4-mini:llä 48%, kun taas o1-mallilla oli 16%, kun tiivistettiin julkisesti saatavilla olevia faktoja. Samoin Vectaran johtotason seurannan mukaan joidenkin päättelymallien, kuten DeepSeek-R1:n, hallusinaatiot kasvoivat selvästi verrattuna edeltäviin malleihin, vaikka ne käyttävätkin monivaiheista päättelyä vastauksia laatiessaan. OpenAI toteaa, että päättelyprosesseilla ei ole välitöntä vastuuta hallusinaatioiden lisääntymisestä, ja se aktiivisesti tutkii keinoja vähentää hallusinaatioita kaikissa malleissaan. Hallusinaatioiden jatkuminen uhkaa useita sovelluksia: mallit, jotka usein tuottavat virheellistä tietoa, haittaavat tutkimustukea; oikeudellisten tapausten olemassaolon väittämiseen perustuvat paralegal-botit aiheuttavat virheitä oikeudellisessa työssä; asiakaspalvelubotit, joilla on vanhentunutta tietoa, aiheuttavat toimintavaikeuksia. Alkujaan tekoälyyritykset odottivat hallusinaatioiden vähenevän ajan myötä, sillä varhaisissa mallipäivityksissä nähtiin parannuksia. Kuitenkin viimeaikaiset korkeammat hallusinaatioprosentit haastavat tämän ennusteen, riippumatta siitä, käytetäänkö päättelyä vai ei. Vectaran johtotaso osoittaa, että hallusinaatioprosentit ovat suurin piirtein samat päättelyä käyttävissä ja käyttämättömissä malleissa sekä OpenAI:n että Googlen osalta, vaikka tarkat luvut ovat vähemmän merkityksellisiä suhteellisten sijoitusten kannalta.
Google ei kommentoinut tilannetta. Kuitenkin tällaisilla sijoituksilla on rajoituksensa. Ne sekoittavat eri hallusinaation tyyppejä; esimerkiksi DeepSeek-R1:n 14, 3% hallusinaatioprosentti koostui pääosin "harmittomista" tapauksista – vastauksista, jotka ovat loogisesti päteviä ja tukevia tietoon, mutta puuttuvat lähdetekstistä. Lisäksi pelkkään tekstin tiivistämiseen perustuva testaus ei välttämättä heijasta hallusinaatioiden yleisyyttä muissa tehtävissä, sillä LLM:et eivät ole suunniteltu nimenomaan tiivistämään. Emily Bender Washingtonin yliopistosta korostaa, että nämä mallit ennustavat todennäköisiä seuraavia sanoja eivätkä käsittele tietoa saadakseen aikaan todellista ymmärrystä tekstistä, mikä tekee termin "hallusinaatio" harhaanjohtavaksi ja ihmisluontoiseksi antropomorfisena kuvauksena. Bender kriittisesti näkee "hallusinaation" ongelmallisena, koska se antaa kuvan, että virheet ovat poikkeavuuksia muuten luotettavissa järjestelmissä, ja ihmisen kaltaista havaintokykyä on liitetty tekoälyihin, jotka eivät käytännössä "näe" tai "käsitä" mitään. Princetonin Arvind Narayanan lisää, että mallit tekevät virheitä myös käyttämällä epäluotettavia tai vanhentuneita tietoja, ja pelkkä koulutusdatan tai laskentatehon lisääminen ei ole ratkaissut näitä ongelmia. Näin ollen virheisiin taipuvainen tekoäly saattaa olla pysyvä todellisuus. Narayanan ehdottaa, että tällaisia malleja tulisi käyttää vain silloin, kun faktantarkistus on nopeampaa kuin alkuperäisen tutkimuksen tekeminen, kun taas Bender suosittelee välttämään kokonaan luottamasta tekoälychatboteihin faktuaalisen tiedon lähteenä.
Brief news summary
Viimeaikaiset edistysaskeleet tekoälychatboteissa, joita kuten OpenAI ja Google ovat kehittäneet ja jotka keskittyvät parempaan päättelyyn ja tarkkuuteen, ovat paradoksaalisesti juurikin lisänneet harhaanjohtavien harhojen määrää—tilanteita, joissa mallit tuottavat virheellistä tai harhaanjohtavaa tietoa eivätkä noudata ohjeita kunnolla. Esimerkiksi OpenAI:n uudemmat o3- ja o4-mini-mallit osoittavat harhaluulottomuuden määriksi 33 % ja 48 %, kun taas vanhemman o1-mallin vastaavat prosentit ovat 16 %, ja samanlaisia suuntauksia on havaittu myös malleissa kuten DeepSeek-R1. Näistä haasteista huolimatta OpenAI väittää, että päättelykomponentit eivät ole syypäitä, ja jatkaa harhojen vähentämistyötä. Tämä ongelma on erityisen kriittinen aloilla kuten tutkimus, oikeudellinen neuvonta ja asiakaspalvelu, joissa virheet voivat johtaa vakaviin seurauksiin. Vectaran tekemissä arvioissa on todettu, että harhojen esiintymistiheydessä ei ole suuria eroja päättely- ja ei-päätelymalleissa, vaikka data on vielä rajallista. Asiantuntijat varoittavat, että termi “harhaluulo” yksinkertaistaa monimutkaisia ongelmia, joissa on kyse vanhentuneeseen tai epäluotettavaan dataan perustuvasta riippuvuudesta. Jatkuvien virheiden vuoksi jotkut ehdottavat tekoälychatbottien käytön rajoittamista tilanteisiin, joissa tietojen vahvistaminen on helpompaa kuin riippumaton faktantarkistus. Kokonaisuudessaan harhaluulot pysyvät suurena ratkaisemattomana ongelmana tekoälyn kielimalleissa.
AI-powered Lead Generation in Social Media
and Search Engines
Let AI take control and automatically generate leads for you!

I'm your Content Manager, ready to handle your first test assignment
Learn how AI can help your business.
Let’s talk!

Grok on Elon Muskin ainoa liittolainen hypoteetti…
Jos jouduttaisiin valitsemaan Elon Muskin ja Sam Altmannin välillä johtamaan tekoälykilpailua ihmiskunnan tulevaisuus vaakakupissa, tekoälychatbotit suosivat pääasiassa Altmannin, lukuun ottamatta Muskille omistettua Grokia, joka puolsi Muskkia.

Robinhood kehittää blockchain-pohjaista ohjelmist…
Robinhood työskentelee blockchain-pohjaisen alustan parissa, jonka tavoitteena on tarjota eurooppalaisille kauppiaille pääsy Yhdysvaltain rahoitusomaisuuksiin, kaksi lähdettä, jotka tuntevat tilanteen, kertoi Bloombergille.

OpenAI julkaisee o3-mini:n: Nopea, älykäs ja edul…
OpenAI on julkaissut o3-mini-nimisen uuden tekoälypohjaisen päättelymallin, joka on suunniteltu erityisesti parantamaan matemaattisten laskujen, koodaustehtävien ja tieteellisten ongelmien ratkaisemisen tarkkuutta.

Tetherin USDT julkaistaan Kaia-lohkoketjussa ja l…
Tether-pankkiirmistö on ilmoittanut natiivisen USDT-stablecoinin käyttöönotosta Kaian lohkoketjussa, joka on Layer 1 -verkko, käynnistetty elokuussa 2024.

Elton John ja Dua Lipa hakevat suojaa tekoälyltä
Dua Lipa, Sir Elton John, Sir Ian McKellen, Florence Welch ja yli 400 muuta britannialaista muusikkoa, kirjoittajaa ja taiteilijaa ovat kehottaet pääministeri Sir Keir Starmeria päivittämään tekijänoikeuslakeja suojellakseen luovia ammattilaisia tekoälyn (AI) väärinkäytöltä heidän teostensa osalta.

Loitatsijoitusaloitteissa blockchainin rooli
blockchain-teknologiaa pidetään yhä voimakkaammin tehokkaana työkaluna globaalin taloudellisen osallisuuden edistämisessä, erityisesti palveluja vailla olevien ja alipalvelussa olevien väestöryhmien keskuudessa, jotka eivät pääse käsiksi perinteisiin pankkipalveluihin.

Ledgeri lääketieteessä: Potilastietojen turvaamin…
Terveydenhuoltoala käy läpi suurta muutosta ottamalla käyttöön blockchain-teknologiaa parantaakseen potilastietojen turvallisuutta ja hallintaa.