Els xatbots d'IA afronten problemes persistents d'errades que afecten la fiabilitat

Els xatbots d'intel·ligència artificial de grans empreses tecnològiques com OpenAI i Google han estat rebent millores en el raonament els últims mesos per augmentar la fiabilitat de les respostes. No obstant això, proves recents revelen que alguns models més nous funcionen pitjor que versions anterior, mostrant un fenomen anomenat "al·lucinacions"—errors on els xatbots generen informació falsa o proporcionen respostes que són factàticament correctes però irrellevants o que no compleixen les instruccions. Aquest problema ha persistit des de la creació dels grans models de llenguatge (LLMs) com ChatGPT d’OpenAI i Gemini de Google, i sembla poc probable que es pugui resoldre completament. Un informe tècnic d’OpenAI va mostrar que els models o3 i o4-mini, llançats l’abril, tenien taxes d’al·lucinacions significativament més altes que l’antic model o1 de finals de 2024: o3 tenia una taxa d’al·lucinacions del 33%, o4-mini del 48%, comparat amb el 16% d’o1, quan resumien fets disponibles públicament. De manera similar, la classificació de Vectara, que fa seguiment de les taxes d’al·lucinacions, va descobrir que alguns models de raonament —com DeepSeek-R1— havien experimentat augments notables en al·lucinacions en comparació amb els models previs, tot i que utilitzen un enfocament de raonament en múltiples passos abans de donar una resposta. OpenAI manté que els processos de raonament no són inherentment responsables de l’augment d’al·lucinacions i està investigant activament maneres de reduir aquestes cites en tots els models. La persistència d’aquestes al·lucinacions amenaça diverses aplicacions: models que produeixen freqüentment falsedats bloquegen l’assistència en recerca; els xatbots paralegals que citen casos inexistents arrisquen errors legals; i els bots de servei al client amb informació desactualitzada causen problemes operatius. Inicialment, les empreses d’IA esperaven que les al·lucinacions disminuïssin amb el temps, ja que les actualitzacions primerenques dels models mostraven millores. Però, els nivells recents més alts desafien aquesta previsió, independentment de la participació del raonament. La classificació de Vectara indica que les taxes d’al·lucinacions són aproximadament iguals en models de raonament i de sense raonament d’OpenAI i Google, encara que els números exactes tenen menys rellevància que les classificacions relatives.
Google ha declinat comentar-hi. No obstant això, aquestes classificacions tenen limitacions. Combinen diferents tipus d’al·lucinacions; per exemple, la taxa d’al·lucinacions del 14, 3% de DeepSeek-R1 principalment consistia en casos “benigns”—respostes logico-sòlides i recolzades per coneixement, però absents del text font. A més, provar només amb resum de textos pot no reflectir la freqüència d’al·lucinacions en altres tasques, ja que els LLMs no estan dissenyats específicament per resumir. Emily Bender de la Universitat de Washington valora que aquests models prediuen paraules potencials següents en comptes de processar la informació per entendre-la realment, fent que el terme "al·lucinació" sigui tant enganyós com antropomorfitzant. Bender critica que “al·lucinació” és problemàtica perquè suposa que els errors són aberracions en sistemes que són de per si fiables i atribueix capacitats humanes de percepció a l’IA, que en realitat no "perceu" en cap sentit. Arvind Narayanan de Princeton afegeix que els models també s’equivocquen per confiar en dades poc fiables o desactualitzades, i que només afegir dades d’entrenament o poder de càlcul no ha resolt aquests problemes. Per això, l’IA prone a errors pot ser una realitat persistent. Narayanan suggereix utilitzar aquests models només quan la verificació de fets sigui més ràpida que fer recerca original, mentre que Bender recomana evitar confiar en els xatbots d’IA per a informació factual en general.
Brief news summary
Els avenços recents en els xatbots d'intel·ligència artificial per part de moltes empreses com OpenAI i Google, centrats a millorar el raonament i la precisió, han tingut paradoxalment com a resultat un augment de la taxa d'hipnosi—situacions en què els models generen informació falsa o enganyosa i no segueixen adequadament les instruccions. Per exemple, els models més nous d’OpenAI, o3 i o4-mini, presenten taxes d’hipnosi del 33% i el 48%, en comparar amb un 16% del model més antic, l’o1, amb tendències similars observades en models com DeepSeek-R1. Malgrat aquests desafiaments, OpenAI afirma que els components de raonament no són els culpables i continua treballant per reduir els casos d’hipnosi. Aquest problema és especialment crític en àmbits com la investigació, l’assistència legal i el servei al client, on les imprecisions poden tenir conseqüències greus. Les avaluacions fetes per Vectara revelen diferències mínimes en la freqüència d’hipnosi entre models de raonament i no raonament, tot i que les dades són limitades. Els experts adverteixen que “hipnosi” simplifica excessivament problemes complexos que impliquen dependència de dades obsoletes o poc fiables. Donat aquest persistent problema d’errors, alguns suggerixen limitar l’ús dels xatbots d’IA a escenaris on verificar la informació sigui més senzill que fer-ho amb verificacions de fets independentment. En termes generals, les hores d’hipnosi continuen sent un problema important i no resolt dels models de llenguatge d’IA.
AI-powered Lead Generation in Social Media
and Search Engines
Let AI take control and automatically generate leads for you!

I'm your Content Manager, ready to handle your first test assignment
Learn how AI can help your business.
Let’s talk!

Robinhood desenvolupa un programa basat en blockc…
Robinhood està treballant en una plataforma basada en blockchain destinada a proporcionar als comerciants europeus accés als actius financers dels Estats Units, segons dues fonts familiaritzades amb la situació que van parlar amb Bloomberg.

OpenAI Llança o3-mini: Model d'IA Ràpid, Intel·li…
OpenAI ha presentat o3-mini, un nou model d'intel·ligència artificial de raonament dissenyat específicament per millorar l'exactitud en càlculs matemàtics, tasques de programació i la resolució de problemes científics.

Tether’s USDT llança a la Binance Chain i amplia …
L’emissor de stablecoins Tether ha anunciat el desplegament de la seva stablecoin nativa USDT a la blockchain Kaia, una xarxa Layer 1 llançada a l'agost de 2024.

Elton John i Dua Lipa busquen protecció de la IA
Dua Lipa, Sir Elton John, Sir Ian McKellen, Florence Welch i més de 400 altres músics, escriptors i artistes britànics han instat al Primer Ministre Sir Keir Starmer a actualitzar les lleis de drets d’autor per protegir els creadors de l’ús indegut de les seves obres per part de la intel·ligència artificial (IA).

El paper de la blockchain en les iniciatives d'in…
La tecnologia blockchain es reconeix cada vegada més com una eina poderosa per avançar cap a la inclusió financera a nivell mundial, especialment per a les poblacions no bancaritzades i que estan desateses, que no tenen accés als serveis bancaris tradicionals.

Blockchain a la salutació: assegurant les dades d…
El sector de la salut està experimentant una transformació important mitjançant l’adopció de la tecnologia blockchain per millorar la seguretat i la gestió dels registros de salut dels pacients.

El Papa Lleó XIV exposa la seva visió i identific…
Ciutat del Vaticà (AP) — Dissabte, el Papa Lleó XIV va esbossar la seva visió del papat, destacant la intel·ligència artificial (IA) com un repte crucial per a la humanitat i comprometent-se a continuar amb les prioritats clau establertes pel Papa Francesc.