I chatbot con intelligenza artificiale affrontano problemi persistenti di allucinazioni che compromettono l'affidabilità

I chatbot AI di aziende tecnologiche leader come OpenAI e Google hanno ricevuto miglioramenti nel ragionamento negli ultimi mesi per aumentare l’affidabilità delle risposte. Tuttavia, test recenti rivelano che alcuni modelli più recenti si comportano peggio rispetto alle versioni precedenti, mostrando un fenomeno chiamato "allucinazioni"—errori in cui i chatbot generano informazioni false o forniscono risposte che sono fattualmente corrette ma irrilevanti o non conformi alle istruzioni. Questo problema persiste dall’inizio dei grandi modelli linguistici (LLM), come ChatGPT di OpenAI e Gemini di Google, e sembra poco probabile che venga risolto del tutto. Un rapporto tecnico di OpenAI ha mostrato che i suoi modelli o3 e o4-mini, rilasciati ad aprile, avevano tassi di allucinazioni significativamente più alti rispetto al più vecchio modello o1, risalente alla fine del 2024: o3 aveva un tasso di allucinazioni del 33%, o4-mini del 48%, contro il 16% di o1, quando si riassumevano fatti disponibili pubblicamente. Analogamente, la classifica di Vectara sul tasso di allucinazioni ha rilevato che alcuni modelli di ragionamento, tra cui DeepSeek-R1, hanno mostrato aumenti significativi rispetto ai predecessori, nonostante il loro approccio di ragionamento a più passaggi prima di rispondere. OpenAI sostiene che i processi di ragionamento non siano di per sé responsabili dell’aumento delle allucinazioni e sta attivamente ricercando metodi per ridurle in tutti i modelli. La persistenza delle allucinazioni minaccia molte applicazioni: modelli che producono frequentemente falsità ostacolano l’assistenza alla ricerca; chatbot paralegali che citano casi inesistenti possono portare a errori legali; chatbot di customer service con informazioni obsolete causano problemi operativi. Inizialmente, le aziende di AI si aspettavano che le allucinazioni diminuissero nel tempo, poiché i primi aggiornamenti dei modelli avevano mostrato miglioramenti. Tuttavia, i recenti livelli più elevati di allucinazioni sfidano questa previsione, indipendentemente dal coinvolgimento nel ragionamento. La classifica di Vectara indica che i tassi di allucinazioni sono circa uguali tra modelli di ragionamento e non, di OpenAI e Google, anche se i numeri esatti sono meno importanti rispetto alle posizioni relative.
Google ha rifiutato di commentare. Tuttavia, tali classifiche hanno dei limiti. Mescolano diversi tipi di allucinazioni; ad esempio, il 14, 3% delle allucinazioni di DeepSeek-R1 consiste principalmente in casi "benigni"—risposte logicamente valide e supportate dalla conoscenza, ma assenti nel testo di origine. Inoltre, test basati unicamente sulla sintesi testuale potrebbero non riflettere le frequenze di allucinazioni in altri compiti, dato che gli LLM non sono progettati specificamente per il riepilogo. Emily Bender dell’Università di Washington sottolinea che questi modelli predicono le parole più probabili successivamente, piuttosto che elaborare le informazioni per capire davvero il testo, rendendo il termine "allucinazione" sia fuorviante che antropomorfo. Bender critica il termine "allucinazione" perché implica che gli errori siano anomalie in sistemi generalmente affidabili e attribuisce capacità percettive umane all’AI, che non "percepisce" in alcun senso. Arvind Narayanan di Princeton aggiunge che i modelli sbagliano anche affidandosi a dati non affidabili o obsoleti, e che semplicemente aggiungere dati di addestramento o potenza di calcolo non ha risolto questi problemi. Di conseguenza, un’intelligenza artificiale soggetta a errori potrebbe essere una realtà duratura. Narayanan suggerisce di usare tali modelli solo quando il fact-checking richiede meno tempo rispetto alla ricerca originale, mentre Bender raccomanda di evitare del tutto di affidarsi agli chatbot AI come fonti di informazioni fattuali.
Brief news summary
Recenti avanzamenti nei chatbot AI da parte di aziende come OpenAI e Google, focalizzati sul miglioramento del ragionamento e della precisione, hanno paradossalmente portato a un aumento dei tassi di allucinazione— casi in cui i modelli generano informazioni false o fuorvianti e non adempiono correttamente alle istruzioni. Ad esempio, i modelli più recenti di OpenAI o3 e o4-mini mostrano tassi di allucinazione rispettivamente del 33% e del 48%, rispetto al 16% del modello o1 più vecchio, con tendenze simili riscontrate in modelli come DeepSeek-R1. Nonostante queste sfide, OpenAI afferma che i componenti di ragionamento non sono da biasimare e continua a lavorare per ridurre le allucinazioni. Questo problema è particolarmente critico in settori come la ricerca, il consiglio legale e il servizio clienti, dove le imprecisioni possono avere conseguenze gravi. Valutazioni di Vectara rivelano differenze minime nelle frequenze di allucinazione tra modelli di ragionamento e non, sebbene i dati siano ancora limitati. Gli esperti avvertono che “allucinazione” semplifica eccessivamente problemi complessi che coinvolgono dipendenza da dati obsoleti o inaffidabili. Data l persistentemente errata, alcuni suggeriscono di limitare l’uso di chatbot AI a scenari in cui verificare le informazioni è più semplice che effettuare controlli indipendenti. In generale, le allucinazioni continuano a rappresentare un problema irrisolto importante nei modelli linguistici di AI.
AI-powered Lead Generation in Social Media
and Search Engines
Let AI take control and automatically generate leads for you!

I'm your Content Manager, ready to handle your first test assignment
Learn how AI can help your business.
Let’s talk!

Robinhood sta sviluppando un programma basato su …
Robinhood sta lavorando a una piattaforma basata su blockchain volta a offrire ai trader europei accesso agli strumenti finanziari statunitensi, secondo due fonti a conoscenza della situazione che hanno parlato a Bloomberg.

OpenAI lancia o3-mini: modello di intelligenza ar…
OpenAI ha presentato o3-mini, un nuovo modello di intelligenza artificiale dedicato al ragionamento, progettato specificamente per migliorare l’accuratezza nei calcoli matematici, nei compiti di codifica e nella risoluzione di problemi scientifici.

Tether’s USDT viene lanciato sulla blockchain Kai…
L'emittente di stablecoin Tether ha annunciato il deployment del suo stablecoin nativo USDT sulla blockchain Kaia, una rete Layer 1 lanciata nell'agosto 2024.

Elton John e Dua Lipa cercano protezione dall'IA
Dua Lipa, Sir Elton John, Sir Ian McKellen, Florence Welch e oltre 400 altri musicisti, scrittori e artisti britannici hanno esortato il Primo Ministro Sir Keir Starmer ad aggiornare le leggi sul copyright per proteggere i creatori dall’uso improprio del loro lavoro da parte dell’intelligenza artificiale (IA).

Il ruolo della blockchain nelle iniziative di inc…
La tecnologia blockchain è sempre più riconosciuta come uno strumento potente per promuovere l'inclusione finanziaria a livello globale, in particolare per le popolazioni senza accesso ai servizi bancari tradizionali o poco servite, che spesso sono escluse dai sistemi finanziari convenzionali a causa di barriere economiche, normative o infrastructurali.

Blockchain nella sanità: proteggere i dati dei pa…
Il settore sanitario sta subendo una grande trasformazione adottando la tecnologia blockchain per migliorare la sicurezza e la gestione delle cartelle cliniche.

Il Papa Leone XIV espone la sua visione e identif…
CITTÀ DEL VATICANO (AP) — Sabato, Papa Leone XIV ha delineato la visione per il suo pontificato, evidenziando l’intelligenza artificiale (IA) come una sfida cruciale per l’umanità e impegnandosi a continuare le priorità stabilite da Papa Francesco.