lang icon En
March 21, 2025, 8:28 a.m.
1858

MIT e NVIDIA svelano HART: un metodo rivoluzionario per la generazione di immagini.

Brief news summary

La necessità di immagini di alta qualità è cruciale nello sviluppo di ambienti virtuali realistici, specialmente per l'addestramento e la sicurezza delle auto a guida autonoma. Le tecniche tradizionali di intelligenza artificiale generativa, come i modelli di diffusione, offrono un'eccellente qualità visiva, ma sono lente e richiedono molte risorse. Al contrario, i modelli autoregressivi, come ChatGPT, permettono una generazione rapida delle immagini ma spesso mancano di dettagli. Per affrontare questi problemi, il MIT e NVIDIA hanno introdotto HART (Hybrid Autoregressive Transformer), uno strumento all'avanguardia per la generazione di immagini che unisce i vantaggi di entrambi i metodi. HART utilizza un modello autoregressivo per una generazione rapida delle immagini, che viene successivamente perfezionato da un piccolo modello di diffusione per migliorare i dettagli. Questo approccio ibrido consente a HART di produrre immagini che competono con quelle dei migliori modelli di diffusione, raggiungendo risultati nove volte più velocemente e con minori esigenze computazionali. La capacità di HART di generare immagini di alta qualità da input in linguaggio naturale su dispositivi facilmente accessibili apre nuove possibilità in settori come la robotica e il design di videogiochi. Sviluppi futuri potrebbero includere il collegamento di HART a modelli unificati di visione-linguaggio, rappresentando un significativo passo avanti nella creazione di contenuti visivi potenziati dall'intelligenza artificiale.

La rapida generazione di immagini di alta qualità è essenziale per creare ambienti simulati realistici, che aiutano ad addestrare le auto a guida autonoma a navigare in modo sicuro tra pericoli imprevedibili. Tuttavia, le attuali tecniche di intelligenza artificiale generativa, in particolare i modelli di diffusione, sono spesso troppo lente e richiedono molte risorse computazionali. Sebbene i modelli autoregressivi, come quelli che alimentano i LLM come ChatGPT, operino molto più rapidamente, di solito producono immagini di qualità inferiore e piene di errori. I ricercatori del MIT e di NVIDIA hanno introdotto HART (Hybrid Autoregressive Transformer), un nuovo metodo di generazione di immagini che combina i punti di forza di entrambi gli approcci. HART utilizza un modello autoregressivo per delineare rapidamente le caratteristiche principali di un'immagine e poi impiega un modello di diffusione più piccolo per affinare questi dettagli. Questo strumento innovativo genera immagini che competono o superano la qualità dei modelli di diffusione all'avanguardia, ma opera circa nove volte più velocemente e con un minor utilizzo di risorse computazionali, consentendo l'uso su normali laptop e smartphone. Le applicazioni per HART includono l'assistenza ai ricercatori nell'addestramento di robot per compiti complessi e l'aiuto ai designer nella creazione di scene coinvolgenti per i videogiochi.

“Proprio come affinare un dipinto ruvido con colpi di pennello dettagliati ne migliora la qualità, HART combina una generazione di immagini ampia con un lavoro di dettaglio meticoloso, ” afferma Haotian Tang, uno dei principali autori della ricerca. I modelli di diffusione, che richiedono più passaggi per denoizzare le immagini, possono produrre visuali altamente dettagliate ma sono lenti e intensivi in termini di risorse. Al contrario, i modelli autoregressivi generano immagini più rapidamente creando patch in modo sequenziale, ma soffrono di perdita di informazioni che porta a una qualità inferiore. HART contrasta queste limitazioni prevedendo prima i token immagine discreti con il modello autoregressivo, per poi utilizzare il modello di diffusione per ripristinare eventuali dettagli mancanti, consentendo immagini veloci e di alta qualità con soli otto passaggi. Durante lo sviluppo, i ricercatori hanno affrontato sfide di integrazione, ma hanno migliorato la qualità di HART applicando il modello di diffusione esclusivamente per prevedere i token residui. Il loro design finale impiega un modello autoregressivo da 700 milioni di parametri insieme a un modello di diffusione da 37 milioni di parametri, raggiungendo una qualità dell'immagine comparabile a quella di modelli di diffusione più grandi (fino a 2 miliardi di parametri) consumando il 31% di potenza computazionale in meno. Guardando al futuro, il team prevede di costruire sull'architettura HART per sviluppare modelli visione-linguaggio ed esplorare applicazioni nella generazione di video e nella previsione audio, potenzialmente rivoluzionando le interazioni con i modelli generativi. Questa ricerca è stata supportata da varie organizzazioni, tra cui il MIT-IBM Watson AI Lab e NVIDIA, che hanno fornito risorse GPU per l'addestramento del modello.


Watch video about

MIT e NVIDIA svelano HART: un metodo rivoluzionario per la generazione di immagini.

Try our premium solution and start getting clients — at no cost to you

I'm your Content Creator.
Let’s make a post or video and publish it on any social media — ready?

Language

Hot news

Dec. 23, 2025, 9:30 a.m.

Danny Sullivan e John Mueller di Google sulla SEO…

John Mueller di Google ha ospitato Danny Sullivan, anch'egli di Google, nel podcast Search Off the Record per discutere di "Pensieri su SEO e SEO per l'Intelligenza Artificiale".

Dec. 23, 2025, 9:26 a.m.

Lexus porta l'IA generativa a prova nei nuovi con…

Breve Dive: Lexus ha lanciato una campagna di marketing natalizia creata utilizzando l'intelligenza artificiale generativa, secondo un comunicato stampa

Dec. 23, 2025, 9:16 a.m.

Il 2025 è stato l'anno in cui i video generati da…

Nel 2025, i social media hanno subito una trasformazione profonda, poiché i video generati dall'intelligenza artificiale sono rapidamente diventati predominanti su piattaforme come YouTube, TikTok, Instagram e Facebook.

Dec. 23, 2025, 9:15 a.m.

Un ricercatore di intelligenza artificiale afferm…

Le aziende possono avere team di cybersecurity in servizio, eppure molte rimangono impreparate alle modalità in cui i sistemi di intelligenza artificiale (IA) falliscono realmente, secondo un ricercatore specializzato nella sicurezza dell'IA.

Dec. 23, 2025, 9:07 a.m.

FirstFT: L'esplosione del debito AI spinge le ven…

un componente essenziale di questo sito non è riuscito a caricare.

Dec. 23, 2025, 5:21 a.m.

Cambiamento di carriera nel 2026? I lavori con l'…

Foto di Paulina Ochoa, Digital Journal Mentre molti cercano carriere legate alla tecnologia AI, quanto sono accessibili questi ruoli? Uno studio recente della piattaforma di formazione digitale EIT Campus identifica i lavori di AI più facili da intraprendere in Europa entro il 2026, dimostrando che alcune posizioni richiedono solo da 3 a 6 mesi di formazione senza bisogno di una laurea in informatica

Dec. 23, 2025, 5:20 a.m.

IA nei videogiochi: migliorare il realismo e l'es…

L'industria dei videogiochi si sta trasformando rapidamente grazie all'integrazione delle tecnologie di intelligenza artificiale (IA), modificando radicalmente il modo in cui i giochi vengono sviluppati e vissuti dai giocatori.

All news

AI Company

Launch your AI-powered team to automate Marketing, Sales & Growth

and get clients on autopilot — from social media and search engines. No ads needed

Begin getting your first leads today