Google Veo 3 Generatore di Video AI: Sincronizzazione di Audio e Video con Realismo Straordinario

Martedì, Google ha svelato Veo 3, un nuovo modello di sintesi video AI capace di raggiungere qualcosa che nessun altro grande generatore di video AI è mai riuscito a fare prima: produrre una traccia audio sincronizzata insieme al video. Tra il 2022 e il 2024, i primi video generati dall’IA erano silenziosi e generalmente molto brevi. Ora, Veo 3 realizza clip di otto secondi in alta definizione complete di voci, dialoghi e effetti sonori. Dopo il lancio, le persone hanno subito posto la domanda lampante di riferimento: quanto bene può Veo 3 imitare l’attore vincitore di un Oscar, Will Smith, mentre mangia spaghetti? Un breve riassunto: il “benchmark spaghetti” nei video AI è iniziato a marzo 2023 con un primo video generato dall’IA, piuttosto inquietante, creato usando un modello di sintesi open-source chiamato ModelScope. Quel esempio di spaghetti divenne così noto che Smith lo ha parodiato quasi un anno dopo, a febbraio 2024. Ecco una traccia di come appariva il video virale originale: Quello che spesso si dimentica è che a quei tempi, la parodia di Smith non era stata prodotta con il migliore generatore di video AI disponibile — un modello chiamato Gen-2 di Runway aveva già fornito risultati di qualità superiore, anche se non accessibile al pubblico. Tuttavia, la versione di ModelScope era così strana e memorabile da diventare un punto di riferimento per i limiti iniziali dell’IA nei video, man mano che la tecnologia si evolveva. All’inizio di questa settimana, lo sviluppatore di app AI Javi Lopez ha risposto ai fan desiderosi di rivisitare il test degli spaghetti usando Veo 3, condividendo le sue scoperte su X. Tuttavia, guardando i risultati, la colonna sonora sembrava insolita: il falso Smith sembrava masticare gli spaghetti. Questo problema deriva dalla capacità sperimentale di Veo 3 di aggiungere effetti sonori, probabilmente perché i suoi dati di addestramento includevano numerosi esempi di masticazione accompagnata da suoni di crunch, o fruscii. I modelli di intelligenza artificiale generativa funzionano come sistemi di previsione basati su pattern, affidandosi a dati di addestramento sufficienti attraverso vari media per produrre output convincenti.
Quando alcuni concetti sono sovra- o sotto-rappresentati in questi dati, si creano artefatti di generazione insoliti come questo. Abbiamo anche noi sperimentato il prompt su Veo 3, ma “Will Smith” era bloccato dai filtri di contenuto di Google. Usando invece il prompt “Un uomo nero che mangia spaghetti, ” si è invece prodotto un effetto sonoro simile al crunch (Lopez potrebbe aver avuto un accesso iniziale senza filtri o aver provato variazioni di prompt che sono passate inosservate). Veo 3 sorprende per la sua capacità di generare dialoghi coerenti e musica, già ispirando numerosi esempi impressionanti su X. Non volendo limitarci a un video di un uomo che mangia spaghetti molto al dente, abbiamo provato a vedere se la figura potesse cantare e mangiare contemporaneamente, con il prompt: “Un uomo che canta un’opera comica in inglese sul tema spaghetti mentre lo mangia a un tavolo da cucina. ” Abbiamo fatto notevoli progressi rispetto al 2023, e i generatori di video AI continueranno a migliorare in realismo e funzionalità. Se non fosse stato per il filtro attuale di Veo 3 sui personaggi famosi, potremmo facilmente creare video di Smith che canta — o fa quasi qualunque altra cosa — evidenziando le potenziali preoccupazioni intorno alla tecnologia dei video generati dall’IA. La singolarità culturale si avvicina rapidamente. A tal proposito, abbiamo recentemente condotto una nostra serie approfondita di test di generazione video con Veo 3 e condivideremo presto quei risultati in un articolo dedicato. Per ora, consideratela un breve aggiornamento sul “Favoloso Noodletime”. Buon appetito!
Brief news summary
Google ha introdotto Veo 3, un avanzato modello di sintesi video basato sull'intelligenza artificiale in grado di generare video HD sincronizzati di otto secondi con audio, dialoghi ed effetti sonori—superando gli strumenti precedenti limitati a clip silenziose o di durata molto breve. Nei test, Veo 3 ha ricreato con successo uno scenario di riferimento riproducendo l’attore premio Oscar Will Smith mentre mangia spaghetti da un video di bassa qualità del 2023. Sebbene il modello sincronizzasse efficacemente video e audio, ha prodotto un suono insolito di “crunching” durante la scena degli spaghetti, probabilmente a causa di bias nei dati di addestramento che enfatizzavano i rumori di masticazione. I filtri sui contenuti bloccano i comandi diretti di “Will Smith”, ma input simili causano comunque problemi audio. Nonostante queste sfide, Veo 3 eccelle nel generare dialoghi coerenti e musica, ispirando progetti creativi come un’operetta comica sugli spaghetti. Questo progresso rappresenta un passo importante verso ai multimedia realistici generati dall’AI, anche se le restrizioni sulla somiglianza dei volti di celebrità rappresentano ancora un ostacolo. Il rilascio di Veo 3 ha acceso discussioni culturali sulla realtà dei video AI e aggiunge un tocco nuovo alla storia degli spaghetti di “Il principe del Galles”, nel mezzo di continui test.
AI-powered Lead Generation in Social Media
and Search Engines
Let AI take control and automatically generate leads for you!

I'm your Content Manager, ready to handle your first test assignment
Learn how AI can help your business.
Let’s talk!

La corsa all'intelligenza artificiale si accelera…
L'industria dell'intelligenza artificiale ha assistito a un rapido aumento di sviluppi importanti la settimana scorsa, sottolineando l'innovazione veloce e la forte competizione tra le principali aziende tecnologiche.

Google può ancora dominare la ricerca nell'era de…
Alla conferenza degli sviluppatori di Google 2025, l'azienda ha svelato un grande restyling della sua funzionalità di ricerca principale, sottolineando il ruolo cruciale che l'intelligenza artificiale giocherà nel suo futuro.

Washington avanza nel settore delle criptovalute:…
In questa puntata di Byte-Sized Insight su Decentralize di Cointelegraph, esploriamo uno sviluppo fondamentale nella legislazione cripto statunitense.

La Guida agli Asset Digitali: Perché i Mercati Az…
Sono passati oltre 15 anni dalla creazione del primo bitcoin, e la criptovaluta sta ora realizzando alcune delle sue prime promesse, trasformando i sistemi finanziari di lunga data.

Ecco le 6 principali intuizioni di Google I/O, do…
Alla conferenza Google I/O di questa settimana, il colosso tecnologico ha fatto circa 100 annunci, segnando la sua ambizione di dominare l’IA in vari settori—dalla rivisitazione di Ricerca all’aggiornamento dei modelli di IA e delle tecnologie indossabili.

Bitcoin supera i 111.000 dollari: Blockchain Clou…
Bitcoin sta attirando di nuovo l’attenzione globale dopo aver superato per la prima volta i 111.000 dollari, grazie agli investitori istituzionali, ai cambiamenti nella dinamica monetaria geopolitica e a una rinvigorita ondata di criptovalute.

Cosa pensa l'IA che succederà nei casi di cittadi…
Trump contro CASA in un Crogiolo di IA: Simulare le Opinioni della Corte Suprema La settimana scorsa, la Corte Suprema ha esaminato il caso Trump contro CASA, Inc