Google Veo 3 AI Generátor Videoa: Sinhronizacija Audio i Video s Impresivnim Realizmom

Utorak je Google predstavio Veo 3, novi model AI za synthesizovanje videa koji može postići nešto što nijedan veći AI generator videa prije nije uspio: proizvodnju sinkroniziranog audio zapisa uz video. Između 2022. i 2024. , rani AI-generirani videi su bili tihi i uglavnom vrlo kratki. Sada, Veo 3 isporučuje osamsekundne visokorezolucijske klipove sa glasovima, dijalogom i zvučnim efektima. Nakon lansiranja, ljudi su odmah postavili očigledno pitanje: Koliko dobro Veo 3 može lažirati Oscarom nagrađenog glumca Will Smitha dok jede špagete? Brzi podsetnik: „spaghetti benchmark“ u AI videu počeo je u martu 2023. sa ranim, prilično uznemirujućim AI-generiranim videom kreiranim pomoću open-source modela pod nazivom ModelScope. Taj primjer špageta postao je toliko poznat da ga je Smith gotovo godinu dana kasnije, u februaru 2024. , parodyovao. Evo podsjetnika na to kako je originalni viralni video izgledao: Ono što se često zaboravlja jeste da taj Smithov parodijski snimak nije napravljen najboljim dostupnim AI generatorom videa—modelom nazvanim Gen-2 od Runway—koji je već pružao kvalitetnije rezultate, iako taj model tada još nije bio javno dostupan. Ipak, verzija sa ModelScopeom bila je čudna i dovoljno pamtljiva da postane referentna tačka za rane ograničenosti AI videa dok je tehnologija napredovala. Ranije ovog sedmice, programer AI aplikacija Javi Lopez odgovorio je na entuzijastične zahtjeve fanova da ponovo testiraju spaghetti test koristeći Veo 3, dijeleći svoja saznanja na X. Međutim, kada je gledao rezultate, zvuk na snimku je djelovao neobično: lažni Smith je zvučao kao da hrče špagete. Ovaj kvar proizilazi iz eksperimentalne sposobnosti Veo 3 da dodaje zvučne efekte, vjerovatno zato što su u njegovim podacima za obuku bile uključene mnoge instance žvakanja uz zvuk hrskanja. Generativni AI modeli funkcionišu kao sistemi za prepoznavanje obrazaca i predviđanje, oslanjajući se na dovoljne količine podataka iz različitih medija za stvaranje uvjerljivih rezultata.
Kada su određeni koncepti previše ili premalo zastupljeni u tim podacima, to dovodi do neobičnih artefakata u generaciji poput ovoga. Takođe smo i mi sami isprobali prompt na Veo 3, ali „Will Smith“ je bio blokiran od strane Googleovih filtera sadržaja. Međutim, korištenje prompta „Crni muškarac jede špagete“ dalo je sličan zvučni efekat hrskanja (možda je Lopez imao pristup ranijoj verziji bez filtera ili eksperimentisao s varijacijama prompta koje su prošle). Veo 3 impresionira svojom sposobnošću da generiše koherentni dijalog i muziku, već inspirišući brojne upečatljive primjere na X. Ne želeći stati samo na videu čovjeka koji jede vrlo al dente špagete, testirali smo može li figura istovremeno pjevati i jesti pomoću prompta: „Čovjek pjeva engleski humoristički operu o špagetama za kuhinjskim stolom dok ih jede. “ Napravili smo značajan napredak od 2023. godine, a AI generatori videa će se i dalje poboljšavati u realističnosti i funkcionalnosti. Da nije trenutnog filtera za poznate ličnosti kod Veo 3, lako bismo mogli napraviti video Smitha kako pjeva—ili radi gotovo bilo šta drugo—što ukazuje na potencijalne zabrinutosti oko AI tehnologije za video. Kulturna singularnost brže nego ikada dolazi. U tom duhu, nedavno smo sproveli našu opsežnu seriju testova generisanja videa sa Veo 3 i uskoro ćemo podijeliti te rezultate u posebnom članku. Za sada, ovo je kratki izvještaj o vladaru špageta, Prijatelju iz susjedstva. Bon appétit!
Brief news summary
Google je predstavio Veo 3, napredni model AI za sintezu videa sposoban za generisanje sinhronizovanih osam sekundi HD video snimaka sa zvukom, dijalogom i efektiima zvuka—prelazeći prethodne alate ograničene na tihe ili veoma kratke isječke. U testovima, Veo 3 je uspješno rekreirao referentni scenario kopiranjem oskarovskog glumca Will-a Smitha kako jede špagete iz video snimka niskog kvaliteta iz 2023. godine. Iako je model efikasno sinhronizovao video i zvuk, proizveo je neobičan zvuk „krckanja“ tokom scene s špagetama, što je najvjerovatnije uzrokovano pristrasnostima u trening podacima koje su naglašavale zvuke žvakanja. Filteri sadržaja blokiraju direktne upite za „Will Smith“, ali slični unosi i dalje izazivaju probleme sa zvukom. Uprkos ovim izazovima, Veo 3 je odličan u generisanju koherentnog dijaloga i muzike, što inspirira kreativne projekte poput komičnog opera sa špagetama. Ovaj napredak predstavlja značajan korak prema realističnom AI generisanom multimedijalnom sadržaju, iako ograničenja u prikazivanju scena sa slavnim ličnostima predstavljaju trajne prepreke. Izlazak Veo 3 izazvao je kulturne rasprave o realističnosti AI videa i dodao novi zaokret u priču o špagetama „Fresher Princa“ upozoravajući na stalne testove i izazove.
AI-powered Lead Generation in Social Media
and Search Engines
Let AI take control and automatically generate leads for you!

I'm your Content Manager, ready to handle your first test assignment
Learn how AI can help your business.
Let’s talk!

Utrka u AI sektoru ubrzava uz velika tehnološka s…
Industrija umjetne inteligencije prošle sedmice zabilježila je značajan porast velikih dešavanja, naglašavajući brze inovacije i intenzivnu konkurenciju među vodećim tehnološkim kompanijama.

Da li Google još uvijek može dominirati pretragam…
Na Googleovoj konferenciji za programere 2025.

Washington se kreće u smjeru kriptovaluta: Zakoni…
U ovogodišnjoj epizodi Byte-Sized Insight na Decentralize s Cointelegraphom istražujemo ključni razvoj u američkom zakonodavstvu o kriptovalutama.

Vodič kroz digitalne aktive: Zašto se tržišta kap…
Prošlo je više od 15 godina otkako je kreiran prvi bitcoin, a kriptovaluta sada ispunjava neke od svojih ranih obećanja transformišući dugotrajne finansijske sisteme.

Evo šest najvećih zaključaka s Google I/O, gdje j…
Na ovogodišnjoj Google I/O konferenciji tech div je najavio oko 100 najava, što je pokazalo njegovu ambiciju da dominira umjetnom inteligencijom u različitim oblastima – od redizajna pretraživača do ažuriranja AI modela i tehnologije nosivih uređaja.

Bitcoin skočio iznad 111.000 dolara: Blockchain C…
Bitcoin ponovo privlači globalnu pažnju nakon što je prvi put premašio 111.000 dolara, potaknut institucionalnim ulagačima, promjenama u geopolitičkim monetarnim dinamikama i oživljenim kripto trendom.

Šta AI misli da će se dogoditi u slučajevima prav…
Trump protiv CASA u AI pećnici: Simulacija mišljenja Vrhovnog suda Prošle sedmice, Vrhovni sud je razmotrio slučaj Trump protiv CASA, Inc