Google Veo 3 AI Video Generator: Sinhronizacija zvoka in videa z impresivnim realizmom

V torek je Google razkril Veo 3, nov model za sintezo videoposnetkov z umetno inteligenco, ki je sposoben doseči nekaj, česar doslej ni uspel noben večji AI generator videoposnetkov: producirati usklajen zvočni posnetek skupaj z videom. Med letoma 2022 in 2024 so bili zgodnji AI-porabljeni videi tihi in na splošno zelo kratki. Zdaj Veo 3 ponuja osem sekund dolgih visokoločljivostnih posnetkov s govori, dialogi in zvočnimi učinki. Po lansiranju so ljudje takoj zastavili očitno merilno vprašanje: kako dobro lahko Veo 3 lažnivo prikazuje zmagovalca oskarja, igralca Will Smitha, ki je jedel špagete? Hiter povzetek: "merilnik špagetov" v AI videoposnetkih je začel marca 2023 z zgodnjim, precej nenavadnim AI-izdelanim videom, ustvarjenim z odprtokodnim modelom za sintezo z imenom ModelScope. Ta primer špagetov je postal tako znan, da ga je Smith skoraj leto kasneje, februarja 2024, parodiral. Tukaj je opomnik, kako je izgledal prvotni viralni posnetek: Kaj se pogosto pozablja, je dejstvo, da takrat Smithova parodija ni bila narejena z najboljšim razpoložljivim AI generatorjem videa – model Gen-2 s Runway je že dosegel boljše rezultate, čeprav takrat še ni bil javno dostopen. Kljub temu je bila različica ModelScope dovolj nenavadna in zapomljiva, da je postala referenčna točka za zgodnje omejitve AI videoposnetkov ob napredku tehnologije. Pretekli teden je razvijalec AI aplikacij Javi Lopez odgovoril na navdušene oboževalce, ki so želeli ponovno poskusiti špaget test z Veo 3, ter svoje ugotovitve delil na X. Ko pa je gledal rezultate, je bil zvočni posnetek nenavaden: lažni Smith je zvenel, kot da grizi špagete. Ta napaka izhaja iz Veo 3-ove eksperimentalne sposobnosti dodajanja zvočnih učinkov, verjetno ker je njegova učna baza vključevala številne primere žvečenja s krčenjem, ki so bili posneti. Generativni modeli umetne inteligence delujejo kot sistemi za ujemanje vzorcev in napovedovanje, ki se zanašajo na zadostno uporabno učilno bazo v različnih medijih za izdelavo prepričljivih rezultatov.
Ko so določeni koncepti prekomerno ali premalo zastopani v teh podatkih, pride do nenavadnih artefaktov pri generiranju, kot je ta. Tudi mi smo sami poskusili z vprašanjem na Veo 3, vendar je Google-ova filtracija vsebine blokirala "Will Smitha. " Vendar pa je uporaba vnosa "Temnopolti moški, ki je jedel špagete, " dala podoben zvočni učinek (Lopez je morda imel zgodnji dostop brez filtrov ali pa je eksperimentiral z različicami vnosa, ki so ušla skozi). Veo 3 navdušuje s svojo sposobnostjo generiranja koherentnih dialogov in glasbe, kar že navdihuje številne izjemne primere na X. Ne želimo se ustaviti le pri posnetku moškega, ki je jedel zelo al dente rezance, temveč smo poskusili, ali bi ta lik lahko hkrati zapel in jedel, z vnosom: "Moški poje angleško komedijsko opero o špagetih za kuhinjskim mizom, medtem ko jih jé. " Od leta 2023 smo naredili pomemben napredek, generiranje videoposnetkov z AI pa bo nadaljevalo s izboljšavami v realizmu in funkcionalnosti. Če ne bi bilo trenutnega filtra slavnih osebnosti v Veo 3, bi lahko enostavno ustvarili videoposnetke Smitha, ki poje — ali počne skoraj vse drugo — kar poudarja potencialne skrbi glede tehnologije AI videoposnetkov. Kulturološka singularnost se hitro približuje. Glede na to smo nedavno izvedli našo obsežno serijo testov generiranja videoposnetkov z Veo 3 in bomo te rezultate kmalu delili v namenski prispevek. Za zdaj naj bo to kratek posodobitev o "Fresh Prince of Noodletime". Dober tek!
Brief news summary
Google je predstavil Veo 3, napreden model umetne inteligence za video sintezo, ki je sposoben ustvarjati usklajene osmosekundne HD videoposnetke z zvokom, dialogi in zvočnimi učinki—presega prejšnja orodja, omejena na tihe ali zelo kratke posnetke. V testih je Veo 3 uspešno rekonstruiral referenčni scenarij s ponovnim prikazom dobitnika oskarja Willa Smitha, ki je v slabši kakovosti video posnetku iz leta 2023 jedel špagete. Čeprav je model učinkovito uskladil video in zvok, je med sceno s špagetami proizvedel nenavaden zvok “hrustanja,” verjetno zaradi pristranskosti v učnih podatkih, ki poudarjajo žvečenje. Filtri za vsebino blokirajo neposredne ukaze z imenom “Will Smith,” vendar podobni vnosi kljub temu povzročajo zvočne težave. Kljub tem izzivom Veo 3 odlično generira smiselne dialoge in glasbo, kar navdihuje ustvarjalne projekte, kot je komična opera s špageti. Ta napredek predstavlja pomemben mejnik pri razvoju realističnih multimedijskih vsebin, ustvarjenih z umetno inteligenco, vendar pa še vedno obstajajo ovire glede uporabe podobnosti slavnih osebnosti. Izdaja Veo 3 je sprožila kulturne razprave o realističnosti AI-video posnetkov in vnese nov umetniški poudarek v zgodbo o “Svežem princu” in špagetih, medtem ko se nadaljujejo testi.
AI-powered Lead Generation in Social Media
and Search Engines
Let AI take control and automatically generate leads for you!

I'm your Content Manager, ready to handle your first test assignment
Learn how AI can help your business.
Let’s talk!

Zvezne države ZDA okrepijo nadzor nad cryptocurre…
Po vsej Združene državah se države še bolj trudijo urejati kripto bankomate v času ostrega porekla pojavov prevar, zlasti tistih, ki ciljajo na starejše občane.

Orodja AI izboljšujejo učinkovitost poučevanja in…
Orodja umetne inteligence (UI) hitro preoblikujejo izobraževalni prostor v Združenih državah, učiteljem ponujajo nove priložnosti za izboljšanje učinkovitosti njihovih metod poučevanja in boljše ravnotežje med poklicnim in zasebnim življenjem.

ZDA kongres se približuje sprejemu okvira za regu…
Po večkratnih prizadevanjih skozi leta je Zakonodajni dom Združenih držav že zelo blizu sprejetju celovitega regulatornega okvira posebej za stabilne kovance.

Elon Musk načrtuje ponovno usposabljanje umetne i…
Elon Musk, prepoznaven podjetnik in izvršni direktor številnih vodilnih tehnoloških podjetij, je nedavno izrazil nezadovoljstvo z učinkovitostjo svoje platforme za umetno inteligenco Grok, še posebej glede njenih odgovorov na kontroverzna ali deljena vprašanja.

Prepis Elona Muska: AI platforma za uskladitev z …
Elon Musk je odkrito izrazili nezadovoljstvo z delovanjem svoje platforme umetne inteligence, Grok, zlasti glede obravnave kontroverznih ali deljenih vprašanj.

Pakistan ustanavlja svet za kriptovalute za uredi…
Pakistanu je uspelo pomembno napredovanje pri sprejemanju digitalnih inovacij z ustanovitvijo Pakistan Crypto Council (PCC).

Hongkonška skupina Web3 izdaja načrt za pospeševa…
V pozivu k večjim naložbam za pospešitev razvoja infrastrukture blockchaina so industrijska skupina Web3 Harbour in računovodsko podjetje PwC Hong Kong v ponedeljek predstavili "Načrt za Web3 Hong Kong", ki stavlja na nedavni napredek mesta.