Google Veo 3 AI Video Generator: Sinhronizacija zvoka in videa z impresivnim realizmom

V torek je Google razkril Veo 3, nov model za sintezo videoposnetkov z umetno inteligenco, ki je sposoben doseči nekaj, česar doslej ni uspel noben večji AI generator videoposnetkov: producirati usklajen zvočni posnetek skupaj z videom. Med letoma 2022 in 2024 so bili zgodnji AI-porabljeni videi tihi in na splošno zelo kratki. Zdaj Veo 3 ponuja osem sekund dolgih visokoločljivostnih posnetkov s govori, dialogi in zvočnimi učinki. Po lansiranju so ljudje takoj zastavili očitno merilno vprašanje: kako dobro lahko Veo 3 lažnivo prikazuje zmagovalca oskarja, igralca Will Smitha, ki je jedel špagete? Hiter povzetek: "merilnik špagetov" v AI videoposnetkih je začel marca 2023 z zgodnjim, precej nenavadnim AI-izdelanim videom, ustvarjenim z odprtokodnim modelom za sintezo z imenom ModelScope. Ta primer špagetov je postal tako znan, da ga je Smith skoraj leto kasneje, februarja 2024, parodiral. Tukaj je opomnik, kako je izgledal prvotni viralni posnetek: Kaj se pogosto pozablja, je dejstvo, da takrat Smithova parodija ni bila narejena z najboljšim razpoložljivim AI generatorjem videa – model Gen-2 s Runway je že dosegel boljše rezultate, čeprav takrat še ni bil javno dostopen. Kljub temu je bila različica ModelScope dovolj nenavadna in zapomljiva, da je postala referenčna točka za zgodnje omejitve AI videoposnetkov ob napredku tehnologije. Pretekli teden je razvijalec AI aplikacij Javi Lopez odgovoril na navdušene oboževalce, ki so želeli ponovno poskusiti špaget test z Veo 3, ter svoje ugotovitve delil na X. Ko pa je gledal rezultate, je bil zvočni posnetek nenavaden: lažni Smith je zvenel, kot da grizi špagete. Ta napaka izhaja iz Veo 3-ove eksperimentalne sposobnosti dodajanja zvočnih učinkov, verjetno ker je njegova učna baza vključevala številne primere žvečenja s krčenjem, ki so bili posneti. Generativni modeli umetne inteligence delujejo kot sistemi za ujemanje vzorcev in napovedovanje, ki se zanašajo na zadostno uporabno učilno bazo v različnih medijih za izdelavo prepričljivih rezultatov.
Ko so določeni koncepti prekomerno ali premalo zastopani v teh podatkih, pride do nenavadnih artefaktov pri generiranju, kot je ta. Tudi mi smo sami poskusili z vprašanjem na Veo 3, vendar je Google-ova filtracija vsebine blokirala "Will Smitha. " Vendar pa je uporaba vnosa "Temnopolti moški, ki je jedel špagete, " dala podoben zvočni učinek (Lopez je morda imel zgodnji dostop brez filtrov ali pa je eksperimentiral z različicami vnosa, ki so ušla skozi). Veo 3 navdušuje s svojo sposobnostjo generiranja koherentnih dialogov in glasbe, kar že navdihuje številne izjemne primere na X. Ne želimo se ustaviti le pri posnetku moškega, ki je jedel zelo al dente rezance, temveč smo poskusili, ali bi ta lik lahko hkrati zapel in jedel, z vnosom: "Moški poje angleško komedijsko opero o špagetih za kuhinjskim mizom, medtem ko jih jé. " Od leta 2023 smo naredili pomemben napredek, generiranje videoposnetkov z AI pa bo nadaljevalo s izboljšavami v realizmu in funkcionalnosti. Če ne bi bilo trenutnega filtra slavnih osebnosti v Veo 3, bi lahko enostavno ustvarili videoposnetke Smitha, ki poje — ali počne skoraj vse drugo — kar poudarja potencialne skrbi glede tehnologije AI videoposnetkov. Kulturološka singularnost se hitro približuje. Glede na to smo nedavno izvedli našo obsežno serijo testov generiranja videoposnetkov z Veo 3 in bomo te rezultate kmalu delili v namenski prispevek. Za zdaj naj bo to kratek posodobitev o "Fresh Prince of Noodletime". Dober tek!
Brief news summary
Google je predstavil Veo 3, napreden model umetne inteligence za video sintezo, ki je sposoben ustvarjati usklajene osmosekundne HD videoposnetke z zvokom, dialogi in zvočnimi učinki—presega prejšnja orodja, omejena na tihe ali zelo kratke posnetke. V testih je Veo 3 uspešno rekonstruiral referenčni scenarij s ponovnim prikazom dobitnika oskarja Willa Smitha, ki je v slabši kakovosti video posnetku iz leta 2023 jedel špagete. Čeprav je model učinkovito uskladil video in zvok, je med sceno s špagetami proizvedel nenavaden zvok “hrustanja,” verjetno zaradi pristranskosti v učnih podatkih, ki poudarjajo žvečenje. Filtri za vsebino blokirajo neposredne ukaze z imenom “Will Smith,” vendar podobni vnosi kljub temu povzročajo zvočne težave. Kljub tem izzivom Veo 3 odlično generira smiselne dialoge in glasbo, kar navdihuje ustvarjalne projekte, kot je komična opera s špageti. Ta napredek predstavlja pomemben mejnik pri razvoju realističnih multimedijskih vsebin, ustvarjenih z umetno inteligenco, vendar pa še vedno obstajajo ovire glede uporabe podobnosti slavnih osebnosti. Izdaja Veo 3 je sprožila kulturne razprave o realističnosti AI-video posnetkov in vnese nov umetniški poudarek v zgodbo o “Svežem princu” in špagetih, medtem ko se nadaljujejo testi.
AI-powered Lead Generation in Social Media
and Search Engines
Let AI take control and automatically generate leads for you!

I'm your Content Manager, ready to handle your first test assignment
Learn how AI can help your business.
Let’s talk!

Dirka umetne inteligence se pospešuje s pomembnim…
Industrija umetne inteligence je minuli teden doživela izjemen porast pomembnih dogodkov, kar poudarja hitro inovacijo in intenzivno tekmovalnost med vodilnimi tehnološkimi podjetji.

Ali Google še vedno lahko prevladuje v iskanju v …
Na razvijalski konferenci podjetja Google leta 2025 je podjetje razkrilo veliko prenovo svoje osnovne funkcionalnosti iskanja, s poudarkom na ključni vlogo, ki jo bo imela umetna inteligenca v njeni prihodnosti.

Washington se premika naprej glede kriptovalut: P…
V tokratni epizodi Byte-Sized Insight na Decentralize z Cointelegraphom raziskujemo pomemben razvoj v zakonodaji glede kriptovalut v ZDA.

Uvod v digitalne sredstva: Zakaj se trgi delnic t…
Stare je že več kot 15 let odkar je bil ustvarjen prvi bitcoin, kriptovalute pa zdaj uresničujejo nekatere od svojih prvotnih obljub s preobrazbo dolgotrajnih finančnih sistemov.

Tukaj je 6 največjih ugotovitev z Googla I/O, kje…
Na konferenci Google I/O ta teden je tehnološki velikan predstavil približno 100 napovedi, s katerimi je namignil na svojo ambicijo, da bo prevladoval na področju umetne inteligence v različnih domenah – od prenove Iskanja do posodobitev AI modelov in tehnologije nosljivih naprav.

Bitcoin skoči nad 111.000 USD: Blockchain Cloud M…
Bitcoin spet ponovno pridobiva pozornost po vsem svetu, potem ko je prvič presegel vrednost 111.000 dolarjev, kar je spodbudila institucionalna vlaganja, spremembe geopolitike in monetarne dinamike ter oživitev kriptotrga.

Kaj Misli AI, da se bo zgodilo v primerih državlj…
Trump v.