Google Veo 3 AI Video Generator: Zladenie zvuku a videa s pôsobivou realističnosťou

V utorok Google predstavil Veo 3, nový model AI na syntézu videí schopný dosiahnuť niečo, čo žiadny veľký generátor AI videí predtým nedokázal: vytvoriť synchronizovaný zvukový track spolu s videom. Medzi rokmi 2022 a 2024 boli prvé AI-generované videá tiché a všeobecne veľmi krátke. Teraz Veo 3 prináša osemsekundové vysokokvalitné klipy s hlasmi, dialógmi a zvukovými efektmi. Po spustení sa okamžite objavila jasná otázka o porovnaní: Ako dobre dokáže Veo 3 sfalšovať oceneného Oscara herca Willa Smitha, keď je na jedle špagety? Rýchly prehľad: „Špagetová referencia“ v AI videách začala v marci 2023 s ranným, dosť znepokojujúcim AI-generovaným videom vytvoreným pomocou open-source modelu s názvom ModelScope. Tento príklad špagiet sa stal tak dobre známym, že Smith ho napodobnil takmer o rok neskôr, v februári 2024. Tu je pripomenutie, ako vyzeralo pôvodné virálne video: Často sa zabúda na to, že v čase, keď bola vytvorená paródia na Smitha, sa nepoužíval ten najlepší dostupný AI generátor videí — model s názvom Gen-2 od Runway už dokázal dodať kvalitnejšie výsledky, hoci ešte nebol verejne dostupný. Napriek tomu bola verzia od ModelScope taká nezvyčajná a zapamätateľná, že sa stala referenčným bodom pre počiatočné limity AI videa, zatiaľ čo technológia sa vyvíjala. Skorší tento týždeň vývojár AI aplikácií Javi Lopez reagoval na fanúšikov, ktorí chceli znovu vyskúšať špagetový test pomocou Veo 3, a zverejnil svoje zistenia na platforme X. Avšak pri sledovaní výsledkov sa zdalo, že zvuková stopa je nezvyčajná: falošný Smith znel, akoby hrýzol špagety. Tento problém vzniká z experimentálnej schopnosti Veo 3 pridávať zvukové efekty, pravdepodobne preto, že jeho trénovacie dáta obsahujú množstvo príkladov žuvania sprevádzaného hrčaním. Generatívne AI modely fungujú ako systémy na rozpoznávanie vzorcov a predpovede, ktoré sa spoliehajú na dostatok trénovacích dát z rôznych medií na tvorbu presvedčivých výstupov.
Keď sú určité koncepty v dátach nadmerne alebo nedostatočne zastúpené, vedie to k zvláštnym artefaktom pri generovaní, akým bol tento. Vyskúšali sme rovnaký podnet aj my na Veo 3, no „Will Smith“ bol blokovaný obsahovými filtrami od Google. Použitie podnetu „Černoch, ktorý je na jedle špagety, “ však vygenerovalo podobný hrčaný zvuk (Lopez mohol mať skorší prístup bez filtrov alebo experimentoval s rôznymi variantmi podnetov, ktoré prešli). Veo 3 pôsobí doj made svojou schopnosťou generovať koherentný dialóg a hudbu, čo už inšpirovalo množstvo výrazných príkladov na platforme X. Nechceli sme sa však skloniť len pred videom muža, ktorý jemne prežúva veľmi al dente cestoviny, a otestovali sme, či dokáže aj spievať a žuť súčasne: „Muž spievajúci anglickú komickú operu o špagetách pri kuchynskom stole, zatiaľ čo ich konzumuje. “ Od roku 2023 sme urobili výrazný pokrok, a AI generátory videí budú naďalej zlepšovať realistickosť a funkčnosť. Keby nebolo súčasného filtra celebrít pri Veo 3, ľahko by sme mohli vytvoriť videá, na ktorých Smith spieva — alebo robí takmer čokoľvek iné — čo poukazuje na potenciálne obavy týkajúce sa technológie AI videa. Kultúrna singularita sa blíži rýchlo. V tej súvislosti sme nedávno uskutočnili vlastný rozsiahly sériu testov generovania videí s Veo 3 a čoskoro zverejníme tie výsledky v špeciálnom článku. Zatiaľ teda považujte toto za krátky prehľad o čerstvom „Prince z nivôtym sérii“. Dobrú chuť!
Brief news summary
Google predstavil Veo 3, pokročilý model AI na syntézu videa schopný generovať synchronizované osemsekundové HD videá s audiom, dialógmi a zvukovými efektmi — čím prekračuje predchádzajúce nástroje, ktoré boli obmedzené na tiché alebo veľmi krátke klipy. Pri testoch Veo 3 úspešne replikoval benchmarkový scenár tým, že napodobnil Oscarmi oceneného herca Willa Smitha, ako je jedenie špagiet z nízkokvalitného videa z roku 2023. Hoci model efektívne synchronizoval video a audio, počas scény so špagetami vydal zvláštny zvuk “crunching,” pravdepodobne spôsobený predsudkami v tréningových dátach, ktoré zdôrazňovali žuvacie zvuky. Filtre obsahu blokujú priame pokyny “Will Smith,” no podobné vstupy stále spôsobujú zvukové poruchy. Napriek týmto výzvam je Veo 3 vynikajúci pri generovaní zrozumiteľného dialógu a hudby, inšpirujúc tvorivé projekty, ako napríklad komická opera o špagetách. Tento pokrok predstavuje významný krok smerom k realistickému multimédiu generovanému AI, hoci obmedzenia týkajúce sa podobizne celebrít predstavujú stále prekážky. Uvedenie Veo 3 na trh vyvolalo kultúrne diskusie o realistickosti AI videí a pridalo nový rozmer k príbehu “Fresh Prince” so špagetami v prostredí stále prebiehajúcich testov.
AI-powered Lead Generation in Social Media
and Search Engines
Let AI take control and automatically generate leads for you!

I'm your Content Manager, ready to handle your first test assignment
Learn how AI can help your business.
Let’s talk!

Súťaž v AI sa zrýchľuje s veľkými technologickými…
Priemysel umelej inteligencie zaznamenal v minulom týždni pozoruhodný nárast významných pokrokov, čo podčiarkuje rýchle inovácie a intenzívnu konkurenciu medzi poprednými technologickými spoločnosťami.

Môže Google stále dominovať vo vyhľadávaní v ére …
Na vývojárskej konferencii Google 2025 spoločnosť odhalila zásadnú revíziu svojej kľúčovej funkcie vyhľadávania so zameraním na kľúčovú úlohu, ktorú bude zohrávať umele inteligencia v jej budúcnosti.

Washington pokračuje v kryptomenách: Návrhy zákon…
V tohtotýždňovej epizóde Byte-Sized Insight na platforme Decentralize s Cointelegraphom skúmame kľúčový vývoj v legislatíve týkajúcej sa kryptomien v USA.

Úvod do digitálnych aktív: Prečo sa akciové trhy …
Ubehlo viac ako 15 rokov odvtedy, čo vznikol prvý bitcoin, a kryptomeny teraz plnia niektoré zo svojich skorých sľubov tým, že menia dlhotrvajúce finančné systémy.

Tu je šesť najväčších poznatkov zo Google I/O, kd…
Na konferencii Google I/O tento týždeň technický gigant predstavil približne 100 oznámení, čo naznačuje jeho ambície ovládnuť umelú inteligencia v rôznych oblastiach – od prepracovania Vyhľadávania cez aktualizáciu modelov AI až po technológie nositeľnej elektroniky.

Bitcoin stúpa nad 111 000 USD: Blockchain Cloud M…
Bitcoin opäť získava celosvetovú pozornosť po prvýkrát prekročení hranice 111 000 USD, čo je poháňané inštitucionálnymi investormi, meniace sa geopolitické menové dinamiky a obnoveným rastom kryptomien.

Čo si AI myslí, že sa stane v prípadoch občianstv…
Trump vs.