Google Veo 3 AI Video Generator: Propojení zvuku a videa s působivým realističností

V úterý společnost Google představila Veo 3, nový model umělé inteligence pro tvorbu videí, který dokáže dosáhnout něčeho, co žádný větší generátor videí s AI předtím nezvládl: vytvořit synchronizovaný zvukový doprovod spolu s videem. Mezi lety 2022 a 2024 byly počáteční videa generovaná umělou inteligencí tichá a obvykle velmi krátká. Nyní Veo 3 přináší osmisekundové videoklipy ve vysoké kvalitě s hlasem, dialogy a zvukovými efekty. Po uvedení na trh lidé okamžitě položili zřejmou otázku: Jak dobře může Veo 3 nafingovat Oscarem oceněného herce Willa Smithe, jak jej známe z jídla špaget? Rychlé shrnutí: „Test špaget“ v oblasti videí s AI začal v březnu 2023 s raným a poměrně zneklidňujícím videem vytvořeným pomocí open-source modelu ModelScope. Tento příklad s špagetami se stal tak známým, že jej Smith napodobil téměř o rok později, v únoru 2024. Tady je připomenutí, jak původní virální video vypadalo: Často se zapomíná, že v té době nebyla Smithova parodie vytvořena s nejlepším dostupným generátorem videí s AI — model Gen-2 od Runway již tehdy dosahoval kvalitnějších výsledků, i když ještě nebyl veřejně dostupný. Přesto byla verze od ModelScope dost zvláštní a zapamatovatelná na to, aby se stala referencí pro počáteční omezení AI videí, jak se technologie posouvala kupředu. Letos krátce na to vývojář AI aplikací Javi Lopez reagoval na fanoušky, kteří toužili znovu otestovat špagetovou zkoušku s Veo 3, a své poznatky zveřejnil na platformě X. Při sledování výsledků však soundtrack působil podivně: falešný Smith zněl, jako by kousal a kousky špaget chrúmal. Tato chyba vychází z experimentální schopnosti Veo 3 přidávat zvukové efekty, pravděpodobně proto, že jeho tréninková data obsahovala množství příkladů žvýkání doprovázených chrčivými zvuky. Generativní modely AI fungují jako systémy na předpovídání vzorů, které spoléhají na dostatečné množství tréninkových dat napříč různými médii k vytváření přesvědčivých výstupů.
Pokud jsou některé koncepty v tréninkových datech přehnaně zastoupené nebo naopak nedostatečné, může to vést ke zvláštním artefaktům ve výsledcích, jako je tento. Také jsme zadali stejný prompt do Veo 3 sami, ale „Will Smith“ byl zablokován filtry Googlu. Použití fráze „černý muž jí špagety“ však vytvořilo podobný chrčivý zvukový efekt (Lopez možná měl brzký přístup bez filtrů nebo zkoušel různé varianty promptu, které filtrem prošly). Veo 3 ohromuje svou schopností generovat srozumitelný dialog a hudbu, což již inspirovalo řadu působivých příkladů na platformě X. Nechtěli jsme omezit jen na video muže, který jí velmi tvrdé al dente špagety, a tak jsme otestovali, jestli může současně zpívat a jíst, zadáním: „Muž zpívající anglickou komediální operu o špagetách u kuchyňského stolu při jejich jídle. “ Od roku 2023 jsme udělali značný pokrok a generátory videí s AI budou stále vylepšovat realismus a funkčnost. Kdyby nyní u Veo 3 neexistoval takzvaný filtr slavné osoby, mohli bychom snadno vytvořit videa Smithe, jak zpívá – nebo dělá téměř cokoli jiného –, což poukazuje na potenciální obavy týkající se technologie AI videa. Kulturní singularita se rychle blíží. V souvislosti s tím jsme nedávno provedli vlastní rozsáhlou sérii testů generování videí s Veo 3 a brzy zveřejníme výsledky v samostatném článku. Prozatím je toto krátká aktualizace o „Fresh Prince of Noodletime. “ Dobrou chuť!
Brief news summary
Google představil Veo 3, pokročilý model AI pro syntézu videa schopný generovat synchronizovaná osmisekundová HD videa s audio, dialogem a zvukovými efekty—překonávající předchozí nástroje omezené na tiché nebo velmi krátké klipy. V testech se Veo 3 úspěšně zhostil vytváření referenčního scénáře tím, že zrekonstruoval snímek Oscarového herce Willa Smithe, jak jí špagety z nízkokvalitního videa z roku 2023. Ačkoliv model efektivně synchronizoval video a audio, během scény se špagetami vydal neobvyklý „křupavý“ zvuk, pravděpodobně kvůli biasům ve tréninkových datech, které zdůrazňovaly žvýkací ruchy. Filtry obsahu blokují přímé požadavky na „Willa Smithe“, ale podobné vstupy stále způsobují zadrhávání zvuku. Přestože jsou tyto výzvy, Veo 3 exceluje v generování koherentního dialogu a hudby, což inspirovalo kreativní projekty jako komickou operu o špagetách. Tento pokrok představuje významný krok směrem k realistickému multimédiu generovanému umělou inteligencí, i když omezení týkající se podobnosti celebrit představují trvající překážky. Uvedení Veo 3 na trh vyvolalo kulturní diskuse o realističnosti AI videí a přináší nový nádech do příběhu „Fresh Prince“ a špaget, zatímco pokračují testy.
AI-powered Lead Generation in Social Media
and Search Engines
Let AI take control and automatically generate leads for you!

I'm your Content Manager, ready to handle your first test assignment
Learn how AI can help your business.
Let’s talk!

Závod v umělé inteligenci zrychluje s velkými ozn…
Průmysl umělé inteligence zažil minulý týden pozoruhodný nárůst významných událostí, které zdůrazňují rychlou inovaci a intenzivní konkurenci mezi předními technologickými společnostmi.

Může Google ještě stále dominovat ve vyhledávání …
Na vývojářské konferenci Google 2025 odhalila společnost velkou rekonstrukci své základní funkce vyhledávání s důrazem na klíčovou roli umělé inteligence v její budoucnosti.

Washington postupuje s kryptem: Návrhy zákonů o s…
V tomto týdnu v epizodě Byte-Sized Insight na Decentralize s Cointelegraphem zkoumáme klíčový vývoj v kryptoměnové legislativě USA.

Úvod do digitálních aktiv: Proč jsou akciové trhy…
Uplynulo více než 15 let od vzniku prvního bitcoinu a kryptoměny nyní naplňují některé ze svých prvotních slibů tím, že transformují dlouhodobé finanční systémy.

Zde je 6 největších poznatků z Google I/O, kde te…
Na konferenci Google I/O tohoto týdne tech gigant představil kolem 100 oznámení, což naznačuje jeho ambice dominovat v oblasti AI napříč různými obory – od revoluce ve vyhledávání přes aktualizace AI modelů až po technologie nositelných zařízení.

Bitcoin stoupá nad 111 000 dolarů: Blockchain Clo…
Bitcoin znovu získává světovou pozornost poté, co poprvé překonal hodnotu 111 000 USD, a to díky institucionálním investorům, měnícím se geopolitickým měnovým dynamikám a obnovenému růstu kryptoměn.

Co si AI myslí, že se stane v případech práva na …
Trump vs.