Google Veo 3 AI Videó Generátor:hang és videó szinkronizálása lenyűgöző realitással

Hétfőn a Google bemutatta a Veo 3-at, egy új AI videószintézis modellt, amely képes elérni valami eddig még soha nem sikerült főbb AI videógenerátoroknak: szinkronizált hangnyomvonalat készíteni a videóval együtt. 2022 és 2024 között az AI által generált korai videók hangtalanok voltak, és általában nagyon rövidek. Most a Veo 3 nyolc másodperces, HD minőségű klipeket szállít hangokkal, párbeszédekkel és hanghatásokkal együtt. A bemutató után az emberek azonnal felvetették a nyilvánvaló normárolapot kérdést: Mennyire képes a Veo 3 például hamisítani Oscar-díjas színész Will Smith-et, ahogy spaghetti-et eszik? Rövid összefoglaló: az „spaghetti normálap” az AI videóban 2023 márciusában kezdődött egy korai, eléggé bizarr AI-generált videóval, amelyet az Open Source szintézismodell, a ModelScope készített. Ez a spaghetti példája olyan jól ismertté vált, hogy Smith majdnem egy évvel később, 2024 februárjában majdhogynem parodizálta. Íme egy emlékeztető arra, hogyan nézett ki az eredeti vírusképek: Ami gyakran elfelejtődik, az az, hogy akkoriban Smith paródiáját nem a legjobb AI videógenerátorral készítették — a Runway által kifejlesztett Gen-2 modell már magasabb minőségű eredményeket nyújtott, bár még nem volt nyilvánosan elérhető. Mégis, a ModelScope változat elég különleges és emlékezetes volt ahhoz, hogy az AI videó korlátait jelző mérföldkővé váljon a technológia fejlődésével. Korábban ezen a héten az AI alkalmazásfejlesztő, Javi Lopez reagált a rajongókra, akik szívesen visszatértek a spaghetti teszttel Veo 3 használatával, és megosztotta eredményeit az X-en. Az eredmények nézésekor azonban a hangsáv furcsának tűnt: a hamis Smith úgy hangzott, mintha ropogtatná a spagettit. Ez a hiba abból adódik, hogy a Veo 3 kísérleti módon képes hanghatásokat hozzáadni, valószínűleg azért, mert a betanító adataiban számos olyan példát tartalmazott, ahol megrágás és ropogó hangok voltak. A generatív AI modellek mintázatfelismerő predikciós rendszerek, amelyek megfelelő betanításon alapulva tudnak meggyőző eredményeket produkálni különböző médiumokban.
Amikor bizonyos fogalmak túl vagy alul vannak reprezentálva az adatokban, olyan különös generálási hibák keletkeznek, mint ez. Mi magunk is kipróbáltuk a promptot a Veo 3-on, de a „Will Smith” kifejezés a Google tartalomszűrői miatt blokkolva volt. Azonban a „Fekete férfi spaghetti evés” kérés hasonló ropogó hanghatást eredményezett (Lopez talán korai szűrő nélküli hozzáféréssel rendelkezett, vagy kísérletezett azokkal a prompt-változatokkal, amik átmentek a szűrőkön). A Veo 3 lenyűgöző a koherens párbeszéd és zene generálásában, mely már számos figyelemre méltó példát inspirált az X-en. Nem elégedtünk meg a puszta videóval, amin egy férfi nagyon kemény tésztát eszik, és megkérdeztük, vajon egyszerre énekelhet-e és ehet-e a figura egyidejűleg: „Egy férfi angol nyelvű vígjáték-operát énekel a konyhai asztalnál a spaghetti-ről, miközben eszik. ” 2023 óta jelentős fejlődést értünk el, és az AI videógenerátorok továbbra is javítani fognak a realisztikusságon és a funkcionalitáson. Ha nem vennénk figyelembe a Veo 3 aktuális celeb-szűrő funkcióját, könnyen készíthetnénk Smith éneklős videókat — vagy szinte bármit, ami kiemeli a potenciális aggályokat az AI videótechnológia körül. A kulturális szingularitás gyorsan közeleg. Ezzel összefüggésben nemrég végeztünk saját, kiterjedt videógenerálási tesztsorozatot a Veo 3-mal, és hamarosan megosztjuk az eredményeket egy dedikált cikksorozatban. Egyelőre pedig csupán rövid híradásként mondhatjuk: ez a friss priusz a Noodle Prince-ről. Jó étvágyat!
Brief news summary
A Google bemutatta a Veo 3-at, egy fejlett AI videószintézis modellt, amely képes szinkronizált nyolc másodperces HD videókat generálni hanggal, párbeszédekkel és hanghatásokkal – felülmúlva a korábbi eszközöket, amelyek csak szöveg nélküli vagy nagyon rövid klipekre voltak képesek. A tesztek során a Veo 3 sikeresen újból létrehozott egy mércét, például másolta az Oscar-díjas színész Will Smith által evett spagetti jelenetét egy alacsony minőségű, 2023-as videóból. Bár a modell hatékonyan szinkronizálta a videót és a hangot, a spagetti jelenet során egy különös „ ropogó” hang keletkezett, valószínűleg a tanulási adatok torzításai miatt, amelyek hangsúlyozták a rágógépet. A tartalmi szűrők blokkolják a „Will Smith” közvetlen utasításokat, de hasonló bemenetek még mindig okoznak hangproblémákat. Ezek ellenére a Veo 3 kiválóan teljesít koherens párbeszédek és zenék generálásában, és kreatív projekteket inspirál, például egy komikus spagetti-operát is. Ez az előrelépés jelentős lépés az élethű, AI által generált multimédia felé, bár a hírességek arcainak korlátozása még mindig kihívásokat jelent. A Veo 3 bemutatója kulturális vitákat indított az AI videók valósághűségéről és új színt adott a „Friss/Pihegő Herceg” spagetti történetéhez a folyamatos tesztelés közepette.
AI-powered Lead Generation in Social Media
and Search Engines
Let AI take control and automatically generate leads for you!

I'm your Content Manager, ready to handle your first test assignment
Learn how AI can help your business.
Let’s talk!

AZ MI-verseny felgyorsul a főbb technológiai beje…
Az artificial Intelligence iparág az elmúlt héten figyelemre méltó fejlődéseket tapasztalt, amelyek gyors innovációt és intenzív versenyt mutatnak a vezető technológiai vállalatok között.

Tudja Google még mindig meghatározó szerepet játs…
A Google 2025-ös fejlesztői konferenciáján a vállalat bemutatta fő keresőfunkciójának jelentős átalakítását, hangsúlyozva az mesterséges intelligencia jövőben betöltött kiemelkedő szerepét.

Washington lépéseket tesz a kriptovaluták terén: …
Ebben a heti epizódban a Byte-Sized Insight műsorán a Decentralize-on a Cointelegraphtal egy fontos fejlődést vizsgálunk az amerikai kriptószabályozásban.

A digitális eszközök útikalauza: Miért kezdik el …
Több mint 15 év telt el azóta, hogy az első Bitcoin megalkotását, és a kriptovaluta már most megvalósítja néhány korai ígéretét azzal, hogy átalakítja hosszú évtizedek óta fennálló pénzügyi rendszereket.

Íme a Google I/O legfontosabb 6 tanulsága, amelye…
A Google I/O konferencián ebben a héten a tech óriás körülbelül 100 bejelentést tett, jelezve törekvését arra, hogy uralja a mesterséges intelligenciát különböző területeken – az intelligens kereső újraalkotásától kezdve az AI-modellek és viselhető technológiák fejlesztéséig.

A Bitcoin átlépi a 111 000 dolláros határt: A Blo…
A Bitcoin ismét globális figyelmet kapott, miután első alkalommal meghaladta a 111 000 dollárt, amit intézményi befektetők, változó geopolitikai monetáris dinamika és egy felélesztett kriptó fellendülés hajt.

Mit gondol az AI, mi fog történni a születési jog…
Trump ellen a CASA ellen az MI-korszakban: Az Alkotmánybíróság véleményeinek szimulálása Múlt héten az Alkotmánybíróság meghallgatta a Trump v