Hétfőn a Google bemutatta a Veo 3-at, egy új AI videószintézis modellt, amely képes elérni valami eddig még soha nem sikerült főbb AI videógenerátoroknak: szinkronizált hangnyomvonalat készíteni a videóval együtt. 2022 és 2024 között az AI által generált korai videók hangtalanok voltak, és általában nagyon rövidek. Most a Veo 3 nyolc másodperces, HD minőségű klipeket szállít hangokkal, párbeszédekkel és hanghatásokkal együtt. A bemutató után az emberek azonnal felvetették a nyilvánvaló normárolapot kérdést: Mennyire képes a Veo 3 például hamisítani Oscar-díjas színész Will Smith-et, ahogy spaghetti-et eszik? Rövid összefoglaló: az „spaghetti normálap” az AI videóban 2023 márciusában kezdődött egy korai, eléggé bizarr AI-generált videóval, amelyet az Open Source szintézismodell, a ModelScope készített. Ez a spaghetti példája olyan jól ismertté vált, hogy Smith majdnem egy évvel később, 2024 februárjában majdhogynem parodizálta. Íme egy emlékeztető arra, hogyan nézett ki az eredeti vírusképek: Ami gyakran elfelejtődik, az az, hogy akkoriban Smith paródiáját nem a legjobb AI videógenerátorral készítették — a Runway által kifejlesztett Gen-2 modell már magasabb minőségű eredményeket nyújtott, bár még nem volt nyilvánosan elérhető. Mégis, a ModelScope változat elég különleges és emlékezetes volt ahhoz, hogy az AI videó korlátait jelző mérföldkővé váljon a technológia fejlődésével. Korábban ezen a héten az AI alkalmazásfejlesztő, Javi Lopez reagált a rajongókra, akik szívesen visszatértek a spaghetti teszttel Veo 3 használatával, és megosztotta eredményeit az X-en. Az eredmények nézésekor azonban a hangsáv furcsának tűnt: a hamis Smith úgy hangzott, mintha ropogtatná a spagettit. Ez a hiba abból adódik, hogy a Veo 3 kísérleti módon képes hanghatásokat hozzáadni, valószínűleg azért, mert a betanító adataiban számos olyan példát tartalmazott, ahol megrágás és ropogó hangok voltak. A generatív AI modellek mintázatfelismerő predikciós rendszerek, amelyek megfelelő betanításon alapulva tudnak meggyőző eredményeket produkálni különböző médiumokban.
Amikor bizonyos fogalmak túl vagy alul vannak reprezentálva az adatokban, olyan különös generálási hibák keletkeznek, mint ez. Mi magunk is kipróbáltuk a promptot a Veo 3-on, de a „Will Smith” kifejezés a Google tartalomszűrői miatt blokkolva volt. Azonban a „Fekete férfi spaghetti evés” kérés hasonló ropogó hanghatást eredményezett (Lopez talán korai szűrő nélküli hozzáféréssel rendelkezett, vagy kísérletezett azokkal a prompt-változatokkal, amik átmentek a szűrőkön). A Veo 3 lenyűgöző a koherens párbeszéd és zene generálásában, mely már számos figyelemre méltó példát inspirált az X-en. Nem elégedtünk meg a puszta videóval, amin egy férfi nagyon kemény tésztát eszik, és megkérdeztük, vajon egyszerre énekelhet-e és ehet-e a figura egyidejűleg: „Egy férfi angol nyelvű vígjáték-operát énekel a konyhai asztalnál a spaghetti-ről, miközben eszik. ” 2023 óta jelentős fejlődést értünk el, és az AI videógenerátorok továbbra is javítani fognak a realisztikusságon és a funkcionalitáson. Ha nem vennénk figyelembe a Veo 3 aktuális celeb-szűrő funkcióját, könnyen készíthetnénk Smith éneklős videókat — vagy szinte bármit, ami kiemeli a potenciális aggályokat az AI videótechnológia körül. A kulturális szingularitás gyorsan közeleg. Ezzel összefüggésben nemrég végeztünk saját, kiterjedt videógenerálási tesztsorozatot a Veo 3-mal, és hamarosan megosztjuk az eredményeket egy dedikált cikksorozatban. Egyelőre pedig csupán rövid híradásként mondhatjuk: ez a friss priusz a Noodle Prince-ről. Jó étvágyat!
Google Veo 3 AI Videó Generátor:hang és videó szinkronizálása lenyűgöző realitással
Ez az esettanulmány bemutatja a mesterséges intelligencia (MI) átformáló hatását a keresőoptimalizálási (SEO) stratégiákra különböző vállalkozások körében.
A mesterséges intelligencia (MI) gyorsan forradalmasítja a marketinget, különösen az MI által generált videók révén, amelyek lehetővé teszik a márkák számára, hogy mélyebb kapcsolódást alakítsanak ki közönségükkel a rendkívül személyre szabott tartalmak révén.
Mesterséges intelligencia (MI) mélyen befolyásolja számos iparágat, különösen a marketinget.
Figyelemmel kísérem az agentikus SEO megjelenését, bizakodva abban, hogy az AI képességeinek fejlődésével az elkövetkező években az ügynökök mélyen átalakítják majd az iparágat.
A tajvani HTC az open platform megközelítésében bízik, hogy növelje piaci részesedését a gyorsan növekvő okosszemüveg szektorban, mivel legújabb AI-alapú szemüvege lehetővé teszi a felhasználók számára, hogy kiválasszák, melyik AI modellt kívánják használni – mondta egy vezető.
A mesterséges intelligencia (MI) részvényei továbbra is erősen teljesítenek 2025-ben, építve a 2024-es nyereségekre.
Az utóbbi években egyre több iparág alkalmazza a mesterséges intelligencia által vezérelt videóelemzést, mint hatékony eszközt a értékes betekintések kinyerésére hatalmas vizuális adathalmazokból.
Launch your AI-powered team to automate Marketing, Sales & Growth
and get clients on autopilot — from social media and search engines. No ads needed
Begin getting your first leads today