Az elmúlt évben az AI által generált videó diffúziós modellek jelentős fejlődésen mentek keresztül a vizuális realisztikusság terén, amit például az OpenAI Sora 2, a Google Veo 3 és a Runway Gen-4 modelljei bizonyítanak. Az AI videógenerálás fordulópontnál jár, mivel a legújabb modellek lenyűgöző, élethű klippek létrehozására képesek. Azonban ezek a modellek architektúrája korlátozza használatukat valós idejű interaktív alkalmazásokban, mivel a videóképként történő generálásuk összetett, számításigényes lépéseken keresztül történik, és a felbontás során egymás után képkockákat állítanak elő. Minden új darab feldolgozása előtt a folyamat késleltetést okoz, így a valós idejű AI videóstreaming nem megvalósítható. A legtöbb AI szakértő inkább későbbi megtekintésre szánt klippek generálására fókuszál, míg a közvetlen, azonnali AI videóátalakítás még évek kérdése. A Decart csapata ezt az architekturális akadályt áttörte, és kifejlesztette az LSD v2-t, egy olyan modellt, amely minimális késleltetést tesz lehetővé, új megközelítésekkel, amelyek különböző AI modellekre is alkalmazhatók. Az infrastruktúrát optimalizálták, hogy a GPU-k kihasználtságát maximálisan ki tudják aknázni, valamint felgyorsították a denoising (zajtalanítási) folyamatot, amely kulcsfontosságú a hibaösszegyűjtés megakadályozásában. Az LSD v2 egy okkal és autoregresszív (önreferens) architektúrát alkalmaz, így képes instant és folyamatos videót generálni, a hosszt nem korlátozva. Fő innovációk: 1. **Végtelen generálás okkal és autoregresszív modellekkel** A streaming kimenet eléréséhez a videómodelleknek „okkal” kell működniük, azaz minden képkockát csak a korábban generáltak alapján kell előállítaniuk, ezzel csökkentve a számítási igényt. Ez a módszer biztosítja a folyamatosságot, de idővel hibák halmozódását eredményezi—kis pontatlanságok, mint például félrekötött árnyékok, egyre inkább torzulnak. Ennek ellensúlyozására a Decart fejlesztette a „diffúziós kényszerítést”, amely a képkockák generálás közben zajtalanítja, valamint bevezette a „történeti bővítést”, amely tréning közben megtanítja a modelleket a hibás kimenetek felismerésére és javítására. A causal (okkal működő) visszacsatolási hurok figyelembe veszi a korábban generált képkockákat, a jelenlegi bemenetet, valamint a felhasználói promptsokat, így a modell képes az artefaktusokat azonosítani és kijavítani, továbbá kiváló minőségű tartalmat generálni korlátok nélkül. Ez lehetővé teszi a folyamatos, valós idejű szerkesztést és átalakítást felhasználói irányítással. 2. **Alattock in latency és GPU-optimalizáció** Ahhoz, hogy valós idejű interaktív AI videót hozzunk létre, minden kép kb. 40 ms alatt kell, hogy meglegyen, így elkerülhető a látható késés.
Azonban a causal AI modellek számításigénye ellenáll a modern GPU-k tervezésének, amelyek inkább nagyobb csomagok feldolgozására vannak optimalizálva, mint a minimális késleltetésre. A Decart ezt úgy érte el, hogy mélyen optimalizálta az Nvidia Hopper GPU-k kerneleit. Ahelyett, hogy sok apró kernel futna, amelyek gyakori állásokat és adatmozgatást okoznának, egy „óriáskernen” futtatják az összes modellt, egy folyamatos, egységes futtatás keretében. Ez drasztikusan javítja a GPU kihasználtságot és akár tízszeres gyorsítást jelent—theszerűen, ahogy Henry Ford tömegtermelési során forradalmasította a gyártást a szekvenciális munkafolyamatok egyszerűsítésével. 3. **Átalakítás és rövidítés a hatékonyságért** A neurális hálózatok gyakran túlparaméterezettek, sok szükségtelen paraméterrel rendelkeznek, amelyek nem járulnak hozzá a kívánt kimenethez. A Decart az „architektúra-tudatos vágással” (pruning) távolította el a redundáns paramétereket, csökkentve a számítási terhet, és a modelleket szorosan a hardver architektúrájához igazította. Emellett kifejlesztették a „gyorsított rövidítést” (shortcut distillation), amellyel kisebb, könnyebb modelleket finomhangoltak, így azok gyorsabban tudják elvégezni a denoisinget, és elérik a nagyobb, energiaigényes modellek sebességét. Ezek a rövidített modellek csökkentik az egyes képkocka generálásához szükséges lépések számát, ezzel folyamatos időmegtakarítást és gyorsabb teljesítményt biztosítva. Ezek az áttörések összességében lehetővé teszik, hogy a videókat valós idejű, alatti készítési idő alatt állítson elő, ami kulcsfontosságú mérföldkő az AI-videó interaktív felhasználásában. A felhasználók folyamatosan szerkeszthetik, testre szabhatják a tartalmat, és élesben módosíthatják a videókat promptsok vagy közönséginput alapján. Ez az innováció különösen ígéretes az élő közvetítésben dolgozó influencerek és Twitch-szörfösök számára, akik dinamikusan változtathatják a tartalmat a közvetítés során. Az szórakoztatáson túl ez a technológia ígéretet hordoz élő videójátékokhoz is, lehetővé téve olyan AI-generált szekvenciák készítését, amelyek valós időben alkalmazkodnak a játékos döntéseihez, például elágazó narratívákban. Hatással van az extended reality-re (bővített valóság), az immersive oktatásra és nagyszabású marketingeseményekre is. Továbbá, az AI által generált videók neurol rendering motorokként szolgálnak szakemberek, például építészek és belsőépítészek számára, lehetővé téve a stílusok és témák gyors prototípus készítését promptok segítségével, mielőtt véglegesítenék terveiket. Legjelentősebben az a képesség, hogy megszüntetjük a késleltetést, miközben végtelen videó generálására nyílik lehetőség, felhatalmazva a alkotókat hosszabb tartalmak interaktív felfedezésére. Valós időben módosíthatják a jeleneteket, a világítást, a kamerák szögeit és a karakterek arckifejezéseit, így a történetmesélés nemcsak statikus folyamat, hanem egy dinamikus, felhasználó irányította élmény lesz. Kfir Aberman, a Decart AI alapító tagja és a szanfranciszkozói irodájának vezetője az ő egyik vezető munkatársa, aki a valós idejű generatív videókutatás termékké alakításán dolgozik. Munkája központjában az interaktív, személyre szabott AI rendszerek építése áll, amelyek ötvözik a kiváló kutatási eredményeket és a kreatív felhasználói élményt.
A Decart AI LSD v2 áttörése lehetővé teszi valós idejű, alacsony késleltetésű AI-alapú videó generálást
Az SMM 2024-en, amely Hamburgban megrendezett vezető nemzetközi tengeri kereskedelmi kiállítás, kiemelt szerepet kapott a mesterséges intelligencia (MI) fontossága a tengeri ipar digitalizációs folyamatának felgyorsításában.
Az amerikai kongresszusi demokrata képviselők komoly aggodalmukat fejezték ki amiatt, hogy az Egyesült Államok hamarosan elkezdhet fejlett chipeket értékesíteni egyik legjelentősebb geopolitikai riválisának.
A Google DeepMind nemrég bemutatta az AlphaCode névre keresztelt innovatív mesterséges intelligencia rendszert, ami jelentős lépést jelent az AI-alapú szoftverfejlesztésben.
Az OpenAI várhatóan akár 100 milliárd US-dollár értékű új finanszírozást tervez összehozni, ami potenciálisan az értékelését lenyűgöző, 830 milliárd dollárra növelheti.
A játékipar jelentős változásokon megy keresztül, amelyek a fejlett mesterséges intelligencia (AI) által vezéreltek, különösen a valósághű grafikai megjelenítés terén.
Mesterséges Intelligencia (MI) mélyrehatóan alakítja át a digitális marketinget, jelentősen befolyásolva a Keresőoptimalizálást (SEO).
Rebekah Carter Az AI gyors fejlődése a marketingben rendkívüli módon feltűnő volt—kezdeti próbálkozások az írógenerátorokkal, majd az AI most már teljes hirdetésköltségvetéseket, tartalmi láncokat és ügyfélcsoportokat formál
Launch your AI-powered team to automate Marketing, Sales & Growth
and get clients on autopilot — from social media and search engines. No ads needed
Begin getting your first leads today