Během uplynulého roku zaznamenaly modely pro difuzi videa generovaná umělou inteligencí pozoruhodný pokrok v oblasti vizuálního realismu, což demonstrují například modely jako Sora 2 od OpenAI, Veo 3 od Googlu a Runway Gen-4. Generování videa pomocí AI dosahuje klíčové fáze, přičemž nejnovější modely dokážou vytvářet ohromující, věrné klipy. Nicméně architektura těchto modelů omezuje jejich použití pro interaktivní aplikace v reálném čase, protože generují snímky videa sekvenčně prostřednictvím složitých, výpočetně náročných kroků. Zpracování každé části před přechodem na další způsobuje latenci, což znemožňuje živé streamování videa s AI. Většina odborníků na AI se zaměřuje na tvorbu klipů pro pozdější sledování, zatímco živé, okamžité AI video přeměny jsou stále vzdálené roky. Tým Decart však tento architektonický problém zpochybnil a vyvinul LSD v2, model, který demonstruje, že je možné dosáhnout minimální latence prostřednictvím nových přístupů platných pro různé AI modely. Optimalizovali infrastrukturu tak, aby maximalizovali využití GPU a urychlili proces odstraňování šumu, klíčový pro prevenci hromadění chyb. LSD v2 využívá kauzální, auto-regresivní architekturu, která umožňuje okamžité a kontinuální generování videa bez omezení délky výstupu. Klíčové inovace zahrnují: 1. **Nekonečná generace prostřednictvím kauzálních, auto-regresivních modelů** Pro umožnění streamovaného výstupu musí modely videa fungovat “kauzálně, ” tedy produkovat každý snímek pouze na základě předchozích snímků, čímž snižují výpočetní náročnost. Tento přístup zajišťuje kontinuitu, ale časem dochází k akumulaci chyb – drobné nepřesnosti, například posunutý stín, se začínají stále více zkreslovat, což omezuje modely na krátké klipy. Aby tomu zabránili, Decart zvýšil “diffusion forcing” pro odstraňování šumu při generování snímků a zavedl “history augmentation” – trénování modelů, aby rozpoznávaly a opravovaly narušené výstupy. Kauzální zpětná vazba bere v úvahu předem vygenerované snímky, aktuální vstup a podněty od uživatele, což modelu umožňuje identifikovat a odstraňovat artefakty a nekonečně produkovat vysoce kvalitní obsah. Tato metoda umožňuje kontinuální, v reálném čase, editování a transformaci na základě uživatelských požadavků. 2. **Dosáhnutí latence pod jednu sekundu pomocí optimalizace GPU** Reálné interaktivní AI video vyžaduje generování každého snímku do 40 milisekund, aby se zabránilo patrné prodlevě.
Avšak výpočetně náročné kauzální modely AI kolidují s návrhem moderních GPU, které jsou optimalizovány na zpracování velkých dávkových úloh místo nízké latence. Decart to vyřešil důkladnou optimalizací jader Nvidia Hopper. Místo použití mnoha malých jader, které způsobují časté zastavky, starty a pohyb dat, vytvořili jedno “mega jádro, ” které provádí všechny výpočty najednou v jednom plynulém průchodu. Tento přístup výrazně zvyšuje využití GPU a zrychluje zpracování o řád, podobně jako zavedení montážní linky Henryho Forda revolucionalizovalo výrobu tím, že zefektivnilo sekvenční práce. 3. **Ořezávání a zjednodušená destilace pro vyšší účinnost** Neurální sítě mají tendenci být nadměrně parametrizované, obsahují zbytečně mnoho parametrů, které nejsou nezbytné pro generování požadovaného výstupu. Decart použil “architekturu vědomé ořezávání, ” aby odstranil nadbytečné parametry, čímž snížil výpočetní náročnost a přesně přizpůsobil modely hardwarové architektuře. Navíc vyvinuli “shortcut distillation, ” při níž lépe upravili menší, lehké modely, aby odpovídaly rychlosti odstraňování šumu větších, náročnějších modelů. Použití těchto zkrácených modelů snižuje počet kroků potřebných k vytvoření koherentního snímku, což souhrnně šetří čas a urychluje celkovou produkci. Tyto průlomy umožňují generování videa s latencí pod sekundu, což je klíčový milník otevírající cestu k interaktivnímu využití AI videa, dříve nemožného. Uživatelé mohou nepřetržitě upravovat obsah za běhu, přizpůsobovat videa naživo na základě podnětů nebo zpětné vazby publika. Tato schopnost přináší vzrušující možnosti pro živé vysílací influencery a Twitch streamery, kteří mohou dynamicky modifikovat obsah během svého vysílání. Kromě zábavy má tato technologie potenciál také pro živé videohry, umožňující AI-generované sekvence, které se v reálném čase přizpůsobují rozhodnutím hráčů – například větvené příběhy ovlivněné volbami uživatele. Ovliňuje také rozšířenou realitu, imerzivní vzdělávání a velká marketingová akce. Navíc AI-generovaná videa slouží jako neuronové renderovací enginy pro profesionály jako architekty a designéry interiérů, umožňují rychlé prototypování stylů a témat prostřednictvím podnětů před finálním návrhem. Nejzajímavější je, že odstranění latence při současném umožnění nekonečné generace videa umožňuje tvůrcům zkoumat dlouhý obsah interaktivně. Mohou upravovat scény, osvětlení, úhly kamer či výrazy postav v reálném čase, jak se video odvíjí, a tak proměnit vyprávění příběhu v dynamický zážitek řízený uživatelem. Kfir Aberman, zakládající člen Decart AI a vedoucí jeho kanceláře ve sféře San Francisca, vede snahy o přeměnu výzkumu generativního videa v produkty. Jeho práce se zaměřuje na vytváření interaktivních, personalizovaných AI systémů, které spojují excelenci ve výzkumu s tvůrčími uživatelskými zážitky.
Decart AI LSD v2 Přelom umožňuje skutečnou časovou, nízkonákladovou generaci AI videí
Výzkumná laboratoř umělé inteligence společnosti Meta nedávno oznámila zásadní průlom v oblasti počítačového vidění, což naznačuje nadějný pokrok v technologii rozpoznávání objektů.
Brightcove, přední globální poskytovatel cloudových služeb v oblasti obsahu, oznámil spuštění sedmi nových funkcí navržených tak, aby zvýšily globální dosah, posílily zapojení publika, zlepšily kvalitu živého streamování a zjednodušily video pracovní postupy.
Umělá inteligence (AI) rychle proměňuje oblast optimalizace pro vyhledávače (SEO) a stává se klíčovým prvkem v tom, jak vyhledávače hodnotí obsah a jak marketéři plánují své strategie.
Rychlý růst technologií umělé inteligence (AI) v letošním roce vedl k výraznému nárůstu poptávky napříč různými sektory, což značně ovlivnilo průmysl měděných fólií.
Mondeléz International, výrobce značek Oreo, Chips Ahoy!, Ritz a Perfect Bar, vyvinul generativní AI nástroj nazvaný AIDA (AI + Data), který má personalizovat reklamu a zvýšit zapojení spotřebitelů u svých špičkových značek.
Podle zpráv Microsoft snížil své cíle růstu prodeje některých produktů umělé inteligence (AI) poté, co řada prodejních pracovníků nesplnila své cíle v rámci fiskálního roku končícího v červnu, píše ve středu server The Information.
Umělá inteligence rychle přetváří marketingové prostředí tím, že nabízí nové nástroje, poznatky a příležitosti, které pomáhají podnikům efektivněji spojit se se svým publikem.
Launch your AI-powered team to automate Marketing, Sales & Growth
and get clients on autopilot — from social media and search engines. No ads needed
Begin getting your first leads today