Per pastaruosius metus AI generuojamų vaizdo difuzijos modelių pasiekta išskirtinių pažangų vaizdinio realistiškumo srityje, pavyzdžiui, OpenAI Sora 2, Google Veo 3 ir Runway Gen-4 modeliai tai puikiai rodo. AI vaizdo kūrimas artėja prie lemiamo etapo – naujausi modeliai geba kurti įspūdingus, realistiškus klipus. Tačiau šių modelių architektūra riboja jų naudojimą tiesioginėse, realaus laiko interaktyviose programose, nes jie generuoja vaizdo kadručius sekliniais veiksmais sudėtingais, daug skaičiavimų reikalaujančiais etapais. Kiekvieno segmento apdorojimas prieš pereinant prie kito sukelia vėlavimą, kuris trukdo tiesioginiam AI vaizdo transliavimui. Dauguma AI specialistų daugiausia dėmesio skiria klipų generavimui vėlesniam žiūrėjimui, o tiesioginė, akimirkinė AI vaizdo transformacija vis dar laikoma kelių metų tolima perspektyva. Decart komanda sėkmingai iškovojo šį architektūrinį barjerą ir sukūrė LSD v2 – modelį, kuris demonstruoja, kad minimalus vėlavimas įmanomas taikant naujoviškus metodus, taikomus įvairiems AI modeliams. Jie optimizavo infrastruktūrą, siekdami maksimizuoti GPU išnaudojimą ir paspartinti denoising procesą, kuris ypač svarbus klaidų kaupimosi prevencijai. LSD v2 naudoja priežastinę, auto-regresinę architektūrą, leidžiančią iš karto ir nuolat kurti vaizdus be laiko apribojimų. Svarbiausios inovacijos: 1. ** Neribotas generavimas naudojant priežastinius, auto-regresinius modelius** Norint užtikrinti transliacijos kokybę, vaizdo modeliai privalo veikti „priežastiniu“ režimu, generuodami kiekvieną kadrą tik remiantis anksčiau sukurtų kadrų informacija, taip sumažindami skaičiavimo apkrovą. Šis metodas užtikrina tęstinumą, bet ilgainiui kyla klaidų kaupimosi problema – smulkaus tikslumo trūkumai, kaip netikslus šešėlis, tampa vis labiau iškreipti, dažniausiai ribodami modelių gebėjimą kurti ilgesnius klipus. Tam Decart pagerino „difuzijos skatinimą“ (diffusion forcing), denoising procesą padarė efektyvesnį, ir pristatė „istorijos papildymą“ (history augmentation) – mokymo metodą, leidžiantį modeliams atpažinti ir ištaisyti pažeistus rezultatus. Priežastinis grįžtamasis ryšys naudoja ankstesnius sukurtus kadrus, esamą įvestį ir naudotojo užklausas, kas leidžia modeliui nesustodamas gerinti ir pakreipti rezultatą pagal poreikį – tai suteikia galimybę nuolat redaguoti ir transformuoti vaizdą realiu laiku remiantis vartotojo įvestimi. 2.
** Subsekundinis vėlavimas per GPU optimizaciją** Tiesioginis AI vaizdo kūrimas reikalauja, kad kiekvienas kadras būtų sugeneruotas per mažiau nei 40 miliseivandžių, siekiant išvengti matomų vėlavimų. Tačiau priežastiniai modeliai yra labai skaičiavimų intensyvūs ir priešinasi modernių GPU dizainui, kuris labiau orientuotas į didesnių paketų apdorojimą nei žemą vėlavimą. Decart sprendė tai optimizuodami Nvidia Hopper GPU branduolius, vietoj daugybės mažų branduolių, kurie dažnai būna užstrigę ir reikalinga daug duomenų judėjimo, sukūrė „mega branduolį“ – vieną didelį branduolį, kuris vykdo visas skaičiavimų užduotis nuosekliai. Tai žymiai padidino GPU našumą ir toks požiūris sumažino apdorojimo laiką dešimtimis kartų, primenantį Henry Ford’o surinkimo liniją, optimizavusią gamybą ir darbo eigą. 3. ** Tikslusis ir trumpinių distiliavimas efektyvumui** Dažnai neuroniniai tinklai būna per daug parametrų turintys ir užpildyti nereikalingais elementais, kurie nesuteikia pridėtinės vertės generuojant galutinį vaizdą. Decart naudojo „architektūros žinojimu paremtą apkarpymą“ (architecture-aware pruning), siekiant pašalinti nereikalingus parametrus ir taip sumažinti skaičiavimo išteklių poreikį bei pritaikyti modelius prie specifinės aparatinės įrangos galimybių. Be to, jie sukūrė „trumpinių distiliavimą“ (shortcut distillation), kuris leidžia mažesniems, lengvesniems modeliams įgyvendinti tokį patį denoising greitį kaip ir galingesniems, daug energijos naudojantiems modeliams. Naudodami šiuos trumpinius modelius gaunama sumažinta darbo eiga ženkliai spartina galutinio vaizdo generavimą, kas leidžia pasiekti dar mažesnį vėlavimą ir spartesnį rezultatų kūrimą. Šios naujovės kartu leidžia kurti vaizdus su mažiau nei sekundės vėlavimu, tai – milžiniškas žingsnis, atveriantis duris interaktyviam AI vaizdo naudojimui. Vartotojai gali nuolat redaguoti ir adaptuoti turinį realiu laiku – keisti kadrus, apšvietimą, kameros kampus, veiksmo išraiškas ar kitus elementus, todėl pasakojimą paverčiant dinamiška, vartotojo valdoma patirtimi. Kfir Aberman, Decart AI įkūrėjas ir San Francisko biuro vadovas, vadovauja pastangoms paversti realaus laiko generatyvaus vaizdo tyrimus į naujus produktus. Jo darbai susiję su kuriant interaktyvias, personalizuotas AI sistemas, kurios jungia mokslinių tyrimų pažangą su kūrybiniais vartotojų patirties sprendimais.
Decart AI LSD v2 proveržis leidžia realiu laiku ir žemu delsos kiekybiniu dirbtinio intelekto vaizdo generavimu
SMM 2024, pagrindinė tarptautinė jūrų prekybos paroda, vykusi Hamburge, išryškino dirbtinio intelekto (DI) svarbų vaidmenį skatinant jūrų pramonės skaitmeninę transformaciją.
Kongreso demokratai reiškia rimtą susirūpinimą dėl galimybės, kad JAV netrukus gali pradėti pardavinėti pažangias lustas vienam svarbiausių savo geopolitinių priešininkų.
Neseniai Google DeepMind pristatė novatorišką dirbtinio intelekto sistemą pavadinimu AlphaCode, žymėdama reikšmingą žingsnį į priekį AI pagalba vykdomo programavimo srityje.
Remiantis pranešimais, OpenAI rengiasi pritraukti iki 100 milijardų JAV dolerių naujų lėšų, galimai pakeliamų jo įvertinimą iki įspūdingo 830 milijardų JAV dolerių.
Žaidimų industrija patiria didžiulį pokytį, kurį lemia pažangi dirbtinio intelekto (DI) technologija, ypač realistinio grafikos atkūrimo srityje.
Dirbtinis intelektas (DI) giliau keičia skaitmeninį marketingą, reikšmingai paveikdamas Paieškos sistemų optimizavimą (PSO).
Rebekah Carter Greitai auganti dirbtinio intelekto (DI) žala rinkodaroje yra akivaizdi – nuo pradinio kopijavimo generatorių bandymų iki DI dabar formuojančio visus reklamos biudžetus, turinio srautus ir klientų segmentus
Launch your AI-powered team to automate Marketing, Sales & Growth
and get clients on autopilot — from social media and search engines. No ads needed
Begin getting your first leads today