lang icon En
March 21, 2025, 8:28 a.m.
1859

MIT ja NVIDIA tutvustavad HART-i: revolutsiooniline pildigeneratsiooni meetod

Brief news summary

Kvaliteetsete piltide vajadus on eluliselt tähtis realistlike virtuaalsete keskkondade arendamisel, eriti koolituste jaoks ja enesekehtestamisautode ohutuse tagamiseks. Traditsioonilised genereerivad tehisintellekti tehnikad, nagu difusioonimudelid, pakuvad suurepärast visuaalset kvaliteeti, kuid on aeglased ja ressursimahukad. Vastupidiselt, autoregressiivsed mudelid, nagu ChatGPT, võimaldavad kiiret piltide genereerimist, kuid sageli puuduvad neil detailid. Nende probleemide lahendamiseks on MIT ja NVIDIA tutvustanud HARTi (Hybrid Autoregressive Transformer), tipptasemel pildigeneratsiooni tööriista, mis ühendab mõlema meetodi eelised. HART kasutab kiire pildigeneratsiooni jaoks autoregressiivset mudelit, mida täiustatakse seejärel väikese difusioonimudeli abil, et saavutada parem detailitus. See hübriidne lähenemine võimaldab HARTil toota pilte, mis konkureerivad parimate difusioonimudelite omadega, saavutades tulemusi üheksa korda kiiremini ja vähendades arvutusnõudmisi. HARTi võime genereerida kvaliteetseid pilte loomuliku keele sisenditest kergesti ligipääsetavatel seadmetel avab uusi võimalusi valdkondades nagu robootika ja videomängude disain. Tulevased arengud võivad hõlmata HARTi sidumist ühtsete visioonikeele mudelitega, mis tähistab olulist hüpet edasi tehisintellektiga täiustatud visuaalse sisu loomises.

Kiire kvaliteetsete piltide genereerimine on hädavajalik realistlike simuleeritud keskkondade loomiseks, mis aitavad koolitada isesõitvaid autosid navigatsiooni ettearvamatu riski korral ohutult. Siiski on praegused genereerivad tehisintellekti tehnikad, eriti difusioonimudelid, sageli liiga aeglased ja arvutusressursimahukad. Kuigi autoregressiivsed mudelid, nagu näiteks LLM-i (suur keelemudel) nagu ChatGPT, töötavad palju kiiremini, toodavad nad tavaliselt madalama kvaliteediga pilte, mis on täis vigu. MIT-i ja NVIDIA teadlased on tutvustanud HART-i (hübriidne autoregressiivne transformeerija), uut pildigeneratsiooni meetodit, mis ühendab mõlema lähenemise tugevused. HART kasutab autoregressiivset mudelit, et kiiresti välja tuua pildi peamised jooned, ning seejärel rakendab väiksemat difusioonimudelit nende detailide täiendamiseks. See innovatiivne tööriist genereerib pilte, mis konkureerivad või ületavad tipptasemel difusioonimudelite kvaliteeti, kuid töötab umbes üheksa korda kiiremini ja vajab vähem arvutusressursse, võimaldades tööd tavalisel sülearvutil ja nutitelefonides. HART-i rakenduste hulka kuulub teadlaste abistamine robotite koolitamisel keeruliste ülesannete jaoks ja disainerite toetamine atraktiivsete stseenide loomisel videomängude jaoks.

„Nii nagu toore maali viimistlemine detailsete pintslitõmmetega parandab selle kvaliteeti, ühendab HART laia pildigeneratsiooni hoolika detailitööga, ” ütleb üks uurimistöö peamisi autoreid Haotian Tang. Difusioonimudelid, mis vajavad piltide müra vähendamiseks mitmeid samme, suudavad toota väga detailsed visuaalid, kuid on aeglased ja ressursimahukad. Vastupidiselt genereerivad autoregressiivsed mudelid pilte kiiremini, luues tükke järjestikku, kuid kannatavad info kadumise all, mis viib madalama kvaliteedini. HART ületab need piirangud, ennustades esmalt eraldi pildi token’id autoregressiivse mudeliga, seejärel kasutades difusioonimudelit nende tagasi lisamiseks, võimaldades kiiret ja kvaliteetset pildigeneratsiooni vaid kaheksas etapis. Arenduse käigus seisid teadlased silmitsi integreerimisprobleemidega, kuid parandasid HART-i kvaliteeti, rakendades difusioonimudelit ainult jääk-token’ite ennustamiseks. Nende lõplik disain kasutab 700 miljoni parameetriga autoregressiivset mudelit koos 37 miljoni parameetriga difusioonimudeliga, saavutades pildikvaliteedi, mis on võrreldav suuremate difusioonimudelitega (kuni 2 miljardit parameetrit), kasutades 31% vähem arvutusvõimet. Edasi vaadates kavatseb meeskond arendada HART-i arhitektuuri visioon-keele mudeleid ja uurida rakendusi videogeneerimises ning heliprognoosimises, mis võib potentsiaalselt revolutsiooniliselt muuta suhtlemist genereerivate mudelitega. Seda uurimistööd toetasid mitmed organisatsioonid, sealhulgas MIT-IBM Watson AI Labor ja NVIDIA, mis andis GPU ressursse mudeli koolitamiseks.


Watch video about

MIT ja NVIDIA tutvustavad HART-i: revolutsiooniline pildigeneratsiooni meetod

Try our premium solution and start getting clients — at no cost to you

I'm your Content Creator.
Let’s make a post or video and publish it on any social media — ready?

Language

Hot news

All news

AI Company

Launch your AI-powered team to automate Marketing, Sales & Growth

and get clients on autopilot — from social media and search engines. No ads needed

Begin getting your first leads today