Kiire kvaliteetsete piltide genereerimine on hädavajalik realistlike simuleeritud keskkondade loomiseks, mis aitavad koolitada isesõitvaid autosid navigatsiooni ettearvamatu riski korral ohutult. Siiski on praegused genereerivad tehisintellekti tehnikad, eriti difusioonimudelid, sageli liiga aeglased ja arvutusressursimahukad. Kuigi autoregressiivsed mudelid, nagu näiteks LLM-i (suur keelemudel) nagu ChatGPT, töötavad palju kiiremini, toodavad nad tavaliselt madalama kvaliteediga pilte, mis on täis vigu. MIT-i ja NVIDIA teadlased on tutvustanud HART-i (hübriidne autoregressiivne transformeerija), uut pildigeneratsiooni meetodit, mis ühendab mõlema lähenemise tugevused. HART kasutab autoregressiivset mudelit, et kiiresti välja tuua pildi peamised jooned, ning seejärel rakendab väiksemat difusioonimudelit nende detailide täiendamiseks. See innovatiivne tööriist genereerib pilte, mis konkureerivad või ületavad tipptasemel difusioonimudelite kvaliteeti, kuid töötab umbes üheksa korda kiiremini ja vajab vähem arvutusressursse, võimaldades tööd tavalisel sülearvutil ja nutitelefonides. HART-i rakenduste hulka kuulub teadlaste abistamine robotite koolitamisel keeruliste ülesannete jaoks ja disainerite toetamine atraktiivsete stseenide loomisel videomängude jaoks.
„Nii nagu toore maali viimistlemine detailsete pintslitõmmetega parandab selle kvaliteeti, ühendab HART laia pildigeneratsiooni hoolika detailitööga, ” ütleb üks uurimistöö peamisi autoreid Haotian Tang. Difusioonimudelid, mis vajavad piltide müra vähendamiseks mitmeid samme, suudavad toota väga detailsed visuaalid, kuid on aeglased ja ressursimahukad. Vastupidiselt genereerivad autoregressiivsed mudelid pilte kiiremini, luues tükke järjestikku, kuid kannatavad info kadumise all, mis viib madalama kvaliteedini. HART ületab need piirangud, ennustades esmalt eraldi pildi token’id autoregressiivse mudeliga, seejärel kasutades difusioonimudelit nende tagasi lisamiseks, võimaldades kiiret ja kvaliteetset pildigeneratsiooni vaid kaheksas etapis. Arenduse käigus seisid teadlased silmitsi integreerimisprobleemidega, kuid parandasid HART-i kvaliteeti, rakendades difusioonimudelit ainult jääk-token’ite ennustamiseks. Nende lõplik disain kasutab 700 miljoni parameetriga autoregressiivset mudelit koos 37 miljoni parameetriga difusioonimudeliga, saavutades pildikvaliteedi, mis on võrreldav suuremate difusioonimudelitega (kuni 2 miljardit parameetrit), kasutades 31% vähem arvutusvõimet. Edasi vaadates kavatseb meeskond arendada HART-i arhitektuuri visioon-keele mudeleid ja uurida rakendusi videogeneerimises ning heliprognoosimises, mis võib potentsiaalselt revolutsiooniliselt muuta suhtlemist genereerivate mudelitega. Seda uurimistööd toetasid mitmed organisatsioonid, sealhulgas MIT-IBM Watson AI Labor ja NVIDIA, mis andis GPU ressursse mudeli koolitamiseks.
MIT ja NVIDIA tutvustavad HART-i: revolutsiooniline pildigeneratsiooni meetod
Viimase 18 kuu jooksul on SaaStri meeskond end süvendatult AI ja müügi alal arendanud ning juunis 2025 algas seal tõsine kiirenemine.
OpenAI valmistub käivitama GPT-5, järgmist suuremat sammu oma suurte keelemudelite sarjas, mille avaldamine on oodata 2026.
Tehisintellekt (TI) shapingub kiiresti sisuloome ja optimeerimise valdkonda otsingumootori optimeerimise (SEO) sees.
Kaugtöö muutmine on toonud esile tõhusa suhtlusvahendite olulisuse ning viinud AI-toega videokonverentsilahenduste arenguni, mis võimaldavad sujuvat koostööd kaugustes.
Ülevaade Globaalse tehisintellekti turg meditsiinis oodatakse jõuab kuni 2033
John Mueller Google’ist korraldas koos Danny Sullivaniga, kes samuti Google’ist on, Search Off the Record podcasti, arutamaks teemat „ Mõtted SEO-st ja AI jaoks
Lühike ülevaade: Lexus on lansseerinud pühade turunduskampaania, mis on loodud generatiivse tehisintellekti abil, teatab pressiteade
Launch your AI-powered team to automate Marketing, Sales & Growth
and get clients on autopilot — from social media and search engines. No ads needed
Begin getting your first leads today