News
>
MIT ja NVIDIA tutvustavad HART-i: revolutsiooniline pildigeneratsiooni meetod

March 21, 2025, 8:28 a.m.

MIT ja NVIDIA tutvustavad HART-i: revolutsiooniline pildigeneratsiooni meetod

Brief news summary

Kvaliteetsete piltide vajadus on eluliselt tähtis realistlike virtuaalsete keskkondade arendamisel, eriti koolituste jaoks ja enesekehtestamisautode ohutuse tagamiseks. Traditsioonilised genereerivad tehisintellekti tehnikad, nagu difusioonimudelid, pakuvad suurepärast visuaalset kvaliteeti, kuid on aeglased ja ressursimahukad. Vastupidiselt, autoregressiivsed mudelid, nagu ChatGPT, võimaldavad kiiret piltide genereerimist, kuid sageli puuduvad neil detailid. Nende probleemide lahendamiseks on MIT ja NVIDIA tutvustanud HARTi (Hybrid Autoregressive Transformer), tipptasemel pildigeneratsiooni tööriista, mis ühendab mõlema meetodi eelised. HART kasutab kiire pildigeneratsiooni jaoks autoregressiivset mudelit, mida täiustatakse seejärel väikese difusioonimudeli abil, et saavutada parem detailitus. See hübriidne lähenemine võimaldab HARTil toota pilte, mis konkureerivad parimate difusioonimudelite omadega, saavutades tulemusi üheksa korda kiiremini ja vähendades arvutusnõudmisi. HARTi võime genereerida kvaliteetseid pilte loomuliku keele sisenditest kergesti ligipääsetavatel seadmetel avab uusi võimalusi valdkondades nagu robootika ja videomängude disain. Tulevased arengud võivad hõlmata HARTi sidumist ühtsete visioonikeele mudelitega, mis tähistab olulist hüpet edasi tehisintellektiga täiustatud visuaalse sisu loomises.

Kiire kvaliteetsete piltide genereerimine on hädavajalik realistlike simuleeritud keskkondade loomiseks, mis aitavad koolitada isesõitvaid autosid navigatsiooni ettearvamatu riski korral ohutult. Siiski on praegused genereerivad tehisintellekti tehnikad, eriti difusioonimudelid, sageli liiga aeglased ja arvutusressursimahukad. Kuigi autoregressiivsed mudelid, nagu näiteks LLM-i (suur keelemudel) nagu ChatGPT, töötavad palju kiiremini, toodavad nad tavaliselt madalama kvaliteediga pilte, mis on täis vigu. MIT-i ja NVIDIA teadlased on tutvustanud HART-i (hübriidne autoregressiivne transformeerija), uut pildigeneratsiooni meetodit, mis ühendab mõlema lähenemise tugevused. HART kasutab autoregressiivset mudelit, et kiiresti välja tuua pildi peamised jooned, ning seejärel rakendab väiksemat difusioonimudelit nende detailide täiendamiseks. See innovatiivne tööriist genereerib pilte, mis konkureerivad või ületavad tipptasemel difusioonimudelite kvaliteeti, kuid töötab umbes üheksa korda kiiremini ja vajab vähem arvutusressursse, võimaldades tööd tavalisel sülearvutil ja nutitelefonides. HART-i rakenduste hulka kuulub teadlaste abistamine robotite koolitamisel keeruliste ülesannete jaoks ja disainerite toetamine atraktiivsete stseenide loomisel videomängude jaoks.

„Nii nagu toore maali viimistlemine detailsete pintslitõmmetega parandab selle kvaliteeti, ühendab HART laia pildigeneratsiooni hoolika detailitööga, ” ütleb üks uurimistöö peamisi autoreid Haotian Tang. Difusioonimudelid, mis vajavad piltide müra vähendamiseks mitmeid samme, suudavad toota väga detailsed visuaalid, kuid on aeglased ja ressursimahukad. Vastupidiselt genereerivad autoregressiivsed mudelid pilte kiiremini, luues tükke järjestikku, kuid kannatavad info kadumise all, mis viib madalama kvaliteedini. HART ületab need piirangud, ennustades esmalt eraldi pildi token’id autoregressiivse mudeliga, seejärel kasutades difusioonimudelit nende tagasi lisamiseks, võimaldades kiiret ja kvaliteetset pildigeneratsiooni vaid kaheksas etapis. Arenduse käigus seisid teadlased silmitsi integreerimisprobleemidega, kuid parandasid HART-i kvaliteeti, rakendades difusioonimudelit ainult jääk-token’ite ennustamiseks. Nende lõplik disain kasutab 700 miljoni parameetriga autoregressiivset mudelit koos 37 miljoni parameetriga difusioonimudeliga, saavutades pildikvaliteedi, mis on võrreldav suuremate difusioonimudelitega (kuni 2 miljardit parameetrit), kasutades 31% vähem arvutusvõimet. Edasi vaadates kavatseb meeskond arendada HART-i arhitektuuri visioon-keele mudeleid ja uurida rakendusi videogeneerimises ning heliprognoosimises, mis võib potentsiaalselt revolutsiooniliselt muuta suhtlemist genereerivate mudelitega. Seda uurimistööd toetasid mitmed organisatsioonid, sealhulgas MIT-IBM Watson AI Labor ja NVIDIA, mis andis GPU ressursse mudeli koolitamiseks.

News source

Watch video about

MIT ja NVIDIA tutvustavad HART-i: revolutsiooniline pildigeneratsiooni meetod

Try our premium solution and start getting clients — at no cost to you

I'm your Content Creator.
Let’s make a post or video and publish it on any social media — ready?

Language

MIT ja NVIDIA tutvustavad HART-i: revolutsiooniline pildigeneratsiooni meetod

Brief news summary

News source

Watch video about

Try our premium solution and start getting clients — at no cost to you

I'm your Content Creator.
Let’s make a post or video and publish it on any social media — ready?

Content Maker

Last news

Kuidas tehisintellekt revolutsioneerib müüki: peamised muutused ja püsivused aastani 2026 | SaaStr Insights

Ootamatu OpenAI GPT-5 avaldamine eeldatavasti varakevadel 2026, pakkudes täiustatud kontekstuaalset mõistmist

Kuidas tehisintellekt muudab sisu loomist ja otsingumootori optimeerimist

The Best for your Business

Hot news

15 viisi, kuidas müük sel aastal tehisintellekti …

OpenAI teadusliku GPT-5: mida me seni teame

Tehisintellekt SEO-s: Sisu loomimise ja optimeeri…

Tehisintellekti videokonverentsilahendused parand…

AI meditsiini turgude suurus, osakaal, kasv | CAG…

Google'i Danny Sullivan ja John Mueller AI jaoks …

Lexus katsetab generatiivset tehisintellekti uues…

AI Company

Sales

Marketing

MIT ja NVIDIA tutvustavad HART-i: revolutsiooniline pildigeneratsiooni meetod

Brief news summary

News source

Watch video about

Try our premium solution and start getting clients — at no cost to you

I'm your Content Creator. Let’s make a post or video and publish it on any social media — ready?

Content Maker

Last news

Kuidas tehisintellekt revolutsioneerib müüki: peamised muutused ja püsivused aastani 2026 | SaaStr Insights

Ootamatu OpenAI GPT-5 avaldamine eeldatavasti varakevadel 2026, pakkudes täiustatud kontekstuaalset mõistmist

Kuidas tehisintellekt muudab sisu loomist ja otsingumootori optimeerimist

The Best for your Business

Hot news

15 viisi, kuidas müük sel aastal tehisintellekti …

OpenAI teadusliku GPT-5: mida me seni teame

Tehisintellekt SEO-s: Sisu loomimise ja optimeeri…

Tehisintellekti videokonverentsilahendused parand…

AI meditsiini turgude suurus, osakaal, kasv | CAG…

Google'i Danny Sullivan ja John Mueller AI jaoks …

Lexus katsetab generatiivset tehisintellekti uues…

AI Company

Your News is ready

Your article is ready

Generating video takes longer than text.

Join our community of experts

Reasons why you should be part of the experts community

Welcome to Neuron Expert!

Check your email

Launch Your AI-Powered Business

AI Marketing Across All Social Media

AI Sales Manager + CRM

Support

Content Maker

Topic

Specify the topic (Optional)

Link (Optional)

Learn how to craft press releases, create unique social media posts, write SEO-optimized articles for websites, and produce videos, all from a single source

I'm your Content Creator.
Let’s make a post or video and publish it on any social media — ready?