ElasticDiffusion: AI:n Kuvanluonnin Parantaminen Rice-yliopistossa

Generatiivinen tekoäly (AI), mukaan lukien mallit kuten Stable Diffusion, Midjourney ja DALL-E, kamppailee usein johdonmukaisten kuvien tuottamisessa, erityisesti yksityiskohtien, kuten kasvojen symmetrian ja oikean sormien esityksen, osalta. Nämä mallit tuottavat yleensä neliönmuotoisia kuvia, mikä aiheuttaa ongelmia, kun niiden on luotava kuvia eri kuvasuhteissa, mikä johtaa poikkeavuuksiin, kuten ylimääräisiin sormiin tai vääristyneisiin muotoihin. Näiden ongelmien ratkaisemiseksi Rice-yliopiston tietojenkäsittelytieteilijät ovat kehittäneet ElasticDiffusion-nimisen uuden menetelmän, joka hyödyntää etukäteen koulutettuja diffuusiomalleja. Rice-yliopiston tohtoriopiskelija Moayed Haji Ali esitteli menetelmää IEEE 2024 Computer Vision and Pattern Recognition -konferenssissa Seattlessa. Haji Ali selitti, että perinteiset diffuusiomallit voivat tuottaa kuvia vain tietyllä tarkkuudella, mikä on seurausta ylioppimisesta, jossa tekoälymalli menestyy hyvin tutussa datassa mutta kamppailee vaihtelujen kanssa. ElasticDiffusion parantaa lähestymistapaa erottamalla paikallisen ja globaalin tiedon kuvien luontiprosessin aikana sen sijaan, että ne yhdistettäisiin.
Tämä erottelu auttaa välttämään visuaalisia epätäydellisyyksiä, jotka johtuvat toistuvasta datasta, kun sovelletaan ei-neliömuotoisiin kuviin. Haji Ali huomautti, että prosessi sisältää aluksi globaalin pistemäärän saamisen, joka kattaa kuvan yleisrakenteen, ja sitten täytetään pikselitason yksityiskohdat. Tämä menetelmä mahdollistaa selkeämpien kuvien luomisen eri kuvasuhteissa ilman, että tarvitaan ylimääräistä mallikoulutusta. Vaikka ElasticDiffusion tarjoaa parannettua johdonmukaisuutta ja mukautuvuutta kuvien luomisessa, siihen liittyy kompromissi: tällä hetkellä se vaatii 6-9 kertaa kauemman ajan kuvien luomiseen verrattuna perinteisiin diffuusiomalleihin. Haji Ali pyrkii optimoimaan menetelmää saavuttamaan samankaltaiset päätelaiteajat samalla säilyttäen kyvyn tuottaa korkealaatuisia kuvia kuvasuhteesta riippumatta.
Brief news summary
Generatiivinen tekoäly, erityisesti diffuusio-mallit, kohtaa usein haasteita johdonmukaisten ja yksityiskohtaisten kuvien tuottamisessa, erityisesti hienojen piirteiden, kuten kasvon symmetrian, ylläpitämisessä ei-neliömuotoisissa formaateissa. Rice-yliopiston tutkijat ovat kehittäneet ElasticDiffusion-nimisen uuden lähestymistavan, jonka tohtoriopiskelija Moayed Haji Ali esitteli IEEE 2024 Computer Vision and Pattern Recognition -konferenssissa Seattlessa. Toisin kuin aikaisemmat mallit, kuten Stable Diffusion ja DALL-E, jotka menestyvät hyvin neliönmuotoisissa kuvissa mutta kamppailevat vääristymien kanssa muissa kuvasuhteissa, ElasticDiffusion parantaa kuvien luomista erottelemalla paikalliset pikseliyksityiskohdat globaaleista muodoista. Tämä edistysaskel minimoi virheet ei-neliömuotoisissa kuvissa varmistaen visuaalisen koherenssin ilman lisäkoulutuksen tarvetta. Tällä hetkellä ElasticDiffusion toimii nopeudella, joka on 6-9 kertaa hitaampaa kuin perinteiset mallit; kuitenkin, tutkijat optimoivat sen suorituskykyä, jotta se vastaisi nykyisiä menetelmiä, mikä mahdollistaa sen käytön erilaisissa kuvasuhteissa.
AI-powered Lead Generation in Social Media
and Search Engines
Let AI take control and automatically generate leads for you!

I'm your Content Manager, ready to handle your first test assignment
Learn how AI can help your business.
Let’s talk!

Yhdysvaltain edustajainhuone hyväksyy lohkoketjuj…
Maanantaina Yhdysvaltain edustajainhuone teki merkittävän edistysaskeleen äänestämällä 279-136 hyväksyäkseen Financial Innovation and Technology for the 21st Century -lain (FIT21).

Google aikoo katkaista yhteistyön Scale AI:n kans…
Google suunnittelee lopettavansa yhteistyön Scale AI:n kanssa, johtavassa datan merkkaus-startupissa, Meta:n äskettäisen 49% osakeomistuksen jälkeen yrityksessä.

Circle:n alkuperäinen USDC toimii nyt maailman bl…
Maanantaina 11.

Googlen tekoälytila haussa: Muuttamassa käyttäjäk…
Google on ilmoittanut innovatiivisen AI-tilan lanseeraamisesta hakukoneessaan, tarkoituksenaan muuttaa sitä, miten käyttäjät etsivät tietoa verkossa.

Il Foglio yhdistää tekoälyn journalismiin ChatGPT…
Il Foglio, johtava italialainen sanomalehti, on ryhtynyt mullistavaan kokeiluun, jossa yhdistetään tekoäly journalismiin päätoimittaja Claudio Cerasan johdolla.

Crypto-ohjelmistoyritys OneBalance kerää 20 miljo…
© 2025 Fortune Media IP Limited.

Meta:n 14,3 miljardin dollarin sijoitus Scale AI:…
Meta on julkistanut merkittävän sijoituksen tekoälysektoriin ostamalla 49 % osuuden AI-yritys Scale:sta 14,3 miljardilla dollarilla.