lang icon En
Sept. 15, 2024, 12:46 a.m.
3121

ElasticDiffusion: Az AI képgenerálás fejlesztése a Rice Egyetemen

Brief news summary

A generatív mesterséges intelligencia, különösen a diffúziós modellek, gyakran nehézségekbe ütközik a következetes és részletezett képek létrehozásában, különösen a finom jellemzők, mint az arc szimmetriájának megtartásában a nem négyzet alakú formátumokban. A Rice Egyetem kutatói kifejlesztettek egy új megközelítést, az ElasticDiffusion-t, amelyet Moayed Haji Ali doktorandusz mutatott be a 2024-es IEEE Konferencián a Számítógépes Látásról és Képfelismerésről Seattle-ben. Ellentétben korábbi modellekkel, mint a Stable Diffusion és a DALL-E, amelyek jól teljesítenek négyzet alakú képekkel, de torzulásokkal küzdenek más képarányok esetén, az ElasticDiffusion javítja a képgenerálást azáltal, hogy megkülönbözteti a helyi pixelrészleteket a globális formáktól. Ez az előrelépés minimálisra csökkenti a hibákat a nem négyzet alakú képeknél, miközben biztosítja a vizuális koherenciát további képzés nélkül. Jelenleg az ElasticDiffusion 6-9-szer lassabban működik, mint a hagyományos modellek; a kutatók azonban optimalizálják a teljesítményét, hogy megfeleljen a meglévő módszereknek, lehetővé téve annak használatát különféle képarányok esetén.

A generatív mesterséges intelligencia (AI), beleértve a Stable Diffusion, Midjourney és DALL-E modelleket, gyakran küzd a következetes képek létrehozásával, különösen az arc szimmetriájának és az ujjak megfelelő ábrázolásának részleteivel kapcsolatban. Ezek a modellek általában négyzet alakú képeket generálnak, ami problémákat okoz, amikor különböző képarányú képek létrehozására kérik őket, ami anomáliákhoz vezet, például extra ujjakhoz vagy torz alakokhoz. E problémák megoldása érdekében a Rice Egyetem számítástechnikusai kifejlesztették az ElasticDiffusion nevű módszert, amely előre betanított diffúziós modelleket alkalmaz. Moayed Haji Ali, a Rice egyetem doktorandusza, bemutatta ezt a módszert a 2024-es IEEE Konferencián a Számítógépes Látásról és Képizről Seattle-ben. Haji Ali elmagyarázta, hogy a hagyományos diffúziós modellek csak egy adott felbontású képeket képesek generálni, ami a túltanulás következménye, amikor egy AI modell jól teljesít az ismerős adatokkal, de nehézségei vannak a változatokkal. Az ElasticDiffusion javítja a megközelítést azáltal, hogy a képgenerálás során szétválasztja a helyi és globális információkat, ahelyett, hogy kombinálná őket.

Ez a szétválasztás segít elkerülni a vizuális hibákat, amelyek a nem négyzet alakú képekhez való alkalmazkodás során ismétlődő adatokból adódnak. Haji Ali megjegyezte, hogy a folyamat kezdetben egy globális pontszám megszerzésével kezdődik, amely magában foglalja a kép általános szerkezetét, majd a részleteket pixelenként adja hozzá szakaszokban. Ez a módszer lehetővé teszi, hogy különféle képarányok esetén is tisztább képek jöjjenek létre további modellbetanítás nélkül. Bár az ElasticDiffusion fokozott következetességet és alkalmazkodóképességet kínál a képgenerálásban, ez egy kompromisszummal jár: jelenleg 6-9-szer hosszabb időt igényel a képek létrehozása a hagyományos diffúziós modellekhez képest. Haji Ali célja a módszer optimalizálása, hogy az ugyanannyi idő alatt végezzen, miközben megőrzi a nagy felbontású képek generálásának képességét bármilyen képarányban.


Watch video about

ElasticDiffusion: Az AI képgenerálás fejlesztése a Rice Egyetemen

Try our premium solution and start getting clients — at no cost to you

I'm your Content Creator.
Let’s make a post or video and publish it on any social media — ready?

Language

Hot news

Feb. 15, 2026, 2:11 p.m.

A legfontosabb SEO trendek, amiket az Orange Coun…

Az Orange megyei vállalkozások folyamatosan keresik az új módszereket a versenyelőny megszerzésére, és az Orange County Keresőoptimalizálási (SEO) szolgáltatások pontosan erre lettek tervezve.

Feb. 15, 2026, 1:55 p.m.

A mesterséges intelligencia által készített videó…

Az AI által generált videók gyors növekedése a közösségi médiában globális trendmé vált, melyet az elmúlt években elért jelentős fejlődések az műalkotás-technológiában hajtanak előre.

Feb. 15, 2026, 1:10 p.m.

Az OpenAI 50 millió dolláros alapot indít nonprof…

Az OpenAI jelentős vállalásáról adott hírt, mely szerint létrehoznak egy 50 millió dolláros alapot a felelősségteljes mesterséges intelligencia fejlesztése érdekében, non-profit szervezetek és közösségi csoportok támogatására.

Feb. 15, 2026, 10:18 a.m.

A Meta Platforms bejelentette, hogy 10 milliárd d…

A Meta Platforms Inc.

Feb. 15, 2026, 9:24 a.m.

A legjobb PPC cég bővíti PPC hirdetési szolgáltat…

San Francisco, Kalifornia—(Newsfile Corp.

Feb. 15, 2026, 9:16 a.m.

Az Oracle mesterséges intelligenciát épít be mark…

Az Oracle bemutatta új mesterséges intelligencia (AI) képességek integrációját az Oracle Fusion Cloud Customer Experience (CX) csomagjában.

Feb. 15, 2026, 9:15 a.m.

AI videó-generálási technológia fejlődése a films…

A filmipar átformáló változáson megy keresztül, mivel egyre több stúdió alkalmazza a mesterséges intelligencia (MI) videógenerálási technológiát a gyártási folyamataikban.

All news

AI Company

Launch your AI-powered team to automate Marketing, Sales & Growth

and get clients on autopilot — from social media and search engines. No ads needed

Begin getting your first leads today