lang icon En
Sept. 15, 2024, 12:46 a.m.
3113

ElasticDiffusion: Forbedring av bildegenerering med AI ved Rice University

Brief news summary

Generativ kunstig intelligens, spesielt diffusjonsmodeller, står ofte overfor utfordringer med å produsere konsistente og detaljerte bilder, spesielt med å opprettholde fine trekk som ansiktssymmetri i ikke-firkantede formater. Forskere ved Rice University har utviklet en ny tilnærming kalt ElasticDiffusion, som presentert av doktorgradsstudent Moayed Haji Ali på IEEE 2024 Conference on Computer Vision and Pattern Recognition i Seattle. I motsetning til tidligere modeller som Stable Diffusion og DALL-E, som presterer godt med firkantede bilder, men sliter med forvrengning i andre aspektsforhold, forbedrer ElasticDiffusion bildegenereringen ved å skille lokale piksel-detaljer fra globale former. Denne forbedringen minimerer feil i ikke-firkantede bilder samtidig som den sikrer visuell sammenheng, uten behov for ytterligere trening. For øyeblikket opererer ElasticDiffusion med en hastighet som er 6-9 ganger langsommere enn konvensjonelle modeller; forskerne er imidlertid i ferd med å optimalisere ytelsen for å samsvare med eksisterende metoder, slik at den kan brukes på tvers av forskjellige aspektsforhold.

Generativ kunstig intelligens (AI), inkludert modeller som Stable Diffusion, Midjourney og DALL-E, sliter ofte med å produsere konsistente bilder, spesielt når det gjelder detaljer som ansiktssymmetri og riktig representasjon av fingre. Disse modellene genererer generelt firkantede bilder, noe som fører til problemer når de skal lage bilder i forskjellige aspektsforhold, noe som resulterer i anomalier som ekstra fingre eller forvrengte former. For å løse disse problemene har datavitere ved Rice University utviklet ElasticDiffusion, en ny metode som utnytter forhåndstrente diffusjonsmodeller. Moayed Haji Ali, doktorgradsstudent ved Rice, presenterte denne metoden på IEEE 2024 Conference on Computer Vision and Pattern Recognition i Seattle. Haji Ali forklarte at tradisjonelle diffusjonsmodeller bare kan generere bilder på en bestemt oppløsning, som er en konsekvens av overtilpasning, hvor en AI-modell presterer godt på kjente data, men sliter med variasjoner. ElasticDiffusion forbedrer tilnærmingen ved å skille lokal og global informasjon under bildegenereringen, i stedet for å kombinere dem.

Denne separasjonen bidrar til å unngå visuelle feil som oppstår fra repetitiv data når den tilpasses ikke-firkantede bilder. Haji Ali bemerket at prosessen innebærer først å oppnå en global score som innkapsler bildets overordnede struktur, etterfulgt av å fylle inn pikselnivådetaljer i seksjoner. Denne metoden gjør det mulig å generere klarere bilder på tvers av forskjellige aspektsforhold uten at det er nødvendig med ytterligere modelltrening. Mens ElasticDiffusion gir økt konsistens og tilpasningsevne i bildegenerering, har det en trade-off: det krever for øyeblikket 6-9 ganger lengre tid å lage bilder sammenlignet med konvensjonelle diffusjonsmodeller. Haji Ali har som mål å optimalisere metoden for å oppnå tilsvarende inferenstider samtidig som den beholder evnen til å generere bilder av høy kvalitet uansett aspektsforhold.


Watch video about

ElasticDiffusion: Forbedring av bildegenerering med AI ved Rice University

Try our premium solution and start getting clients — at no cost to you

I'm your Content Creator.
Let’s make a post or video and publish it on any social media — ready?

Language

Hot news

Feb. 14, 2026, 5:56 a.m.

Fremtidens markedsføring - Briefing: AI sitt merk…

Den rapporterte bruken av KI i reklame kan være underestimert, ettersom mye KI-integrasjon skjer bak kulissene – i redigering, effekter eller optimalisering – uten at det eksplisitt oppgis.

Feb. 14, 2026, 5:50 a.m.

AI innen SEO: Etiske hensyn og beste praksiser

Integrasjonen av kunstig intelligens (KI) i søkemotoroptimalisering (SEO) har revolusjonert digital markedsføring, og forbedret effektivitet og virkningsgrad betydelig.

Feb. 14, 2026, 5:36 a.m.

AI-verktøy for videoinnholdmoderering bekjemper n…

De siste årene har sosiale medieplattformer i økende grad tatt i bruk kunstig intelligens (KI) teknologier for å forbedre nettså sikkerhet, særlig gjennom AI-drevne verktøy for moderering av videoinnhold.

Feb. 14, 2026, 5:31 a.m.

Cognizant og NVIDIA samarbeider for å akselerere …

Cognizant, et ledende globalt profesjonelt tjenestefirma, har kunngjort store forbedringer av sin Neuro AI-plattform, utviklet i samarbeid med NVIDIA, en teknologileder kjent for fremskritt innen AI og grafikkbehandling.

Feb. 14, 2026, 5:27 a.m.

Vista Social integrerer ChatGPT for AI-drevet adm…

Vista Social har gjort et stort fremskritt innen sosiale medier-håndtering ved å integrere banebrytende ChatGPT-teknologi i sin plattform, og blir dermed den første til å tilby AI-drevne tekstfunksjoner som forandrer hvordan bedrifter og enkeltpersoner håndterer sin nettnærvær.

Feb. 14, 2026, 5:23 a.m.

Google-sjefen om å være «Forsyningsbegrenset», Ge…

CEO Sundar Pichai beskrev Googles tilnærming til å håndtere forsyningsbegrensninger i en periode med økende etterspørsel, og fremhevet den raske adopsjonen av Gemini 3 Pro, kunngjorde at over 8 millioner betalte seter er solgt til Gemini Enterprise, og la frem planer om å investere opptil 185 milliarder dollar i kapitalutgifter i 2026.

Feb. 13, 2026, 1:19 p.m.

OpenAI kjøper io, tidligere kjent som Codeium, fo…

OpenAI har fullført oppkjøpet av io, en AI-maskinvare-startup tidligere kjent som Codeium, for 6,5 milliarder dollar.

All news

AI Company

Launch your AI-powered team to automate Marketing, Sales & Growth

and get clients on autopilot — from social media and search engines. No ads needed

Begin getting your first leads today