lang icon En
Sept. 15, 2024, 12:46 a.m.
3135

ElasticDiffusion: Покращення генерування зображень за допомогою ШІ в Університеті Райса

Brief news summary

Генеративний штучний інтелект, особливо моделі дифузії, часто стикається з проблемами створення послідовних та детальних зображень, зокрема з підтриманням дрібних деталей, таких як симетрія обличчя, у неквадратних форматах. Дослідники з Університету Райса розробили новий підхід під назвою ElasticDiffusion, як представив аспірант Мойєд Хаджі Алі на Конференції з комп'ютерного зору та розпізнавання образів IEEE 2024 у Сіетлі. На відміну від попередніх моделей, таких як Stable Diffusion та DALL-E, які добре працюють з квадратними зображеннями, але мають труднощі зі спотвореннями в інших співвідношеннях сторін, ElasticDiffusion поліпшує генерацію зображень шляхом розрізнення локальних деталей пікселів від глобальних форм. Це вдосконалення мінімізує помилки у не квадратних зображеннях, забезпечуючи візуальну цілісність без необхідності додаткового навчання. Наразі ElasticDiffusion працює зі швидкістю у 6-9 разів повільнішою за традиційні моделі; однак, дослідники оптимізують його продуктивність, щоб вона відповідала існуючим методам, дозволяючи використовувати його у різних співвідношеннях сторін.

Генеративний штучний інтелект (ШІ), включаючи моделі такі як Stable Diffusion, Midjourney та DALL-E, часто стикається з проблемами створення послідовних зображень, особливо коли мова йде про деталі, такі як симетрія обличчя та правильне представлення пальців. Ці моделі зазвичай генерують квадратні зображення, що призводить до проблем при створенні зображень у різних співвідношеннях сторін, в результаті чого виникають аномалії, такі як додаткові пальці або спотворені форми. Щоб вирішити ці проблеми, комп'ютерні вчені з Університету Райса розробили ElasticDiffusion, новий метод, що використовує попередньо натреновані моделі дифузії. Мойєд Хаджі Алі, аспірант Університету Райса, представив цей метод на Конференції з комп'ютерного зору та розпізнавання образів IEEE 2024 у Сіетлі. Хаджі Алі пояснив, що традиційні моделі дифузії можуть генерувати зображення лише з певною роздільною здатністю, що є наслідком перенавчання, коли модель ШІ добре працює з відомими даними, але має проблеми з варіаціями.

ElasticDiffusion поліпшує підхід шляхом розділення локальної та глобальної інформації під час генерації зображень, а не їх об'єднання. Це розділення допомагає уникнути візуальних недоліків, що виникають в результаті адаптації до не квадратних зображень. Хаджі Алі зазначив, що процес включає спочатку отримання глобального балу, що відображає загальну структуру зображення, після чого заповнюються деталі на рівні пікселів у секціях. Цей метод дозволяє створювати чіткіші зображення у різних співвідношеннях сторін без необхідності додаткового навчання моделі. Хоча ElasticDiffusion пропонує підвищену консистентність та адаптивність у генерації зображень, він має недолік: наразі для створення зображень йому потрібно у 6-9 разів більше часу порівняно з традиційними моделями дифузії. Хаджі Алі прагне оптимізувати метод, щоб досягти еквівалентного часу виведення, зберігаючи при цьому здатність генерувати високоякісні зображення незалежно від співвідношення сторін.


Watch video about

ElasticDiffusion: Покращення генерування зображень за допомогою ШІ в Університеті Райса

Try our premium solution and start getting clients — at no cost to you

I'm your Content Creator.
Let’s make a post or video and publish it on any social media — ready?

Language

Hot news

Feb. 17, 2026, 5:24 a.m.

Дослідження TechSmith 2024 щодо перегляду відео в…

TechSmith Corporation, визначний лідер у сфері візуальної комунікації, випустила свій дослідження 2024 року про перегляд відео, яке ґрунтовно аналізує глобальну залученість та вподобання глядачів щодо навчальних та інформаційних відео.

Feb. 17, 2026, 5:16 a.m.

Штучний інтелект на передовій: Перетворення аналі…

Короткий опис Штучний інтелект (ШІ) трансформує команди продажу в Індії, дозволяючи не лише керівникам, а й представникам передової лінії

Feb. 17, 2026, 5:15 a.m.

Meta Platforms оголошує про інвестицію в розмірі …

У червні 2025 року компанія Meta Platforms Inc.

Feb. 16, 2026, 1:26 p.m.

Компанія ByteDance обіцяє посилити контроль над с…

ByteDance випустила Seedance 2.0 менше тижня тому, викликавши обурення серед художників усього світу вірусним відео, згенерованим штучним інтелектом, у якому Том Круз та Бред Пітт борються між собою.

Feb. 16, 2026, 1:24 p.m.

Штучний інтелект у голосовому диктофоні, який мож…

Ідеальний сценарій для офісних працівників — просто натиснути кнопку на пристрої, який записує зустрічі, транскрибує розмови та перетворює їх у робочі завдання.

Feb. 16, 2026, 1:21 p.m.

Копілот на базі штучного інтелекту від Microsoft:…

Microsoft офіційно інтегрував помічника з штучним інтелектом — Copilot — у широко використовуваний офісний пакет, що стане значним кроком уперед у взаємодії користувачів із програмним забезпеченням для підвищення продуктивності.

Feb. 16, 2026, 9:26 a.m.

Сіданс 2.0

Seedance 2.0 — це сучасна модель перетворення зображень у відео та тексту у відео, створена технологічною компанією ByteDance.

All news

AI Company

Launch your AI-powered team to automate Marketing, Sales & Growth

and get clients on autopilot — from social media and search engines. No ads needed

Begin getting your first leads today