Генеративний штучний інтелект (ШІ), включаючи моделі такі як Stable Diffusion, Midjourney та DALL-E, часто стикається з проблемами створення послідовних зображень, особливо коли мова йде про деталі, такі як симетрія обличчя та правильне представлення пальців. Ці моделі зазвичай генерують квадратні зображення, що призводить до проблем при створенні зображень у різних співвідношеннях сторін, в результаті чого виникають аномалії, такі як додаткові пальці або спотворені форми. Щоб вирішити ці проблеми, комп'ютерні вчені з Університету Райса розробили ElasticDiffusion, новий метод, що використовує попередньо натреновані моделі дифузії. Мойєд Хаджі Алі, аспірант Університету Райса, представив цей метод на Конференції з комп'ютерного зору та розпізнавання образів IEEE 2024 у Сіетлі. Хаджі Алі пояснив, що традиційні моделі дифузії можуть генерувати зображення лише з певною роздільною здатністю, що є наслідком перенавчання, коли модель ШІ добре працює з відомими даними, але має проблеми з варіаціями.
ElasticDiffusion поліпшує підхід шляхом розділення локальної та глобальної інформації під час генерації зображень, а не їх об'єднання. Це розділення допомагає уникнути візуальних недоліків, що виникають в результаті адаптації до не квадратних зображень. Хаджі Алі зазначив, що процес включає спочатку отримання глобального балу, що відображає загальну структуру зображення, після чого заповнюються деталі на рівні пікселів у секціях. Цей метод дозволяє створювати чіткіші зображення у різних співвідношеннях сторін без необхідності додаткового навчання моделі. Хоча ElasticDiffusion пропонує підвищену консистентність та адаптивність у генерації зображень, він має недолік: наразі для створення зображень йому потрібно у 6-9 разів більше часу порівняно з традиційними моделями дифузії. Хаджі Алі прагне оптимізувати метод, щоб досягти еквівалентного часу виведення, зберігаючи при цьому здатність генерувати високоякісні зображення незалежно від співвідношення сторін.
ElasticDiffusion: Покращення генерування зображень за допомогою ШІ в Університеті Райса
TechSmith Corporation, визначний лідер у сфері візуальної комунікації, випустила свій дослідження 2024 року про перегляд відео, яке ґрунтовно аналізує глобальну залученість та вподобання глядачів щодо навчальних та інформаційних відео.
Короткий опис Штучний інтелект (ШІ) трансформує команди продажу в Індії, дозволяючи не лише керівникам, а й представникам передової лінії
У червні 2025 року компанія Meta Platforms Inc.
ByteDance випустила Seedance 2.0 менше тижня тому, викликавши обурення серед художників усього світу вірусним відео, згенерованим штучним інтелектом, у якому Том Круз та Бред Пітт борються між собою.
Ідеальний сценарій для офісних працівників — просто натиснути кнопку на пристрої, який записує зустрічі, транскрибує розмови та перетворює їх у робочі завдання.
Microsoft офіційно інтегрував помічника з штучним інтелектом — Copilot — у широко використовуваний офісний пакет, що стане значним кроком уперед у взаємодії користувачів із програмним забезпеченням для підвищення продуктивності.
Seedance 2.0 — це сучасна модель перетворення зображень у відео та тексту у відео, створена технологічною компанією ByteDance.
Launch your AI-powered team to automate Marketing, Sales & Growth
and get clients on autopilot — from social media and search engines. No ads needed
Begin getting your first leads today