lang icon En
March 21, 2025, 8:28 a.m.
1842

MIT та NVIDIA представили HART: революційний метод генерації зображень.

Brief news summary

Потреба в якісних зображеннях є критично важливою для розробки реалістичних віртуальних середовищ, особливо для навчання та забезпечення безпеки в автомобілях з автономним водінням. Традиційні генеративні методи штучного інтелекту, такі як моделі дифузії, забезпечують відмінну візуальну якість, але є повільними та вимогливими до ресурсів. У свою чергу, авторегресивні моделі, такі як ChatGPT, пропонують швидке генерування зображень, але часто нехтують деталізацією. Щоб вирішити ці проблеми, MIT та NVIDIA представили HART (Гібридний Авторегресивний Трансформер), інноваційний інструмент для генерації зображень, який об'єднує переваги обох методів. HART використовує авторегресивну модель для швидкого генерування зображень, яке потім уточнюється за допомогою невеликої моделі дифузії для покращення деталей. Цей гібридний підхід дозволяє HART виробляти зображення, які зрівняються за якістю з найкращими моделями дифузії, досягаючи результатів у дев’ять разів швидше з меншими обчислювальними вимогами. Здатність HART генерувати високоякісні зображення з природних мовних вхідних даних на легкодоступних пристроях відкриває нові можливості в таких сферах, як робототехніка та дизайн відеоігор. Майбутні розробки можуть включати зв'язування HART з єдиними моделями зорової мови, що стане значним кроком уперед у створенні візуального контенту з підтримкою штучного інтелекту.

Швидке створення високоякісних зображень є важливим для створення реалістичних симульованих середовищ, які допомагають тренувати автономні автомобілі безпечно орієнтуватися в непередбачуваних небезпеках. Однак нинішні технології генеративного ШІ, зокрема дифузійні моделі, часто є занадто повільними і вимагають значних обчислювальних ресурсів. У той час як авторегресивні моделі, такі як ті, що забезпечують роботу великих мовних моделей (LLM) як ChatGPT, працюють набагато швидше, вони зазвичай продукують зображення нижчої якості, наповнені помилками. Дослідники з MIT та NVIDIA представили HART (Гібридна авторегресивна трансформерна модель), новий метод генерації зображень, який поєднує переваги обох підходів. HART використовує авторегресивну модель для швидкого окреслення основних рис зображення і потім застосовує меншу дифузійну модель для уточнення цих деталей. Цей інноваційний інструмент генерує зображення, які рівняються або перевершують якість сучасних дифузійних моделей, але працює приблизно в дев'ять разів швидше і з меншими витратами обчислювальних ресурсів, що дозволяє використовувати його на звичайних ноутбуках і смартфонах. Застосування HART включає допомогу дослідникам у навчанні роботів для складних завдань і допомогу дизайнерам у створенні захоплюючих сцен для відеоігор.

«Так само, як уточнення грубої картини з детальними мазками пензля підвищує її якість, HART поєднує широке генерацію зображень з ретельною деталізацією», — говорить Хаотянь Танг, один з головних авторів дослідження. Дифузійні моделі, які потребують численних етапів для зменшення шуму в зображеннях, можуть створювати надзвичайно детальні візуалізації, але є повільними та ресурсоємними. Натомість авторегресивні моделі генерують зображення швидше, створюючи шматочки послідовно, але страждають від втрати інформації, що призводить до нижчої якості. HART компенсує ці обмеження, спочатку передбачаючи дискретні токени зображення з допомогою авторегресивної моделі, а потім використовуючи дифузійну модель для відновлення будь-яких відсутніх деталей, що дозволяє отримувати швидкі та високоякісні зображення за всього вісім кроків. Під час розробки дослідники стикалися з проблемами інтеграції, але покращили якість HART, застосувавши дифузійну модель лише для прогнозування залишкових токенів. Їхнє фінальне рішення використовує авторегресивну модель з 700 мільйонами параметрів разом з дифузійною моделлю на 37 мільйонів параметрів, досягаючи якості зображень, порівнянної з більшими дифузійними моделями (до 2 мільярдів параметрів) при споживанні на 31% менше обчислювальної потужності. Група планує надалі розвивати архітектуру HART для створення моделей зору-мови та досліджувати застосування у генерації відео та прогнозуванні аудіо, потенційно революціонізуючи взаємодії з генеративними моделями. Це дослідження підтримувалося різними організаціями, включаючи MIT-IBM Watson AI Lab та NVIDIA, які надали ресурси GPU для навчання моделі.


Watch video about

MIT та NVIDIA представили HART: революційний метод генерації зображень.

Try our premium solution and start getting clients — at no cost to you

I'm your Content Creator.
Let’s make a post or video and publish it on any social media — ready?

Language

Hot news

Dec. 19, 2025, 9:32 a.m.

Огляд ринку: Як продавці Amazon переглядають стра…

Громадські рекомендації Amazon щодо оптимізації згадок про продукти для Rufus, свого торгового помічника на базі штучного інтелекту, залишаються без змін, нових порад для продавців не надано.

Dec. 19, 2025, 9:25 a.m.

Adobe співпрацює з Runway, щоб впровадити генерац…

Adobe оголосила про багаторічну співпрацю з Runway, яка інтегрує можливості генерованого відео безпосередньо у Adobe Firefly та поступово глибше у Creative Cloud.

Dec. 19, 2025, 9:21 a.m.

Anthropic прагне приборкати ШІ для робочого місця…

Anthropic, провідний лідер у сфері розробки штучного інтелекту, запустив нові інструменти, спрямовані на безперебійне впровадження AI у робочі процеси бізнесу.

Dec. 19, 2025, 9:14 a.m.

Інсайтлі інтегрує штучний інтелект у платформу CRM

Insightly, провідна платформа управління довгостроковими відносинами з клієнтами (CRM), представила "Copilot" — чатбот з штучним інтелектом, який інтегрує генеративний штучний інтелект у свою систему для підвищення продуктивності користувачів та спрощення управління CRM.

Dec. 19, 2025, 9:14 a.m.

Квен запускає нову функцію міні-театру штучного і…

Qwen, провідний лідер у галузі технологій штучного інтелекту, представила свою нову функцію AI Mini-Theater, що становить значний прорив у досвіді користувачів, керованому ШІ.

Dec. 19, 2025, 5:37 a.m.

Відео з глибокимифейками, згенеровані штучним інт…

Швидкий прогрес штучного інтелекту привів до вражаючих інновацій, зокрема до технології дипфейків.

Dec. 19, 2025, 5:28 a.m.

Ян ЛеКун із Meta ставить за мету оцінку нової ІІ-…

Ян Лекун, відомий дослідник штучного інтелекту та майже колишній головний науковець у команді Meta, запускає проривний стартап у галузі ШІ.

All news

AI Company

Launch your AI-powered team to automate Marketing, Sales & Growth

and get clients on autopilot — from social media and search engines. No ads needed

Begin getting your first leads today