lang icon English
March 21, 2025, 8:28 a.m.
1638

MIT и NVIDIA представили HART: революционный метод генерации изображений.

Brief news summary

Необходимость в высококачественных изображениях критична для разработки реалистичных виртуальных сред, особенно для обучения и обеспечения безопасности в автономных автомобилях. Традиционные методы генеративного ИИ, такие как модели диффузии, обеспечивают отличное визуальное качество, но являются медленными и ресурсозатратными. Напротив, авторегрессионные модели, такие как ChatGPT, обеспечивают быструю генерацию изображений, но часто им не хватает деталей. Чтобы решить эти проблемы, MIT и NVIDIA представили HART (Гибридный авторегрессионный трансформер) — современный инструмент генерации изображений, который объединяет преимущества обоих методов. HART использует авторегрессионную модель для быстрой генерации изображений, которая затем уточняется с помощью небольшой модели диффузии для повышения детализации. Этот гибридный подход позволяет HART создавать изображения, сопоставимые с лучшими моделями диффузии, достигая результатов в девять раз быстрее при сниженных вычислительных затратах. Способность HART генерировать высококачественные изображения из текстовых описаний на легко доступных устройствах открывает новые возможности в таких областях, как робототехника и разработка видеоигр. Будущие разработки могут включать связь HART с унифицированными моделями зрения и языка, что станет значительным шагом вперед в создании визуального контента с использованием ИИ.

Быстрая генерация высококачественных изображений является необходимой для создания реалистичных симулированных сред, которые помогают обучать автономные автомобили безопасно справляться с непредсказуемыми опасностями. Однако текущие генеративные AI-техники, особенно диффузионные модели, зачастую слишком медлительны и требовательны к вычислительным ресурсам. В то время как авторегрессивные модели, такие как те, что стоят за LLM, такими как ChatGPT, работают намного быстрее, они, как правило, производят изображения низкого качества, полные ошибок. Исследователи из MIT и NVIDIA представили HART (Гибридный Авторегрессивный Трансформер), новый метод генерации изображений, который объединяет сильные стороны обоих подходов. HART использует авторегрессионную модель для быстрого очерчивания основных характеристик изображения, а затем применяет меньшую диффузионную модель для уточнения этих деталей. Этот инновационный инструмент генерирует изображения, которые соперничают с качеством современных диффузионных моделей или превосходят его, при этом работает примерно в девять раз быстрее и требует меньших вычислительных ресурсов, позволяя использовать его на обычных ноутбуках и смартфонах. Применения HART включают помощь исследователям в обучении роботов сложным задачам и содействие дизайнерам в создании увлекательных сцен для видеоигр.

«Точно так же, как уточнение грубой картины с помощью детализированных мазков кисти повышает её качество, HART сочетает широкую генерацию изображений с тщательной работой над деталями», — говорит Хаотиан Тан, один из ведущих авторов исследования. Диффузионные модели, которые требуют множества шагов для удаления шума с изображений, могут создавать высокодетализированные визуализации, но они медлительны и ресурсоемки. В отличие от этого, авторегрессивные модели генерируют изображения быстрее, создавая участки последовательно, но страдают от потери информации, что приводит к более низкому качеству. HART преодолевает эти ограничения, сначала предсказывая дискретные токены изображения с помощью авторегрессионной модели, а затем используя диффузионную модель для добавления любых недостающих деталей, что позволяет получать быстрые и качественные изображения всего за восемь шагов. В ходе разработки исследователи столкнулись с проблемами интеграции, но улучшили качество HART, применив диффузионную модель исключительно для предсказания остаточных токенов. Их окончательный дизайн использует авторегрессионную модель с 700 миллионами параметров и диффузионную модель с 37 миллионами параметров, достигая качества изображения, сопоставимого с более крупными диффузионными моделями (до 2 миллиардов параметров), при этом потребляя на 31% меньше вычислительной мощности. В будущем команда планирует развивать архитектуру HART для разработки моделей «зрение-язык» и исследовать применения в генерации видео и предсказании аудио, что может революционизировать взаимодействие с генеративными моделями. Это исследование поддерживалось различными организациями, включая MIT-IBM Watson AI Lab и NVIDIA, которые предоставили ресурсы GPU для обучения модели.


Watch video about

MIT и NVIDIA представили HART: революционный метод генерации изображений.

Try our premium solution and start getting clients — at no cost to you

I'm your Content Creator.
Let’s make a post or video and publish it on any social media — ready?

Language

Hot news

Nov. 5, 2025, 1:24 p.m.

Лаборатория исследований искусственного интеллект…

В современном быстро меняющемся цифровом мире языковые барьеры часто создают серьезные препятствия для гладкого глобального взаимодействия.

Nov. 5, 2025, 1:20 p.m.

Почему поиск с помощью искусственного интеллекта …

Это главный предупреждающий сигнал из отчета McKinsey за октябрь 2025 года, который подробно описывает, как поисковые системы, использующие генеративный ИИ, быстро меняют способы, которыми люди ищут, исследуют и приобретают товары.

Nov. 5, 2025, 1:19 p.m.

Компания SLB запускает новый продукт на базе иску…

SLB, ведущая компания в области энергетических технологий, представила инновационный инструмент искусственного интеллекта под названием Tela, направленный на значительно повышение уровня автоматизации в операциях на нефтяных месторождениях.

Nov. 5, 2025, 1:19 p.m.

Влияние искусственного интеллекта на SEO: преобра…

Искусственный интеллект (ИИ) кардинально меняет оптимизацию поисковых систем (SEO), принципиально изменяя подходы бизнеса к разработке своих стратегий цифрового маркетинга и достижению целей.

Nov. 5, 2025, 1:16 p.m.

SenseTime и Cambricon сотрудничают для создания и…

SenseTime и Cambricon объявили о стратегическом партнерстве для совместной разработки передовой инфраструктуры искусственного интеллекта.

Nov. 5, 2025, 1:15 p.m.

Генерируемые искусственным интеллектом видео: буд…

Видео, созданные искусственным интеллектом, быстро становятся важным элементом персонализированных маркетинговых стратегий, трансформируя способы взаимодействия брендов с их аудиториями.

Nov. 5, 2025, 9:21 a.m.

ИИ-видеоаналитика улучшает опыт спортивных трансл…

Искусственный интеллект (ИИ) в видеомониторинге стремительно меняет спортивные трансляции, улучшая удовольствие зрителей благодаря подробной статистике, информации о результатах в реальном времени и персонализированному контенту, адаптированному к индивидуальным предпочтениям.

All news

AI Company

Launch your AI-powered team to automate Marketing, Sales & Growth

and get clients on autopilot — from social media and search engines. No ads needed

Begin getting your first leads today