Быстрая генерация высококачественных изображений является необходимой для создания реалистичных симулированных сред, которые помогают обучать автономные автомобили безопасно справляться с непредсказуемыми опасностями. Однако текущие генеративные AI-техники, особенно диффузионные модели, зачастую слишком медлительны и требовательны к вычислительным ресурсам. В то время как авторегрессивные модели, такие как те, что стоят за LLM, такими как ChatGPT, работают намного быстрее, они, как правило, производят изображения низкого качества, полные ошибок. Исследователи из MIT и NVIDIA представили HART (Гибридный Авторегрессивный Трансформер), новый метод генерации изображений, который объединяет сильные стороны обоих подходов. HART использует авторегрессионную модель для быстрого очерчивания основных характеристик изображения, а затем применяет меньшую диффузионную модель для уточнения этих деталей. Этот инновационный инструмент генерирует изображения, которые соперничают с качеством современных диффузионных моделей или превосходят его, при этом работает примерно в девять раз быстрее и требует меньших вычислительных ресурсов, позволяя использовать его на обычных ноутбуках и смартфонах. Применения HART включают помощь исследователям в обучении роботов сложным задачам и содействие дизайнерам в создании увлекательных сцен для видеоигр.
«Точно так же, как уточнение грубой картины с помощью детализированных мазков кисти повышает её качество, HART сочетает широкую генерацию изображений с тщательной работой над деталями», — говорит Хаотиан Тан, один из ведущих авторов исследования. Диффузионные модели, которые требуют множества шагов для удаления шума с изображений, могут создавать высокодетализированные визуализации, но они медлительны и ресурсоемки. В отличие от этого, авторегрессивные модели генерируют изображения быстрее, создавая участки последовательно, но страдают от потери информации, что приводит к более низкому качеству. HART преодолевает эти ограничения, сначала предсказывая дискретные токены изображения с помощью авторегрессионной модели, а затем используя диффузионную модель для добавления любых недостающих деталей, что позволяет получать быстрые и качественные изображения всего за восемь шагов. В ходе разработки исследователи столкнулись с проблемами интеграции, но улучшили качество HART, применив диффузионную модель исключительно для предсказания остаточных токенов. Их окончательный дизайн использует авторегрессионную модель с 700 миллионами параметров и диффузионную модель с 37 миллионами параметров, достигая качества изображения, сопоставимого с более крупными диффузионными моделями (до 2 миллиардов параметров), при этом потребляя на 31% меньше вычислительной мощности. В будущем команда планирует развивать архитектуру HART для разработки моделей «зрение-язык» и исследовать применения в генерации видео и предсказании аудио, что может революционизировать взаимодействие с генеративными моделями. Это исследование поддерживалось различными организациями, включая MIT-IBM Watson AI Lab и NVIDIA, которые предоставили ресурсы GPU для обучения модели.
MIT и NVIDIA представили HART: революционный метод генерации изображений.
В современном быстро меняющемся цифровом мире языковые барьеры часто создают серьезные препятствия для гладкого глобального взаимодействия.
Это главный предупреждающий сигнал из отчета McKinsey за октябрь 2025 года, который подробно описывает, как поисковые системы, использующие генеративный ИИ, быстро меняют способы, которыми люди ищут, исследуют и приобретают товары.
SLB, ведущая компания в области энергетических технологий, представила инновационный инструмент искусственного интеллекта под названием Tela, направленный на значительно повышение уровня автоматизации в операциях на нефтяных месторождениях.
Искусственный интеллект (ИИ) кардинально меняет оптимизацию поисковых систем (SEO), принципиально изменяя подходы бизнеса к разработке своих стратегий цифрового маркетинга и достижению целей.
SenseTime и Cambricon объявили о стратегическом партнерстве для совместной разработки передовой инфраструктуры искусственного интеллекта.
Видео, созданные искусственным интеллектом, быстро становятся важным элементом персонализированных маркетинговых стратегий, трансформируя способы взаимодействия брендов с их аудиториями.
Искусственный интеллект (ИИ) в видеомониторинге стремительно меняет спортивные трансляции, улучшая удовольствие зрителей благодаря подробной статистике, информации о результатах в реальном времени и персонализированному контенту, адаптированному к индивидуальным предпочтениям.
Launch your AI-powered team to automate Marketing, Sales & Growth
and get clients on autopilot — from social media and search engines. No ads needed
Begin getting your first leads today