За последний год модели диффузии видео, созданные с помощью искусственного интеллекта, достигли впечатляющих успехов в области визуальной реалистичности. Об этом свидетельствуют такие модели, как Sora 2 от OpenAI, Veo 3 от Google и Gen-4 от Runway. Генерация видео с помощью ИИ приближается к важному этапу: последние модели способны создавать потрясающие, очень похожие на реальные клипы. Однако архитектура этих моделей ограничивает их использование в интерактивных приложениях в режиме реального времени, поскольку они создают кадры последовательно, выполняя сложные и вычислительно насыщенные шаги. Обработка каждого фрагмента перед переходом к следующему вызывает задержки, из-за чего невозможно реализовать потоковое видео в реальном времени. Большинство специалистов по ИИ сосредоточены на создании клипов для последующего просмотра, а идея мгновенной живой трансформации видео остается далеким будущем. Команда Decart поставила под вопрос эту архитектурную преграду и разработала LSD v2 — модель, которая демонстрирует, что минимальная задержка возможна благодаря новым подходам, применимым к разным моделям ИИ. Они оптимизировали инфраструктуру для максимизации использования графических процессоров и ускорили процесс удаления шума, критически важный для предотвращения накопления ошибок. LSD v2 использует причинную, автогрессивную архитектуру для немедленной и непрерывной генерации видео без ограничения по длительности выхода. Основные инновации включают: 1. **Бесконечная генерация с помощью причинных, автогрессивных моделей** Для потоковой передачи видео модели должны работать «причинно», генерируя каждый кадр, основываясь только на предыдущих. Это снижает вычислительную нагрузку и обеспечивает непрерывность, однако со временем накапливаются ошибки — небольшие искажения, например, неправильно отображённая тень, постепенно увеличиваются. Чтобы решить эту проблему, Decart усовершенствовал «диффузионное принуждение», которое позволяет очищать кадры от шума во время генерации, и ввёл «расширение истории» — обучение моделей распознавать и исправлять повреждённые выходы. Целая цепочка обратной связи учитывает ранее сгенерированные кадры, текущий ввод и пользовательские запросы, что позволяет модели выявлять и исправлять артефакты, обеспечивая беспрерывное качество контента. Это открывает возможность для непрерывного редактирования и трансформации видео по желанию пользователя в реальном времени. 2.
**Достижение задержки менее одной секунды через оптимизацию GPU** Для интерактивного видео в реальном времени генерация каждого кадра должна занимать не более 40 миллисекунд, чтобы избежать заметной задержки. Однако высокая вычислительная сложность причинных моделей противоречит конструкции современных GPU, оптимизированных под обработку больших батчей данных и меньшую задержку. Decart решил эту проблему глубоким укрупнением операций — создав единый «мега-ядро» вместо множества мелких, которое выполняет все вычисления модели за один непрерывный проход. Такой подход значительно повышает использование GPU и ускоряет процесс примерно в десять раз, подобно тому, как конвейерное производство по Фордху революционизировало промышленность, сделав последовательные процессы более эффективными. 3. **Путём обрезки и дистилляции для повышения эффективности** Нейронные сети зачастую переобучены и содержат лишние параметры. Decart применил «архитектурное pruning» — удаление излишних элементов — чтобы снизить вычислительные затраты и правильно адаптировать модели под аппаратное обеспечение. Кроме того, разработали «shortcut дистилляцию» — тонкую настройку меньших моделей, способных так же быстро очищать кадры, как и крупные, при этом потребляя значительно меньше ресурсов. Использование этих облегчённых моделей позволяет сократить число шагов для получения согласованных кадров, что приводит к дополнительной экономии времени и ускоряет конечный результат. Совместными усилиями эти достижения позволяют генерировать видео с задержкой менее одной секунды, что является важным шагом для внедрения ИИ-видео в интерактивные сценарии. Пользователи смогут редактировать содержание «на лету», адаптируя видео по командам или реакции аудитории. Эта технология особенно перспективна для стримеров и инфлюенсеров в реальном времени, которые смогут динамически изменять показываемый контент во время трансляции. Кроме развлечений, это решение обещает изменить игровые движки, позволяя создавать последовательности, адаптирующиеся в реальном времени к действиям игрока — например, развилки сюжетов, выбираемые пользователем. Также новинка находит применение в расширенной реальности, иммерсивном обучении и маркетинге на масштабных мероприятиях. Более того, видео, созданные ИИ, могут служить нейронными рендерами для архитекторов и дизайнеров интерьеров, быстро моделируя стили и концепции по запросам еще до финализации проекта. Самое удивительное — устранение задержек и возможность бесконечной генерации видео дают творческим специалистам шанс экспериментировать с длинными форматами в интерактиве. Они могут в реальном времени менять сцены, освещение, ракурсы камеры и выражения персонажей, превращая повествование в динамичный, управляемый пользователем опыт. Кфир Абережман, сооснователь Decart AI и руководитель филиала в Сан-Франциско, занимается развитием технологий преобразования реального времени в продукты. Его работа посвящена созданию интерактивных, персонализированных систем ИИ, объединяющих исследовательские достижения и творческое взаимодействие.
Прорыв Decart AI в LSD v2 позволяет создавать видеоконтент с искусственным интеллектом в реальном времени с минимальной задержкой
Технологии с использованием искусственного интеллекта в сжатии видео революционизируют стриминговые сервисы За последнее десятилетие стриминговые сервисы кардинально изменили глобальное потребление медиа
На протяжении более двух десятилетий поисковая оптимизация (SEO) являлась движущей силой веб-маркетинга, но появление генеративных систем искусственного интеллекта (ИИ) сейчас нарушает эти устоявшиеся практики, предоставляя прямые ответы вместо списков ссылок.
OpenAI и правительство Великобритании официально установили стратегическое партнерство, направленное на преобразование предоставления государственных услуг за счет интеграции передовых технологий искусственного интеллекта.
Нvidia наконец получила одобрение президента Дональда Трампа на продажу своих AI-микрочипов H200 в Китае, но остаются вопросы, завершится ли сделка окончательно.
Удивительно, насколько быстро может измениться рабочая среда, если руководство зациклено на новейших блестящих инновациях.
Появление расистских фальшивых видео, созданных с помощью искусственного интеллекта, стало тревожным и опасным явлением, которое меняет политический дискурс и укрепляет вредные стереотипы, особенно по отношению к чернокожим сообществам.
Интеграция искусственного интеллекта (ИИ) в поисковую оптимизацию (SEO) меняет подход маркетологов к цифровому маркетингу, обеспечивая большую эффективность, точность и глубокие инсайты.
Launch your AI-powered team to automate Marketing, Sales & Growth
and get clients on autopilot — from social media and search engines. No ads needed
Begin getting your first leads today