Генератор видео с ИИ Google Veo 3: синхронизация звука и изображения с впечатляющей реалистичностью

Во вторник Google представила Veo 3 — новую модель искусственного интеллекта для синтеза видео, способную достичь того, что раньше ни один крупный генератор видео на базе ИИ не мог: создание синхронной аудиодорожки вместе с видео. В период с 2022 по 2024 годы первые видео, созданные с помощью ИИ, были беззвучными и обычно очень короткими. Теперь Veo 3 показывает восьмисекундные高清-клипы с голосами, диалогами и звуковыми эффектами. После запуска сразу возник традиционный измерительный вопрос: насколько хорошо Veo 3 сможет подделать лауреата Оскара, актера Вилла Смита, поедая спагетти? Кратко напомню: «спагетти-бег» в ИИ-видео начался в марте 2023 года с раннего, довольно тревожного видео, созданного с помощью открытой модели синтеза под названием ModelScope. Этот пример с спагетти стал настолько известен, что почти через год, в феврале 2024-го, Смит высмеял его. Вот как выглядел изначальный вирусный ролик: Что часто забывают, так это то, что в то время пародия на Смита не создавалась с помощью самой лучшей доступной модели ИИ — моделью Gen-2 от Runway, которая уже давала более качественные результаты, хотя она ещё не была публично доступна. Тем не менее, версия ModelScope была достаточно странной и запоминающейся, чтобы стать ориентиром для первых ограничений технологий ИИ в видео по мере их развития. Ранее на этой неделе разработчик ИИ-приложений Хави Лопес ответил фанатам, желающим снова попробовать тест со спагетти с помощью Veo 3, поделившись своими наблюдениями в X. Однако при просмотре результатов звуковая дорожка показалась необычной: фальшивый Смит казался будто жует спагетти с хрустящим звуком. Эта сбойка связана с экспериментальной способностью Veo 3 добавлять звуковые эффекты, вероятно, потому, что его обучающие данные включали множество примеров жевания с хрустящими звуками. Генеративные модели ИИ работают как системы сопоставления образцов, делая прогнозы на основе достаточно богатых данных, покрывающих разные медиаформаты, чтобы создавать убедительные результаты.
Когда определённые концепции чрезмерно или недостаточно представлены в этих данных, возникают странные артефакты генерации, как этот. Мы также запустили собственный тест в Veo 3, однако запрос «Will Smith» был заблокирован фильтрами Google. Но при использовании запроса «Чёрный мужчина ест спагетти» получилось получить похожий хрустящий эффект (возможно, у Лопеса был ранний доступ без фильтров или он экспериментировал с вариациями запросов, которые прошли фильтрацию). Veo 3 впечатляет своей способностью генерировать связный диалог и музыку, уже вдохновляя множество ярких примеров на X. Не желая ограничиваться лишь видеороликом, где мужчина ест очень аль денте пасту, мы решили проверить, может ли фигура петь и есть одновременно, запросив: «Мужчина поёт на английском языке комическую оперу о спагетти за кухонным столом, при этом поедая её». С 2023 года мы достигли значительного прогресса, и создатели ИИ-видео продолжат совершенствоваться в реалистичности и функциональности. Если бы не нынешний фильтр знаменитостей Veo 3, то легко можно было бы создать видео, где Смит поёт — или делает практически что угодно, — что поднимает потенциальные опасения относительно технологий ИИ в видео. Культурная сингулярность приближается быстро. На этой ноте мы недавно провели собственную серию обширных тестов по созданию видео с Veo 3 и скоро поделимся результатами в специальной статье. А пока — короткое обновление о новом этапе Нутеллы-Принца. Приятного аппетита!
Brief news summary
Google представила Veo 3 — усовершенствованную модель синтеза видео на базе ИИ, способную генерировать синхронизированные восьсесекундные HD-видео с аудио, диалогами и звуковыми эффектами — превосходя предыдущие инструменты, ограниченные тихими или очень короткими клипами. В тестах Veo 3 успешно воссоздала эталонную сцену, воспроизведя актёра, победителя премии «Оскар» Вилла Смита, поедающего спагетти на низкокачественном видео 2023 года. Хотя модель эффективно синхронизировала видео и аудио, в сцене с спагетти слышался необычный «хрустящий» звук, вероятно, из-за смещения в тренировочных данных, подчеркивающих жующие звуки. Контрольные фильтры блокируют прямые запросы с «Виллом Смитом», однако похожие запросы всё равно вызывают сбои в аудио. Несмотря на эти сложности, Veo 3 отлично справляется с созданием связных диалогов и музыки, вдохновляя творческие проекты, например, комедийную оперу о спагетти. Этот прогресс отмечает важный шаг к реалистичному мультимедийному контенту на базе ИИ, хотя ограничения на использование образов знаменитостей продолжают оставаться серьёзным препятствием. Выпуск Veo 3 вызвал культурные обсуждения по поводу реалистичности видео с ИИ и добавил новый поворот в историю с «Молодым принцем» и спагетти, в то время как тестирование продолжается.
AI-powered Lead Generation in Social Media
and Search Engines
Let AI take control and automatically generate leads for you!

I'm your Content Manager, ready to handle your first test assignment
Learn how AI can help your business.
Let’s talk!
Hot news

Американские законотворцы внесли законопроект о з…
Бипартийная группа законодателей США представила знаковое законодательство под названием Закон о нейтральном отношении к враждебному ИИ (No Adversarial AI Act), направленное на запрет использования китайских систем искусственного интеллекта внутри федерального правительства.

Цифровой актив, создатель ориентированного на кон…
Digital Asset, разработчик ориентированной на конфиденциальность блокчейн-системы Canton Network, во вторник объявила о привлечении 135 миллионов долларов в рамках стратегического раунда финансирования под руководством DRW Venture Capital и Tradeweb Markets.

JPMorgan запускает депозитный токен JPMD для инст…
JPMorgan представил JPMD — новый цифровой актив, предназначенный для институциональных клиентов, обеспечивающий безопасные on-chain платежи.

OpenAI сообщает, что китайский Zhipu AI набирает …
Китайский стартап в сфере искусственного интеллекта Zhipu AI достиг значительных успехов в получении государственных контрактов в регионах таких как Малайзия, Сингапур, Объединённые Арабские Эмираты, Саудовская Аравия и Кения, согласно отчетам OpenAI.

Штаты США усиливают регулирование криптоматов на …
По всей территории США штаты усиливают усилия по регулированию криптовалютных АТМ в связи с резким ростом случаев мошенничества, особенно среди пожилых людей.

Инструменты искусственного интеллекта повышают эф…
Искусственный интеллект (ИИ) быстро трансформирует образовательную сферу в Соединённых Штатах, предоставляя учителям новые возможности для повышения эффективности методов преподавания и улучшения баланса между работой и личной жизнью.

Конгресс США приближается к принятию рамочных пра…
После многолетних усилий Конгресс США наконец приближается к принятию комплексной нормативной базы, специально предназначенной для стабилкойнов.