Генератор видео с ИИ Google Veo 3: синхронизация звука и изображения с впечатляющей реалистичностью

Во вторник Google представила Veo 3 — новую модель искусственного интеллекта для синтеза видео, способную достичь того, что раньше ни один крупный генератор видео на базе ИИ не мог: создание синхронной аудиодорожки вместе с видео. В период с 2022 по 2024 годы первые видео, созданные с помощью ИИ, были беззвучными и обычно очень короткими. Теперь Veo 3 показывает восьмисекундные高清-клипы с голосами, диалогами и звуковыми эффектами. После запуска сразу возник традиционный измерительный вопрос: насколько хорошо Veo 3 сможет подделать лауреата Оскара, актера Вилла Смита, поедая спагетти? Кратко напомню: «спагетти-бег» в ИИ-видео начался в марте 2023 года с раннего, довольно тревожного видео, созданного с помощью открытой модели синтеза под названием ModelScope. Этот пример с спагетти стал настолько известен, что почти через год, в феврале 2024-го, Смит высмеял его. Вот как выглядел изначальный вирусный ролик: Что часто забывают, так это то, что в то время пародия на Смита не создавалась с помощью самой лучшей доступной модели ИИ — моделью Gen-2 от Runway, которая уже давала более качественные результаты, хотя она ещё не была публично доступна. Тем не менее, версия ModelScope была достаточно странной и запоминающейся, чтобы стать ориентиром для первых ограничений технологий ИИ в видео по мере их развития. Ранее на этой неделе разработчик ИИ-приложений Хави Лопес ответил фанатам, желающим снова попробовать тест со спагетти с помощью Veo 3, поделившись своими наблюдениями в X. Однако при просмотре результатов звуковая дорожка показалась необычной: фальшивый Смит казался будто жует спагетти с хрустящим звуком. Эта сбойка связана с экспериментальной способностью Veo 3 добавлять звуковые эффекты, вероятно, потому, что его обучающие данные включали множество примеров жевания с хрустящими звуками. Генеративные модели ИИ работают как системы сопоставления образцов, делая прогнозы на основе достаточно богатых данных, покрывающих разные медиаформаты, чтобы создавать убедительные результаты.
Когда определённые концепции чрезмерно или недостаточно представлены в этих данных, возникают странные артефакты генерации, как этот. Мы также запустили собственный тест в Veo 3, однако запрос «Will Smith» был заблокирован фильтрами Google. Но при использовании запроса «Чёрный мужчина ест спагетти» получилось получить похожий хрустящий эффект (возможно, у Лопеса был ранний доступ без фильтров или он экспериментировал с вариациями запросов, которые прошли фильтрацию). Veo 3 впечатляет своей способностью генерировать связный диалог и музыку, уже вдохновляя множество ярких примеров на X. Не желая ограничиваться лишь видеороликом, где мужчина ест очень аль денте пасту, мы решили проверить, может ли фигура петь и есть одновременно, запросив: «Мужчина поёт на английском языке комическую оперу о спагетти за кухонным столом, при этом поедая её». С 2023 года мы достигли значительного прогресса, и создатели ИИ-видео продолжат совершенствоваться в реалистичности и функциональности. Если бы не нынешний фильтр знаменитостей Veo 3, то легко можно было бы создать видео, где Смит поёт — или делает практически что угодно, — что поднимает потенциальные опасения относительно технологий ИИ в видео. Культурная сингулярность приближается быстро. На этой ноте мы недавно провели собственную серию обширных тестов по созданию видео с Veo 3 и скоро поделимся результатами в специальной статье. А пока — короткое обновление о новом этапе Нутеллы-Принца. Приятного аппетита!
Brief news summary
Google представила Veo 3 — усовершенствованную модель синтеза видео на базе ИИ, способную генерировать синхронизированные восьсесекундные HD-видео с аудио, диалогами и звуковыми эффектами — превосходя предыдущие инструменты, ограниченные тихими или очень короткими клипами. В тестах Veo 3 успешно воссоздала эталонную сцену, воспроизведя актёра, победителя премии «Оскар» Вилла Смита, поедающего спагетти на низкокачественном видео 2023 года. Хотя модель эффективно синхронизировала видео и аудио, в сцене с спагетти слышался необычный «хрустящий» звук, вероятно, из-за смещения в тренировочных данных, подчеркивающих жующие звуки. Контрольные фильтры блокируют прямые запросы с «Виллом Смитом», однако похожие запросы всё равно вызывают сбои в аудио. Несмотря на эти сложности, Veo 3 отлично справляется с созданием связных диалогов и музыки, вдохновляя творческие проекты, например, комедийную оперу о спагетти. Этот прогресс отмечает важный шаг к реалистичному мультимедийному контенту на базе ИИ, хотя ограничения на использование образов знаменитостей продолжают оставаться серьёзным препятствием. Выпуск Veo 3 вызвал культурные обсуждения по поводу реалистичности видео с ИИ и добавил новый поворот в историю с «Молодым принцем» и спагетти, в то время как тестирование продолжается.
AI-powered Lead Generation in Social Media
and Search Engines
Let AI take control and automatically generate leads for you!

I'm your Content Manager, ready to handle your first test assignment
Learn how AI can help your business.
Let’s talk!

Гонка искусственного интеллекта ускоряется благод…
Искусственный интеллект на прошлой неделе стал свидетелем значительного всплеска крупных событий, что подчеркнуло стремительный прогресс инноваций и жесткую конкуренцию среди ведущих технологических компаний.

Может ли Google по-прежнему доминировать в поиске…
На конференции разработчиков Google 2025 года компания представила масштабное обновление своей основной функции поиска, подчеркнув важную роль искусственного интеллекта в будущем.

Вашингтон движется к криптовалютам: законопроекты…
В эпизоде этой недели программы Byte-Sized Insight на Decentralize вместе с Cointelegraph мы рассматриваем важное событие в законодательстве США о криптовалютах.

Введение в цифровые активы: почему рынки акций ст…
Прошло более 15 лет с момента создания первого биткоина, и криптовалюта в настоящее время реализует часть своих ранних обещаний, преобразуя устоявшиеся финансовые системы.

Вот шесть главных выводов с конференции Google I/…
На конференции Google I/O на этой неделе технологический гигант сделал около 100 анонсов, ознаменовав свои амбиции доминировать в сфере искусственного интеллекта в различных областях — от обновления поиска до улучшения моделей ИИ и носимых технологий.

Биткойн sobe выше $111 000: Blockchain Cloud Mini…
Биткоин снова привлекает всемирное внимание после того, как впервые превысил отметку в $111 000, что обусловлено участием институциональных инвесторов, изменениями в геополитической денежно-кредитной сфере и возрождением крипто-раскручивания.

Что, по мнению ИИ, произойдет в случаях с вопроса…
Trump против CASA в испытании ИИ: моделирование мнений Верховного суда На прошлой неделе Верховный суд рассмотрел дело Trump против CASA, Inc