Гугл Вео 3 AI Відео Генератор: синхронізація аудіо та відео з вражаючою реалістичністю

Увівторок, Google презентував Veo 3 — нову модель штучного інтелекту для синтезу відео, здатну досягти того, що жоден великий генератор AI відео раніше не вміг зробити: створювати синхронізований аудіотрек разом із відео. У період з 2022 по 2024 рік ранні відео, створені за допомогою AI, були мовчазними і зазвичай дуже короткими. Тепер Veo 3 надає восьмисекундні високоякісні кліпи з голосами, діалогами і звуковими ефектами. Після запуску люди одразу поставили очевидне питання щодо критеріїв оцінки: наскільки добре Veo 3 може підробити Оскара для актора Вілу Сміта, який їсть спагеті? Короткий огляд: «спагетті-бенчмарк» у AI відео почався у березні 2023 року з раннього, досить тривожного відео, створеного за допомогою відкритої моделі синтезу під назвою ModelScope. Цей приклад з спагеті став настільки відомим, що Сміт з пародією повторив його майже через рік, у лютому 2024. Ось нагадування, як виглядав оригінальний вірусний ролик: Зазвичай забувають, що тоді пародія на Сміта не була створена найкращим доступним AI-генератором — модель під назвою Gen-2 від Runway вже давала більш високоякісні результати, хоча вона ще не була публічно доступною. Втім, версія від ModelScope була досить дивною та впізнаваною, щоб стати орієнтиром для перших обмежень AI відео у процесі розвитку технології. Раніше цього тижня розробник AI-додатків Хаві Лопес відповів фанатам, які прагнули повторити тест із спагетті за допомогою Veo 3, поділившись своїми висновками у X. Однак, дивлячись на результати, звуковий супровід видавався незвичним: фальшивий Сміт звучав так, ніби хрумав спагетті. Ця помилка виникла через експериментальні можливості Veo 3 додавати звукові ефекти, ймовірно, тому, що його навчальні дані містили багато прикладів жування з хрускотом. Генеративні моделі AI працюють як системи прогнозування, що шукають шаблони, опираючись на достатню кількість навчальних даних з різних медіа, щоб створювати переконливий контент.
Коли певні концепції пере— або недооцініюються в цих даних, це може спричинити дивні артефакти у згенерованому відео. Ми також самі протестували цей запит на Veo 3, але «Will Smith» був заблокований фільтрами Google. Проте запит «чорний чоловік, який їсть спагетті» дав подібний хрумкій звуковий ефект (можливо, Лопес мав ранній доступ без фільтрів або експериментував із варіаціями запитів, що пройшли через фільтри). Veo 3 вражає своєю здатністю створювати логічний діалог і музику, вже надихаючи багато вражаючих прикладів у X. Не зупиняючись лише на відео чоловіка, що їсть дуже аль денте спагетті, ми перевірили, чи може ця фігура співати і їсти одночасно, запропонувавши: «Чоловік співає англійською комедичну оперу про спагетті за кухонним столом під час їжі». З 2023 року ми зробили значний прогрес, і генератори відео AI продовжать удосконалюватися у реалістичності й функціональності. Якби не поточний фільтр знаменитостей Veo 3, ми могли б легко створювати відео із співом Сміта — або щось ще, що ще більше підкреслює потенційні занепокоєння щодо технологій AI відео. Культурна сингулярність швидко наближається. З цієї нагоди ми нещодавно провели власну масштабну серію тестів з генерації відео за допомогою Veo 3 і скоро поділимося результатами в спеціальній публікації. А поки що — коротке оновлення про «Свежого принца» у танці з локшиною. Смачного!
Brief news summary
Google представила Veo 3 — сучасну модель штучного інтелекту для синтезу відео, здатну створювати синхронізовані HD-відео довжиною восьть секунд із аудіо, діалогами та звуковими ефектами — перевищуючи попередні інструменти, обмежені беззвучними або дуже короткими кліпами. У тестах Veo 3 успішно відтворила еталонний сценарій, імітуючи їжу спагетті з низької якості відео 2023 року за участю нагородженого Оскар акторa Віла Сміта. Хоча модель ефективно синхронізувала відео та аудіо, вона створювала незвичний звук «хрускоту» під час сцени з спагетті, ймовірно, через упередження у тренувальних даних, що наголошували на голосах жування. Фільтри контенту блокують прямі запити «Вілл Сміт», але подібні введення все ж викликають збої у звуці. Попри ці труднощі, Veo 3 добре справляється з створенням зрозумілих діалогів і музики, надихаючи творчі проєкти, наприклад, комічну оперу з спагетті. Цей прорив є важливим кроком у розвитку реалістичного мультимедійного контенту, створеного штучним інтелектом, хоча й обмеження щодо зображень знаменитостей залишаються перешкодами. Випуск Veo 3 викликав культурні дискусії щодо реалістичності відео ШІ і додає новий сюжет у історію з «Фріш Прінц», пов'язану із спагетті, під час тривалих тестувань.
AI-powered Lead Generation in Social Media
and Search Engines
Let AI take control and automatically generate leads for you!

I'm your Content Manager, ready to handle your first test assignment
Learn how AI can help your business.
Let’s talk!

Гонка штучного інтелекту прискорюється крупними т…
Індустрія штучного інтелекту минулого тижня зазнала значного прогресу у розвитку, що підкреслює швидкі інновації та активну конкуренцію серед провідних технологічних компаній.

Чи може Google і досі домінувати у пошуку у епоху…
На конференції розробників Google 2025 року компанія оголосила про масштабне оновлення основної функції пошуку, зробивши акцент на вирішальну роль штучного інтелекту у майбутньому.

Вашингтон просуваєся вперед у криптовалюті: закон…
У цьому випуску Byte-Sized Insight на Decentralize з Cointelegraph ми розглядаємо ключовий розвиток у законодавстві США щодо криптовалют.

Перший урок про цифрові активи: чому ринки акцій …
Минуло понад 15 років з моменту створення першого біткойна, і криптовалюта нині виконує частину своїх ранніх обіцянок, трансформуючи стійкі фінансові системи.

Ось шість основних висновків із Google I/O, де те…
Цього тижня на конференції Google I/O технологічний гігант зробив близько 100 оголошень, що свідчить про його амбіції домінувати в сфері штучного інтелекту в різних галузях — від переосмислення пошуку до оновлення моделей штучного інтелекту та технологій носимих пристроїв.

Біткоїн підскакує вище $111 000: Blockchain Cloud…
Біткоїн знову привертає глобальну увагу після того, як вперше подолав позначку в $111 000, що підживлюється інституційними інвесторами, змінами геополітичної грошово-кредитної динаміки та відновленням криптовалютного буму.

Що думає ШІ щодо можливого розвитку подій у справ…
Від Trump проти CASA у випробуванні штучним інтелектом: моделювання думок Верховного Суду Минулого тижня Верховний Суд розглядав справу Trump проти CASA, Inc