Google Veo 3 AI Generator Wideo: Synchronizacja Dźwięku i Obrazu z Imponującym Rzeczywistym Efektem

Wtorek przyniósł Google’owi zapowiedź Veo 3, nowego modelu sztucznej inteligencji do syntezy wideo, które potrafi osiągnąć coś, czego dotąd nie udało się żadnemu dużemu generatorowi wideo opartego na AI: produkować zsynchronizowany ścieżkę dźwiękową wraz z obrazem. Między 2022 a 2024 rokiem wczesne filmy generowane przez AI były głównie bez dźwięku i zazwyczaj bardzo krótkie. Teraz Veo 3 oferuje ośmiosekundowe klipy w rozdzielczości HD, w pełni z głosami, dialogami i efektami dźwiękowymi. Po premierze wielu od razu postawiło oczywiste pytanie testowe: jak dobrze Veo 3 potrafi zrobić fałszywkę z aktora Oscara-Willa Smitha jedzącego spaghetti? Krótko przypomnijmy: „test spaghetti” w wideo AI zaczął się w marcu 2023 roku od wczesnego, niezbytpokojącego filmu wygenerowanego przez AI, stworzonego za pomocą otwartego modelu syntezy o nazwie ModelScope. Przykład spaghetti stał się tak znany, że Smith zrobił z niego parodię prawie rok później, w lutym 2024. Oto przypomnienie, jak wyglądało oryginalne viralowe wideo: Często zapomina się, że w tamtym czasie parodia Smitha nie była tworzona najlepszym dostępnym generatorem wideo AI — modelem o nazwie Gen-2 od Runway, który już wtedy oferował wyższą jakość, choć nie był jeszcze dostępny publicznie. Mimo to wersja z ModelScope była wystarczająco dziwna i zapadająca w pamięć, by stać się punktem odniesienia dla początkowych ograniczeń technologii AI wideo na drodze do rozwoju. Na początku tego tygodnia twórca aplikacji AI, Javi Lopez, odpowiedział fanom, którzy chętnie chcieli odtworzyć test spaghetti z Veo 3, dzieląc się swoimi spostrzeżeniami na X. Jednak oglądając wyniki, dźwięk wydawał się nietypowy — fałszywy Smith brzmiał, jakby chrupał spaghetti. Ta usterka wynika z eksperymentalnej zdolności Veo 3 do dodawania efektów dźwiękowych, najprawdopodobniej dlatego, że jego dane treningowe obejmowały liczne przykłady gryzienia z odgłosami chrupania. Modele generatywnej AI działają jako systemy przewidywania na podstawie rozpoznawania wzorców, opierając się na odpowiedniej ilości danych treningowych w różnych mediach, aby wytworzyć przekonujące wyniki.
Gdy pewne koncepcje są nad- lub niedoreprezentowane w tych danych, pojawiają się charakterystyczne artefakty generacji, takie jak ten. Sam również wypróbowaliśmy ten prompt na Veo 3, choć „Will Smith” został zablokowany przez filtry treści Google. Natomiast użycie opisu „czarnoskóry mężczyzna jedzący spaghetti” dało podobny efekt dźwiękowy chrupania (możliwe, że Lopez miał wcześniejszy dostęp do wersji bez filtrów lub eksperymentował z wariantami promptów, które prześlizgnęły się przez zabezpieczenia). Veo 3 robi wrażenie swoją zdolnością do generowania spójnych dialogów i muzyki, już inspirując liczne efektowne przykłady na X. Nie chcąc ograniczyć się tylko do wideo mężczyzny jedzącego bardzo al dente makaron, sprawdziliśmy, czy figura ta może śpiewać i jeść jednocześnie, proponując: „Mężczyzna śpiewający anglojęzyczną operetkę komiczną o spaghetti przy kuchennym stole podczas jedzenia. ” Od 2023 roku poczyniliśmy znaczące postępy, a generatory wideo AI będą nadal ulepszać się w realizmie i funkcjonalności. Gdyby nie obecny filtr gwiazd filmowych w Veo 3, łatwo byłoby stworzyć filmy z Smithem śpiewającym albo robiącym praktycznie cokolwiek innego — co uwydatnia potencjalne zagrożenia związane z technologią AI wideo. Kulturowa granica zbliża się dużymi krokami. W tym kontekście niedawno przeprowadziliśmy własne obszerne testy generacji wideo z Veo 3 i wkrótce podzielimy się ich wynikami w dedykowanym artykule. Na razie traktujcie to jako krótką aktualizację na temat „Fresh Prince of Noodletime”. Smacznego!
Brief news summary
Google wprowadziło Veo 3, zaawansowany model sztucznej inteligencji do syntezy wideo, który potrafi generować zsynchronizowane osiemsekundowe filmy w wysokiej rozdzielczości z dźwiękiem, dialogami i efektami dźwiękowymi – przewyższając wcześniejsze narzędzia ograniczone do cichych lub bardzo krótkich klipów. W testach Veo 3 pomyślnie odtworzył scenariusz testowy, replikując nagranie Oscara-Will'a Smith'a jedzącego makaron spaghetti na niskiej jakości wideo z 2023 roku. Chociaż model skutecznie synchronizował obraz i dźwięk, podczas sceny z spaghetti wydawał dziwny dźwięk „chrupania”, prawdopodobnie z powodu uprzedzeń w danych treningowych, które podkreślały odgłosy żucia. Filtry treści blokują bezpośrednie polecenia zawierające „Will Smith”, ale podobne zapytania nadal powodują zakłócenia dźwiękowe. Pomimo tych wyzwań, Veo 3 doskonale radzi sobie z generowaniem spójnego dialogu i muzyki, co zainspirowało kreatywne projekty, takie jak komiczna opera spaghetti. Ten postęp stanowi ważny krok w kierunku realistycznego multimedium tworzonego przez sztuczną inteligencję, choć ograniczenia w kwestii podobieństwa do gwiazd wciąż stanowią wyzwania. Wydanie Veo 3 wywołało dyskusje kulturowe na temat realizmu wideo generowanego przez AI i dodaje nowy wymiar do spaghettiowej historii „Świeżego Księcia” w trakcie dalszych testów.
AI-powered Lead Generation in Social Media
and Search Engines
Let AI take control and automatically generate leads for you!

I'm your Content Manager, ready to handle your first test assignment
Learn how AI can help your business.
Let’s talk!

Wyścig sztucznej inteligencji przyspiesza dzięki …
Przemysł sztucznej inteligencji doświadczył w zeszłym tygodniu niezwykłego wzrostu w zakresie ważnych wydarzeń, co podkreśla szybkie innowacje i intensywną konkurencję między czołowymi firmami technologicznymi.

Czy Google nadal może dominować w wyszukiwaniu w …
Na konferencji deweloperskiej Google 2025 firma zaprezentowała dużą przebudowę swojej podstawowej funkcji wyszukiwania, podkreślając kluczową rolę sztucznej inteligencji w jej przyszłości.

Waszyngton i idzie dalej z kryptowalutami: Ustawy…
W tym tygodniowym odcinku Byte-Sized Insight na temat Decentralize we współpracy z Cointelegraph analizujemy kluczowy krok w amerykańskim prawie dotyczącym kryptowalut.

Podręcznik dotyczący aktywów cyfrowych: dlaczego …
Minęło ponad 15 lat od stworzenia pierwszego bitcoina, a kryptowaluty obecnie realizują część swoich wczesnych obietnic, transformując długo istniejące systemy finansowe.

Oto 6 najważniejszych wniosków z konferencji Goog…
Na konferencji Google I/O w tym tygodniu tech gigant ogłosił około 100 nowości, sygnalizując swoje ambicje dominacji w dziedzinie sztucznej inteligencji w różnych obszarach — od odświeżenia funkcji Wyszukiwania po aktualizacje modeli AI i technologii noszonych urządzeń.

Bitcoin przekracza 111 000 dolarów: Blockchain Cl…
Bitcoin ponownie przyciąga uwagę na świecie, osiągając pierwszy raz wartość ponad 111 000 dolarów, napędzany przez instytucjonalnych inwestorów, zmieniające się geopolityczne dynamiki monetarne i odrodzenie rynku kryptowalut.

Co Zdaniem Sztucznej Inteligencji się wydarzy w s…
Trump przeciwko CASA w ogniu sztucznej inteligencji: symulacja opinii Sądu Najwyższego W zeszłym tygodniu Sąd Najwyższy rozpatrywał sprawę Trump przeciwko CASA, Inc