News
>
구글 비오 3 AI 비디오 생성기: 인상적인 리얼리즘으로 오디오와 비디오를 동기화하다

Auto-Filling SEO Website as a Gift

Launch Your AI-Powered Business and get clients!

No advertising investment needed—just results. AI finds, negotiates, and closes deals automatically

May 24, 2025, 6:48 a.m.

구글 비오 3 AI 비디오 생성기: 인상적인 리얼리즘으로 오디오와 비디오를 동기화하다

화요일, 구글은 새로운 AI 비디오 합성 모델인 Veo 3를 공개했다. 이 모델은 기존의 주요 AI 비디오 생성기들이 아직 구현하지 못했던 한 가지를 성취하는데, 바로 비디오와 동시에 동기화된 오디오 트랙을 만들어내는 것이다. 2022년부터 2024년까지 초창기 AI 생성 비디오들은 무음이었고 대체로 매우 짧았지만, 이제 Veo 3는 목소리, 대화, 음향 효과를 갖춘 8초 길이의 고화질 클립을 제공한다. 출시 이후, 사람들은 즉시 명백한 기준을 제기했다. Veo 3가 오스카상 수상 배우 윌 스미스를 스파게티 먹는 장면을 얼마나 잘 가짜할 수 있을까? 간단한 배경 설명: AI 비디오에서 '스파게티 기준'은 2023년 3월, 오픈소스 합성 모델인 ModelScope를 이용해 제작된 다소 불안한 초기 AI 생성 비디오로 시작됐다. 그 스파게티 영상은 그렇게 유명해졌으며, 거의 1년 뒤인 2024년 2월, 스미스가 이를 패러디하는 영상으로 다시 주목받게 됐다. 원래 바이럴 영상이 어떤 모습이었는지 다시 상기시켜 보면: 당시에는 스미스 패러디가 가장 좋은 AI 비디오 생성기를 사용해 만들어진 것이 아니었다는 점이 종종 잊힌다. Runway의 Gen-2라는 모델이 더 높은 품질의 결과물을 이미 제공하고 있었지만, 아직 공개되지 않았다. 그럼에도 불구하고, ModelScope 버전은 이상하고 기억에 남을 만큼 독특했으며, 기술이 발전함에 따라 초기 AI 비디오의 한계를 보여주는 기준점이 되었다. 이번 주 초, AI 앱 개발자 하비 로페즈는 Veo 3를 이용해 스파게티 테스트를 다시 보고 싶어하는 팬들을 위해, 자신의 발견 내용을 X(이전 트위터)에 공유했다. 그러나 결과를 볼 때, 사운드트랙이 이상하게 들렸다: 가짜 스미스가 스파게티를 씹는 듯한 소리였다. 이 버그는 Veo 3의 실험적 기능인 사운드 효과 추가에서 비롯된 것으로 보이며, 이는 아마도 훈련 데이터에 씹는 소리와 크런치하는 소리의 예시가 많이 포함된 덕분일 것이다. 생성 AI 모델은 패턴 매칭 예측 시스템으로 작동하며, 다양한 미디어 유형에 걸친 충분한 훈련 데이터에 의존해 설득력 있는 출력을 만들어낸다.

특정 콘셉트가 과잉 또는 부족하게 표현되면, 이로 인해 이상한 생성 산물(아티팩트)가 발생하곤 한다. 우리 역시 Veo 3에서 “윌 스미스”라는 프롬프트를 실행해봤지만, 구글의 콘텐츠 필터에 의해 차단되었다. 대신 “스파게티 먹는 흑인 남자”라는 프롬프트를 사용하니 비슷한 크런치 효과를 내는 소리를 얻었다. (로페즈는 초기 필터가 없는 접근 권한이 있었거나, 필터를 우회하는 프롬프트 변형을 실험했을 수도 있다. ) Veo 3는 일관된 대화와 음악을 생성하는 능력으로 이미 많은 인상적인 사례를 X에서 보여줬다. 단순히 매우 알덴테(적당히 삶아진) 국수 먹는 남성 영상에 그치지 않고, 그가 노래하며 동시에 먹는 모습을 보여줄 수 있는지 테스트해봤다: “부엌 식탁에서 스파게티에 관한 영어 코미디 오페라를 부르며 먹고 있는 남자”라는 프롬프트였다. 2023년 이후로 상당한 발전이 있었으며, AI 비디오 생성기는 점점 더 현실적이고 기능적으로 향상될 것이다. 만약 Veo 3의 현재 유명인 필터가 없었다면, 우리가 스미스가 노래하거나 거의 무엇이든 하는 모습을 쉽게 만들어낼 수 있었을 텐데, 이는 AI 비디오 기술에 대한 잠재적 우려를 드러낸다. 문화적 특이점은 빠르게 다가오고 있다. 이와 관련하여, 우리는 최근 Veo 3을 이용한 광범위한 영상 생성 테스트를 실시했으며, 곧 전용 기획 기사와 함께 그 결과를 공유할 예정이다. 지금은 ‘노멀페이스 노들타임’의 짧은 업데이트로 생각해 주시기 바란다. 맛있게 드세요!

News source

Brief news summary

구글은 Veo 3라는 고급 AI 비디오 합성 모델을 선보였으며, 이 모델은 오디오, 대화, 음향 효과와 함께 동기화된 8초 길이의 HD 비디오를 생성할 수 있어, 이전에 제한적이었던 무음 또는 매우 짧은 클립 제작 도구를 뛰어넘었습니다. 테스트에서 Veo 3는 2023년 저품질 영상에서 오스카 수상 배우 윌 스미스가 스파게티를 먹는 장면을 재현하여 벤치마크 시나리오를 성공적으로 재생성했습니다. 비디오와 오디오의 동기화도 효과적이었으나, 스파게티 장면에서는 특이하게 “바삭거리는” 소리가 나는 데, 이는 학습 데이터의 치찰음 강조로 인해 치아물기 소리가 과도하게 학습되었기 때문일 가능성이 높습니다. 콘텐츠 필터는 “윌 스미스”라는 직접적인 프롬프트를 차단하지만, 유사한 입력은 여전히 오디오 오류를 일으킬 수 있습니다. 이러한 도전에도 불구하고, Veo 3는 일관된 대화와 음악을 만들어내는 데 뛰어나며, 코믹한 스파게티 오페라와 같은 창작 프로젝트에 영감을 주고 있습니다. 이 발전은 현실적인 AI 생성 멀티미디어를 향한 중요한 진전이지만, 유명인 얼굴상에 대한 제한은 계속되는 장애물입니다. Veo 3의 출시로 AI 영상의 현실성에 관한 문화적 논의가 활발해졌으며, 계속된 테스트 속에서 “프레시 프린스”의 스파게티 이야기에도 새로운 전환을 선사하고 있습니다.

Business on autopilot