Google Veo 3 Generador de Vídeos AI: Sincronització de àudio i vídeo amb un realisme impressionant

El dimarts, Google va presentar Veo 3, un nou model de síntesi de vídeos amb IA capaç d’aconseguir alguna cosa que cap de les grans generadores de vídeos amb IA havia aconseguit abans: produir una pista d’àudio sincronitzada amb el vídeo. Entre 2022 i 2024, els primers vídeos generats per IA eren silenciosos i generalment molt breus. Ara, Veo 3 ofereix clips de vuit segons en alta definició, completa amb veus, diàlegs i efectes sonors. Després del llançament, la gent immediatament va plantejar la pregunta evident com a referència: Quant de bé pot falsificar Veo 3 l’actor guanyador de l’Oscar Will Smith menjant espaguetis? Un resum ràpid: el “benchmark de l’espaguetis” en vídeos amb IA va començar al març de 2023 amb un vídeo generat per IA primerenc i força inquietant, creat utilitzant un model de síntesi de codi obert anomenat ModelScope. Aquest exemple d’espaguetis es va fer tan conegut que Smith el va parodiar gairebé un any després, al febrer de 2024. Aquí teniu un recordatori de com era el vídeo viral original: El que sovint s’oblida és que, aleshores, la paròdia de Smith no va ser produïda amb el millor generador de vídeos amb IA available—un model anomenat Gen-2 de Runway ja havia proporcionat uns resultats de millor qualitat, tot i que encara no era accessible públicament. Tot i això, la versió de ModelScope era estranya i prou memorable com per esdevenir un referent de les limitacions primerenques de la IA en la generació de vídeos mentre la tecnologia avançava. A principis de setmana, el desenvolupador d’aplicacions d’IA Javi López va respondre als aficionats disposats a tornar a provar l’espaguetis amb Veo 3, compartint els seus descobriments a X. No obstant això, en veure els resultats, la banda sonora semblava poc habitual: el fals Smith sonava com si estigués cruspint espaguetis. Aquest error prové de la capacitat experimental de Veo 3 per afegir efectes sonors, probablement perquè les dades d’entrenament incloïen nombrosos exemples de masticació amb sorolls de cruixit. Els models generatius d’IA funcionen com a sistemes de predicció de patrons, basant-se en dades d’entrenament suficients en diferents tipus de mitjans per oferir sortides convincents.
Quan certs conceptes estan massa o massa poc representats en aquestes dades, pot donar lloc a artefactes peculiars com aquest. També vam provar el prompt nosaltres mateixos amb Veo 3, però “Will Smith” va ser bloquejat pels filtres de contingut de Google. En canvi, utilitzar el prompt “Un home negre menjant espaguetis” va produir un efecte de cruixit similar (López pot haver tingut accés primerenc sense filtres, o provar amb variacions del prompt que van passar els filtres). Veo 3 impressiona per la seva capacitat de generar diàlegs coherents i música, inspirant ja nombrosos exemples impactants a X. Sense veure’s només un vídeo d’un home menjant al-dente, vam posar a prova si la figura podria cantar i menjar simultàniament, amb la temptativa: “Un home cantant una òpera de comèdia en anglès sobre espaguetis a una taula de cuina mentre en menja. ” Hem fet avenços importants des de 2023, i els generadors de vídeos amb IA seguiran millorant en realisme i funcionalitat. Si no fos pel filtre de celebritats actual de Veo 3, podríem crear fàcilment vídeos de Smith cantant—o fent gairebé qualsevol altra cosa—el que posa de manifest els riscos potencials de la tecnologia de vídeos amb IA. La singularitat cultural s’acosta ràpidament. En aquest sentit, recentment vam dur a terme la nostra pròpia sèrie extensiva de proves de generació de vídeos amb Veo 3 i properament compartirem aquests resultats en un article dedicat. De moment, considerin això una breu actualització sobre el jove de la finestra de la història: Bon profit!
Brief news summary
Google ha presentat Veo 3, un model avançat de síntesi de vídeos amb intel·ligència artificial capaç de generar vídeos HD sincronitzats de vuit segons amb àudio, diàleg i efectes sonors—superant les eines anteriors limitades a clips muts o molt curts. En proves, el Veo 3 va reproduir amb èxit un escenari de referència imitant l’actor guardonat amb un Oscar, Will Smith, menjant espaguetis en un vídeo de baixa qualitat de 2023. Tot i que el model sincronitzava vídeo i àudio de manera efectiva, va produir un soroll estrany de “crunxit” durant la escena dels espaguetis, probablement a causa de biaixos en les dades d’entrenament que ressalten els sons de mastegar. Els filtres de contingut bloquegen les instruccions directes de “Will Smith”, però entrades similars encara causen problemes d’àudio. Malgrat aquests desafiaments, el Veo 3 destaca en la generació de diàlegs coherents i música, inspirant projectes creatius com una òpera còmic amb espaguetis. Aquest avanç suposa un pas important cap a la creació de multimedia realista generada per IA, tot i que les restriccions sobre la semblança de celebritats continuen presentant obstacles. La sortida del Veo 3 ha provocat discussions culturals sobre el realisme dels vídeos d’IA i afegeix un gir novell a la història dels espaguetis del “Príncep de Bibòria”, enmig d’una contínua fase de proves.
AI-powered Lead Generation in Social Media
and Search Engines
Let AI take control and automatically generate leads for you!

I'm your Content Manager, ready to handle your first test assignment
Learn how AI can help your business.
Let’s talk!

La cursa de la intel·ligència artificial s’accele…
L'indústria de la intel·ligència artificial va viure un augment notable de desenvolupaments importants la setmana passada, ressaltant la innovació ràpida i la intensa competició entre les principals empreses tecnològiques.

Google encara pot dominar la cerca en l'era dels …
A la conferència de desenvolupadors de Google del 2025, l'empresa va revelar una gran renovació de la seva funcionalitat de cerca bàsica, fent èmfasi en el paper crucial que la intel·ligència artificial (IA) jugarà en el seu futur.

Washington avança en l'àmbit de les criptomonedes…
En l'episodi d’aquesta setmana de Byte-Sized Insight on Decentralize amb Cointelegraph, explorem un desenvolupament clau en la legislació sobre criptomonedes dels Estats Units.

El Manual d'Actius Digitals: Per què els Mercats …
Fa més de 15 anys des de que es va crear el primer bitcoin, i la criptomoneda ara està complint algunes de les seves primeres promeses transformant els sistemes financers de llarga data.

Aquí tens les 6 principals conclusions de Google …
A la conferència Google I/O d'aquesta setmana, la gegant tecnológica va fer unes 100 contundents anunciants, escalant la seva ambició de dominar la Intel·ligència Artificial en diversos àmbits—from reinventar el cerca fins a actualitzar els models d'IA i la tecnologia de wearable technologie.

El Bitcoin puja per sobre de 111.000 dòlars: la m…
El Bitcoin torna a captar l’atenció global després de superar els 111.000 dòlars per primera vegada, impulsat per inversors institucionals, canvis en les dinàmiques monetàries geopolítiques i una onada renovada de cripto.

Què pensa la Intel·ligència Artificial que passar…
Trump vs.