Google Veo 3 KI-Video-Generator: Synchronisierung von Audio und Video mit beeindruckender Realitätsnähe

Am Dienstag stellte Google Veo 3 vor, ein neues KI-Videogenerationsmodell, das in der Lage ist, etwas zu erreichen, das kein großer KI-Videoersteller zuvor geschafft hat: die gleichzeitige Produktion eines synchronisierten Audiospuren samt Video. Zwischen 2022 und 2024 waren frühe KI-generierte Videos still und in der Regel sehr kurz. Nun liefert Veo 3 achtsekündige hochauflösende Clips, komplett mit Stimmen, Dialogen und Soundeffekten. Nach der Einführung stellten die Leute sofort die offensichtliche Benchmark-Frage: Wie gut kann Veo 3 den Oscar-Preisträger Will Smith beim Spaghettiessen faken? Ein kurzer Rückblick: Der „Spaghetti-Benchmark“ in der KI-Videoentwicklung begann im März 2023 mit einem frühen, ziemlich beunruhigenden KI-generierten Video, das mit einem Open-Source-Synthesemodell namens ModelScope erstellt wurde. Dieses Spaghetti-Beispiel wurde so bekannt, dass Smith es fast ein Jahr später im Februar 2024 nachäffte. Hier ist eine Erinnerung daran, wie das originale virale Video aussah: Was oft vergessen wird, ist, dass die Smith-Parodie damals nicht mit dem besten verfügbaren KI-Video-Generator erstellt wurde – ein Modell namens Gen-2 von Runway hatte schon hochwertigere Ergebnisse geliefert, war aber noch nicht öffentlich zugänglich. Dennoch war die Version mit ModelScope ungewöhnlich und einprägsam genug, um als Referenzpunkt für frühe Grenzen der KI-Videoentwicklung zu dienen, während sich die Technik weiterentwickelte. Anfang dieser Woche reagierte der KI-App-Entwickler Javi Lopez auf Fans, die den Spaghetti-Test mit Veo 3 erneut sehen wollten, und teilte seine Erkenntnisse auf X. Beim Betrachten der Ergebnisse schien der Soundtrack jedoch ungewöhnlich: Der gefälschte Smith klang, als würde er die Spaghetti knuspern. Dieser Fehler rührt daher, dass Veo 3 vorübergehend die experimentelle Fähigkeit besitzt, Soundeffekte hinzuzufügen, wahrscheinlich weil die Trainingsdaten zahlreiche Beispiele von Kauen mit knackenden Geräuschen enthielten. Generative KI-Modelle funktionieren als Muster-Erkennungssysteme, die auf ausreichende Daten in verschiedenen Medienformaten angewiesen sind, um überzeugende Ausgaben zu erzeugen.
Werden bestimmte Konzepte in den Daten über- oder unterrepräsentiert, führt dies zu eigenartigen Generierungsartefakten wie diesem. Wir haben den Prompt auch selbst bei Veo 3 ausprobiert, aber „Will Smith“ wurde durch Googles Inhaltsfilter blockiert. Der Prompt „Ein schwarzer Mann, der Spaghetti isst“, ergab jedoch ein ähnliches knackendes Soundeffekt (möglicherweise hatte Lopez frühen Zugang ohne Filter oder experimentierte mit Variationen, die durchkamen). Veo 3 beeindruckt mit seiner Fähigkeit, zusammenhängende Dialoge und Musik zu generieren, und inspiriert bereits zahlreiche beeindruckende Beispiele auf X. Um nicht nur ein Video zu produzieren, in dem ein Mann sehr al dente Nudeln isst, haben wir getestet, ob die Figur gleichzeitig singen und essen kann, indem wir aufforderten: „Ein Mann singt eine englischsprachige Komödie-Oper über Spaghetti an einem Küchentisch, während er sie isst. “ Wir haben seit 2023 große Fortschritte gemacht, und KI-Video-Generatoren werden weiterhin realistischer und funktionaler. Wäre es nicht für den aktuellen Celebrity-Filter von Veo 3, könnten wir leicht Videos von Smith erstellen, die ihn singen lassen oder fast alles andere tun – was auf potenzielle Bedenken hinsichtlich der KI-Video-Technologie hinweist. Die kulturelle Singularität rückt schnell näher. In diesem Zusammenhang haben wir kürzlich eine eigene umfangreiche Serie von Video-Tests mit Veo 3 durchgeführt und werden die Ergebnisse in Kürze in einem eigenen Beitrag teilen. Für den Moment verstehen Sie dies als eine kurze Aktualisierung zum „Fresh Prince of Noodletime“. Guten Appetit!
Brief news summary
Google hat Veo 3 vorgestellt, ein fortschrittliches KI-Video-Synthesemodell, das in der Lage ist, synchronisierte achtsekündige HD-Videos mit Audio, Dialogen und Soundeffekten zu erzeugen – eine Verbesserung gegenüber früheren Tools, die auf stumme oder sehr kurze Clips beschränkt waren. In Tests gelang es Veo 3, ein Benchmark-Szenario erfolgreich nachzustellen, indem es den Oscar-prämiierten Schauspieler Will Smith beim Esssen von Spaghetti aus einem minderwertigen Video aus dem Jahr 2023 reproduzierte. Zwar synchronisierte das Modell Video und Ton effektiv, bei der Spaghetti-Szene jedoch erzeugte es ein ungewöhnliches „Knirsch“-Geräusch, wahrscheinlich aufgrund von Trainingsdaten, die Kaubewegungen betonten. Inhaltsfilter blockieren direkte Aufforderungen mit „Will Smith“, trotzdem verursachen ähnliche Eingaben weiterhin Audioprobleme. Trotz dieser Herausforderungen überzeugt Veo 3 bei der Erzeugung kohärenter Dialoge und Musik, was kreative Projekte wie eine komödiantische Spaghetti-Oper inspiriert. Dieser Fortschritt stellt einen bedeutenden Schritt in Richtung realistischer KI-generierter Multimedia-Inhalte dar, allerdings erschweren Einschränkungen bei der Nutzung von Promi-Gesichtern weiterhin die Entwicklung. Die Veröffentlichung von Veo 3 hat kulturelle Diskussionen über die Realitätsnähe von KI-Videos angeregt und verleiht der Spaghetti-Geschichte aus „Der frische Prinz“ eine neue Wendung, während weiterhin getestet wird.
AI-powered Lead Generation in Social Media
and Search Engines
Let AI take control and automatically generate leads for you!

I'm your Content Manager, ready to handle your first test assignment
Learn how AI can help your business.
Let’s talk!

KI-Rennen beschleunigt sich mit bedeutenden Techn…
Die künstliche Intelligenz Branche erlebte in der vergangenen Woche einen bemerkenswerten Anstieg an bedeutenden Entwicklungen, was schnelle Innovationen und intensiven Wettbewerb unter den führenden Tech-Unternehmen unterstreicht.

Kann Google im Zeitalter der KI-Chatbots weiterhi…
Auf der Entwicklerkonferenz 2025 von Google enthüllte das Unternehmen eine große Überarbeitung seiner Kern-Suchfunktion, wobei die entscheidende Rolle künstlicher Intelligenz für die Zukunft betont wurde.

Washington macht mit Kryptowährungen weiter: Stab…
In dieser Woche bei Byte-Sized Insight auf Decentralize mit Cointelegraph untersuchen wir eine entscheidende Entwicklung in der US-Kryptowährungsgesetzgebung.

Der Digital Asset Leitfaden: Warum Aktienmärkte T…
Seit über 15 Jahren ist es her, dass die erste Bitcoin geschaffen wurde, und Kryptowährungen erfüllen mittlerweile einige ihrer frühen Versprechen, indem sie langjährige Finanzsysteme transformieren.

Hier sind die sechs wichtigsten Erkenntnisse von …
Auf der Google I/O-Konferenz in dieser Woche machte der Technologieriese rund 100 Ankündigungen, was seine Ambitionen signalisiert, die KI in verschiedenen Bereichen zu dominieren – vom Umgestalten der Suche bis hin zur Aktualisierung von KI-Modellen und Wearable-Technologien.

Bitcoin steigt über 111.000 $: Blockchain Cloud M…
Bitcoin zieht weltweit erneut Aufmerksamkeit auf sich, nachdem es erstmals die Marke von 111.000 US-Dollar überschritten hat.

Was denkt KI, wird in den Fällen zur Geburtsrecht…
Trump gegen CASA im KI-Fegefeuer: Simulation von Entscheidungen des Obersten Gerichtshofs Letzte Woche hörte der Oberste Gerichtshof Trump gegen CASA, Inc