Google Veo 3 KI-Video-Generator: Synchronisierung von Audio und Video mit beeindruckender Realitätsnähe

Am Dienstag stellte Google Veo 3 vor, ein neues KI-Videogenerationsmodell, das in der Lage ist, etwas zu erreichen, das kein großer KI-Videoersteller zuvor geschafft hat: die gleichzeitige Produktion eines synchronisierten Audiospuren samt Video. Zwischen 2022 und 2024 waren frühe KI-generierte Videos still und in der Regel sehr kurz. Nun liefert Veo 3 achtsekündige hochauflösende Clips, komplett mit Stimmen, Dialogen und Soundeffekten. Nach der Einführung stellten die Leute sofort die offensichtliche Benchmark-Frage: Wie gut kann Veo 3 den Oscar-Preisträger Will Smith beim Spaghettiessen faken? Ein kurzer Rückblick: Der „Spaghetti-Benchmark“ in der KI-Videoentwicklung begann im März 2023 mit einem frühen, ziemlich beunruhigenden KI-generierten Video, das mit einem Open-Source-Synthesemodell namens ModelScope erstellt wurde. Dieses Spaghetti-Beispiel wurde so bekannt, dass Smith es fast ein Jahr später im Februar 2024 nachäffte. Hier ist eine Erinnerung daran, wie das originale virale Video aussah: Was oft vergessen wird, ist, dass die Smith-Parodie damals nicht mit dem besten verfügbaren KI-Video-Generator erstellt wurde – ein Modell namens Gen-2 von Runway hatte schon hochwertigere Ergebnisse geliefert, war aber noch nicht öffentlich zugänglich. Dennoch war die Version mit ModelScope ungewöhnlich und einprägsam genug, um als Referenzpunkt für frühe Grenzen der KI-Videoentwicklung zu dienen, während sich die Technik weiterentwickelte. Anfang dieser Woche reagierte der KI-App-Entwickler Javi Lopez auf Fans, die den Spaghetti-Test mit Veo 3 erneut sehen wollten, und teilte seine Erkenntnisse auf X. Beim Betrachten der Ergebnisse schien der Soundtrack jedoch ungewöhnlich: Der gefälschte Smith klang, als würde er die Spaghetti knuspern. Dieser Fehler rührt daher, dass Veo 3 vorübergehend die experimentelle Fähigkeit besitzt, Soundeffekte hinzuzufügen, wahrscheinlich weil die Trainingsdaten zahlreiche Beispiele von Kauen mit knackenden Geräuschen enthielten. Generative KI-Modelle funktionieren als Muster-Erkennungssysteme, die auf ausreichende Daten in verschiedenen Medienformaten angewiesen sind, um überzeugende Ausgaben zu erzeugen.
Werden bestimmte Konzepte in den Daten über- oder unterrepräsentiert, führt dies zu eigenartigen Generierungsartefakten wie diesem. Wir haben den Prompt auch selbst bei Veo 3 ausprobiert, aber „Will Smith“ wurde durch Googles Inhaltsfilter blockiert. Der Prompt „Ein schwarzer Mann, der Spaghetti isst“, ergab jedoch ein ähnliches knackendes Soundeffekt (möglicherweise hatte Lopez frühen Zugang ohne Filter oder experimentierte mit Variationen, die durchkamen). Veo 3 beeindruckt mit seiner Fähigkeit, zusammenhängende Dialoge und Musik zu generieren, und inspiriert bereits zahlreiche beeindruckende Beispiele auf X. Um nicht nur ein Video zu produzieren, in dem ein Mann sehr al dente Nudeln isst, haben wir getestet, ob die Figur gleichzeitig singen und essen kann, indem wir aufforderten: „Ein Mann singt eine englischsprachige Komödie-Oper über Spaghetti an einem Küchentisch, während er sie isst. “ Wir haben seit 2023 große Fortschritte gemacht, und KI-Video-Generatoren werden weiterhin realistischer und funktionaler. Wäre es nicht für den aktuellen Celebrity-Filter von Veo 3, könnten wir leicht Videos von Smith erstellen, die ihn singen lassen oder fast alles andere tun – was auf potenzielle Bedenken hinsichtlich der KI-Video-Technologie hinweist. Die kulturelle Singularität rückt schnell näher. In diesem Zusammenhang haben wir kürzlich eine eigene umfangreiche Serie von Video-Tests mit Veo 3 durchgeführt und werden die Ergebnisse in Kürze in einem eigenen Beitrag teilen. Für den Moment verstehen Sie dies als eine kurze Aktualisierung zum „Fresh Prince of Noodletime“. Guten Appetit!
Brief news summary
Google hat Veo 3 vorgestellt, ein fortschrittliches KI-Video-Synthesemodell, das in der Lage ist, synchronisierte achtsekündige HD-Videos mit Audio, Dialogen und Soundeffekten zu erzeugen – eine Verbesserung gegenüber früheren Tools, die auf stumme oder sehr kurze Clips beschränkt waren. In Tests gelang es Veo 3, ein Benchmark-Szenario erfolgreich nachzustellen, indem es den Oscar-prämiierten Schauspieler Will Smith beim Esssen von Spaghetti aus einem minderwertigen Video aus dem Jahr 2023 reproduzierte. Zwar synchronisierte das Modell Video und Ton effektiv, bei der Spaghetti-Szene jedoch erzeugte es ein ungewöhnliches „Knirsch“-Geräusch, wahrscheinlich aufgrund von Trainingsdaten, die Kaubewegungen betonten. Inhaltsfilter blockieren direkte Aufforderungen mit „Will Smith“, trotzdem verursachen ähnliche Eingaben weiterhin Audioprobleme. Trotz dieser Herausforderungen überzeugt Veo 3 bei der Erzeugung kohärenter Dialoge und Musik, was kreative Projekte wie eine komödiantische Spaghetti-Oper inspiriert. Dieser Fortschritt stellt einen bedeutenden Schritt in Richtung realistischer KI-generierter Multimedia-Inhalte dar, allerdings erschweren Einschränkungen bei der Nutzung von Promi-Gesichtern weiterhin die Entwicklung. Die Veröffentlichung von Veo 3 hat kulturelle Diskussionen über die Realitätsnähe von KI-Videos angeregt und verleiht der Spaghetti-Geschichte aus „Der frische Prinz“ eine neue Wendung, während weiterhin getestet wird.
AI-powered Lead Generation in Social Media
and Search Engines
Let AI take control and automatically generate leads for you!

I'm your Content Manager, ready to handle your first test assignment
Learn how AI can help your business.
Let’s talk!
Hot news

US-Gesetzgeber stellen Gesetzesentwurf vor, um ch…
Eine parteiübergreifende Gruppe von US-Gesetzgebern hat eine bahnbrechende Gesetzgebung namens No Adversarial AI Act vorgestellt, die das Verbot chinesischer Künstlicher Intelligenz (KI)-Systeme innerhalb der Bundesregierung vorsieht.

Digital Asset, Entwickler der datenschutzfokussie…
Digital Asset, der Entwickler hinter dem datenschutzorientierten Blockchain Canton Network, kündigte am Dienstag an, dass er in einer strategischen Finanzierungsrunde 135 Millionen US-Dollar gesichert hat.

JPMorgan führt JPMD Deposit Token für institution…
JPMorgan hat JPMD vorgestellt, eine neue Digitalwährung, die speziell für institutionelle Kunden entwickelt wurde, um sichere On-Chain-Zahlungen durchzuführen.

OpenAI berichtet, dass Chinas Zhipu AI im Zuge de…
Das chinesische KI-Start-up Zhipu AI hat laut Berichten von OpenAI bedeutende Fortschritte bei der Akquise von Regierungsaufträgen in Regionen wie Malaysia, Singapur, den Vereinigten Arabischen Emiraten, Saudi-Arabien und Kenia gemacht.

US-Bundesstaaten verschärfen Regulierung von Kryp…
In den Vereinigten Staaten verstärken die Bundesstaaten ihre Bemühungen, Kryptowährungs-ATMs zu regulieren, angesichts eines starken Anstiegs von Betrugsfällen, insbesondere solchen, die Senioren ins Visier nehmen.

KI-Tools verbessern die Unterrichtseffizienz und …
Künstliche Intelligenz (KI)-Werkzeuge verändern die Bildungslandschaft in den Vereinigten Staaten rasch und bieten Lehrkräften neue Möglichkeiten, die Effizienz ihrer Unterrichtsmethoden zu steigern und ihre Work-Life-Balance zu verbessern.

US-Kongress kommt kurz vor Verabschiedung eines R…
Nach mehreren Jahren des Engagements ist der US-Kongress nun kurz davor, einen umfassenden regulatorischen Rahmen speziell für Stablecoins zu verabschieden.