Im vergangenen Jahr haben KI-generierte Video-Diffusionsmodelle bemerkenswerte Fortschritte in der visuellen Realitätsnähe gemacht, demonstriert durch Modelle wie OpenAI’s Sora 2, Googles Veo 3 und Runway Gen-4. Die KI-Videoerstellung befindet sich an einem entscheidenden Wendepunkt, wobei die neuesten Modelle in der Lage sind, atemberaubende, lebensechte Clips zu produzieren. Allerdings schränken die Architekturen dieser Modelle ihre Verwendung für Echtzeit-Interaktionen ein, da sie Videoframes sequenziell durch komplexe, rechenintensive Schritte generieren. Die Verarbeitung jedes einzelnen Abschnitts vor dem nächsten verursacht Verzögerungen und verhindert Live-Streaming von KI-Videos. Die meisten KI-Praktiker konzentrieren sich darauf, Clips für eine spätere Betrachtung zu erstellen, während eine sofortige, Live-KI-Video-Transformation noch viele Jahre entfernt gilt. Das Team von Decart stellte sich dieser architektonischen Barriere entgegen und entwickelte LSD v2, ein Modell, das zeigt, dass minimale Latenzzeiten durch neuartige Ansätze, die auf verschiedene KI-Modelle anwendbar sind, erreichbar sind. Sie optimierten die Infrastruktur, um die GPU-Auslastung zu maximieren, und beschleunigten den entscheidenden Rauschreduzierungsprozess, der essenziell ist, um Fehlerbildung zu verhindern. LSD v2 basiert auf einer kausalen, autoregressiven Architektur, die es ermöglicht, Videos sofort und kontinuierlich zu generieren, ohne Begrenzung der Ausgabedauer. Wesentliche Innovationen umfassen: 1. **Unendliche Generierung durch kausale, autoregressive Modelle** Damit Streaming-Ausgaben möglich sind, müssen Videomodelle „kausal“ arbeiten, das heißt, jedes Frame nur auf vorherigen Frames basieren, wodurch die Rechenbelastung reduziert wird. Dieser Ansatz gewährleistet Kontinuität, leidet aber mit der Zeit unter Fehlerakkumulation – kleine Ungenauigkeiten wie ein verschatteter Bereich werden bei längerer Produktion zunehmend verzerrt, was die meisten Modelle auf kurze Clips beschränkt. Um dies auszugleichen, verbesserte Decart das „Diffusions-Forcing“ zur Rauschreduzierung während der Frame-Generierung und führte „History Augmentation“ ein, bei dem Modelle trainiert werden, beschädigte Ausgaben zu erkennen und zu korrigieren. Die kausale Feedback-Schleife berücksichtigt vorherige Frames, aktuelle Eingaben und Nutzeranweisungen, sodass das Modell Artefakte identifizieren und beheben sowie qualitativ hochwertige Inhalte unbegrenzt ausgeben kann. Dadurch sind kontinuierliche Echtzeit-Editierungen und -Transformationen basierend auf Nutzerinput möglich. 2. **Subsekunden-Latenzzeit durch GPU-Optimierung** Für interaktive Echtzeit-KI-Videos muss jedes Frame innerhalb von 40 Millisekunden generiert werden, um sichtbare Verzögerungen zu vermeiden. Die Rechenintensität kausaler KI-Modelle kollidiert allerdings mit der Architektur moderner GPUs, die für große Batch-Verarbeitung optimiert sind.
Decart adressierte dies durch eine tiefgehende Optimierung der Nvidia Hopper GPU-Kerne. Statt vieler kleiner Kerne, die häufige Stopps, Starts und Datenbewegungen verursachen – was Zeit verschwendet und die GPU-Leistung ungenutzt lässt –, entwickelten sie einen einzigen „Mega-Kernel“, der alle Modellberechnungen in einem durchgehenden Lauf vornimmt. Dieser Ansatz verbessert die GPU-Auslastung erheblich und beschleunigt die Verarbeitung um eine Größenordnung, vergleichbar mit Henry Fords Fließbandrevolution in der Produktion. 3. **Pruning und Shortcut-Distillation für Effizienz** Neuronale Netze sind oft over-parameterisiert und enthalten viele unnötige Parameter für die gewünschten Ausgaben. Decart setzte „architektur-sensitives Pruning“ ein, um redundante Parameter zu entfernen, die Rechenlast zu verringern und die Modelle enger an die Hardware anpassen. Außerdem entwickelten sie „Shortcut-Distillation“, bei der kleinere, leichte Modelle fein abgestimmt werden, um die Rauschreduzierungs-Geschwindigkeit großer, energiehungriger Modelle zu erreichen. Diese Shortcut-Modelle reduzieren die Anzahl der Schritte zur kohärenten Frame-Erzeugung, was stufenweise zu erheblichen Zeitersparnissen führt und die Gesamtleistung beschleunigt. Diese Durchbrüche ermöglichen zusammen die Videoerzeugung mit Subsekunden-Latenz – ein entscheidender Meilenstein, der KI-Videos für interaktive Nutzungsszenarien erschließt, die vorher unmöglich waren. Nutzer können Inhalte kontinuierlich in Echtzeit bearbeiten und basierend auf Eingaben oder Publikumsreaktionen anpassen. Diese Fähigkeit bietet spannende Perspektiven für Live-Streamer, Influencer und Twitch-Streamer, die Inhalte dynamisch während der Übertragung verändern können. Neben Unterhaltung verspricht diese Technologie auch Anwendungen im Bereich Live-Videospiele, bei denen KI-generierte Sequenzen in Echtzeit auf Spielentscheidungen reagieren, z. B. in verzweigten Geschichten, die durch Nutzerentscheidungen geprägt werden. Außerdem impactiert sie erweiterte Realitäten, immersive Bildung und groß angelegte Event-Marketingmaßnahmen. Darüber hinaus dienen KI-generierte Videos als neuronale Rendering-Engines für Profis wie Architekten und Innenarchitekten, die so schnell Stil- und Thema-Prototypen mittels Eingaben erstellen können, bevor sie ihre finalen Entwürfe festlegen. Am bemerkenswertesten ist, dass die Eliminierung von Latenz und die gleichzeitige Ermöglichung unendlicher Video-Generierung Kreativen die Chance bieten, Langformat-Inhalte interaktiv zu erforschen. Sie können Szenen, Lichtverhältnisse, Kamerawinkel und Charakterausdrücke in Echtzeit anpassen, während das Video sich abspielt, was das Geschichtenerzählen in eine dynamische, nutzergesteuerte Erfahrung verwandelt. Kfir Aberman, Gründungsmitglied von Decart AI und Leiter des Büros in San Francisco, führt die Bemühungen, Forschung im Bereich der Echtzeit-generativen Videos in Produkte umzusetzen. Sein Fokus liegt auf dem Aufbau interaktiver, personalisierter KI-Systeme, die Forschungsqualität mit kreativen Nutzererfahrungen verbinden.
Decart AI's LSD v2 Durchbruch ermöglicht Echtzeit- und latenzarme KI-Videogenerierung
Amerikanische Verbraucher treiben die rekordverdächtigen Black Friday-Umsätze an, wobei die Online-Ausgaben bis zum frühen Abend bei 8,6 Milliarden US-Dollar lagen und die Prognosen nun darauf hindeuten, dass die Gesamtsumme die ursprünglichen Erwartungen übersteigen könnte, so Adobe Analytics.
Die neueste Weihnachtswerbung von Coca-Cola, vollständig mit künstlicher Intelligenz erstellt, hat bei Zuschauern, Künstlern und Brancheninsidern erheblichen Kontroversen und Diskussionen ausgelöst.
Sorgen über eine potenzielle Blase im Bereich der künstlichen Intelligenz (KI) haben zuletzt die Börse verunsichert und alarmieren vor größeren Risiken für die US-Wirtschaft.
Künstliche Intelligenz verändert die Videoinhaltsproduktion rasch und ermöglicht es Marketern, hochgradig personalisierte Videos zu erstellen, die bei Zielgruppen stark ankommen.
Künstliche Intelligenz (KI) revolutioniert tiefgreifend den Bereich der Inhaltsentwicklung und -optimierung, insbesondere im Suchmaschinenmarketing (SEO).
Tesla hat einen bahnbrechenden Meilenstein im autonomen Fahren erreicht, indem es mit seinem Autopilot-System die Stufe 5 der Automatisierung erreicht hat.
Der Vertrieb für Unternehmen folgte traditionell einem klaren Prozess: den Markt aufklären, Pilotprojekte durchführen, Business Cases beweisen, Sicherheits- und Beschaffungsprozesse navigieren und dann live gehen.
Launch your AI-powered team to automate Marketing, Sales & Growth
and get clients on autopilot — from social media and search engines. No ads needed
Begin getting your first leads today