Au cours de l’année écoulée, les modèles de diffusion vidéo générés par intelligence artificielle ont réalisé des progrès remarquables en termes de réalisme visuel, comme en témoignent des modèles tels que Sora 2 d’OpenAI, Veo de Google, et Runway Gen-4. La génération de vidéos par IA atteint une étape cruciale, avec les derniers modèles capables de créer des clips époustouflants et réalistes. Cependant, l’architecture de ces modèles limite leur utilisation pour des applications interactives en temps réel, car ils génèrent les images de la vidéo de façon séquentielle via des étapes complexes et exigeantes en calcul. Le traitement de chaque segment avant de passer au suivant entraîne une latence, empêchant la diffusion en direct de vidéos IA. La majorité des praticiens de l’IA se concentre sur la génération de clips pour une visualisation ultérieure, la transformation vidéo instantanée en direct restant considérée comme une perspective encore éloignée. L’équipe de Decart a remis en question cette barrière architecturale et a développé LSD v2, un modèle montrant qu’une latence minimale est réalisable grâce à de nouvelles approches applicables à divers modèles d’IA. Ils ont optimisé l’infrastructure pour maximiser l’utilisation des GPU et accéléré le processus de débruitage, essentiel pour éviter l’accumulation d’erreurs. LSD v2 utilise une architecture causale auto-régressive pour générer la vidéo instantanément et de façon continue, sans limite de durée de sortie. Les principales innovations incluent : 1. **Génération infinie via des modèles causaux auto-régressifs** Pour permettre une sortie en streaming, les modèles vidéo doivent fonctionner « causally », c’est-à-dire produire chaque image uniquement en fonction des images précédentes, ce qui réduit la charge de calcul. Cette approche assure une continuité, mais, à terme, subit l’accumulation d’erreurs — de petites inexactitudes comme une ombre mal placée deviennent de plus en plus déformées, limitant la durée des clips. Pour y remédier, Decart a renforcé le « diffusion forcing » pour débruiter les images au fur et à mesure de leur génération, et a introduit la « augmentation de l’historique », entraînant les modèles à reconnaître et corriger les sorties corrompues. La boucle de rétroaction causale prend en compte les images précédemment générées, l’entrée courante et les prompts utilisateur, permettant au modèle d’identifier et de corriger les artefacts, et de produire du contenu de haute qualité indéfiniment. Cela autorise une édition et une transformation en temps réel continue, en fonction des commandes de l’utilisateur. 2. **Latence inférieure à la seconde grâce à l’optimisation GPU** La vidéo interactive en temps réel nécessite de générer chaque image en moins de 40 millisecondes pour éviter tout décalage perceptible.
Or, la grande intensité de calcul des modèles causaux entre en conflit avec la conception des GPU modernes, qui privilégient le traitement par lots importants plutôt que la faible latence. Decart a résolu ce problème en optimisant en profondeur les noyaux Nvidia Hopper. Au lieu de nombreux petits noyaux provoquant des arrêts fréquents, des démarrages, et des déplacements de données—ce qui gaspille du temps et laisse beaucoup de capacité GPU inutilisée—they ont créé un « méga noyau » unique pour exécuter tous les calculs du modèle en un seul passage continu. Cette méthode améliore considérablement l’utilisation du GPU et accélère le traitement d’un ordre de grandeur, à l’image de la révolution de la chaîne de montage d’Henry Ford qui a simplifié les flux de production séquentiels. 3. **Pruning et distillation par raccourcis pour plus d’efficacité** Les réseaux neuronaux tendent à être surparamétrés, contenant de nombreux paramètres inutiles pour générer les résultats souhaités. Decart a appliqué le « pruning » conscient de l’architecture pour supprimer ces paramètres redondants, réduisant la charge de calcul et adaptant étroitement les modèles à l’architecture matérielle. De plus, ils ont développé la « distillation par raccourcis », ajustant de plus petits modèles légers pour égaler la vitesse de débruitage des modèles plus gros et gourmands en énergie. L’utilisation de ces modèles abrégés diminue le nombre d’étapes nécessaires pour générer des images cohérentes, entraînant des économies de temps cumulatives et accélérant la production globale. Grâce à ces innovations, la génération vidéo en moins d’une seconde devient possible, marquant une étape clé qui ouvre la voie à des usages interactifs jusque-là impossibles. Les utilisateurs peuvent continuer à éditer du contenu en direct, en adaptant des vidéos en temps réel selon des prompts ou l’interaction du public. Cette capacité offre des perspectives enthousiasmantes pour les influenceurs en direct ou les streamers sur Twitch, qui peuvent modifier leur contenu de manière dynamique lors de leur diffusion. Au-delà du divertissement, cette technologie promet aussi des applications dans le jeu vidéo en direct, permettant la création de séquences générées par IA qui s’adaptent instantanément aux choix du joueur — par exemple, des narrations évolutives façonnées par les décisions de l’utilisateur. Elle impacte également la réalité augmentée, l’éducation immersive et la communication lors d’événements de grande envergure. De plus, les vidéos générées par IA servent de moteurs de rendu neuronal pour des professionnels tels que les architectes et décorateurs d’intérieur, permettant de faire rapidement des prototypages de styles et de thèmes via des prompts, avant de finaliser les designs. Ce qui est encore plus remarquable, c’est qu’en éliminant la latence tout en permettant une génération infinie de vidéos, cette technologie donne aux créateurs la possibilité d’explorer du contenu long de façon interactive. Ils peuvent ajuster en temps réel les scènes, l’éclairage, les angles de caméra et les expressions des personnages au fur et à mesure que la vidéo se déroule, transformant la narration en une expérience dynamique et pilotée par l’utilisateur. Kfir Aberman, membre fondateur de Decart AI et responsable de son bureau à San Francisco, dirige les efforts de transfert de la recherche sur la vidéo générative en temps réel vers des produits. Son travail se concentre sur la construction de systèmes d’IA interactifs et personnalisés, alliant excellence en recherche et expériences créatives pour les utilisateurs.
Décart AI's LSD v2 revolution permet la génération de vidéos AI en temps réel avec une faible latence
Le gouvernement saoudien stimule de manière significative l’IA axée sur Hollywood en dirigeant une levée de fonds de 900 millions de dollars pour Luma AI, une entreprise basée à San Francisco qui développe des modèles pour des applications de divertissement.
New York – Le secteur de la publicité de l’économie des créateurs connaît une expansion et une évolution rapides, les dépenses publicitaires passant de 13,9 milliards de dollars en 2021 à 29,5 milliards en 2024, avec des prévisions qui annoncent une croissance à 37 milliards prochainement.
Dans l’environnement numérique en constante évolution d’aujourd’hui, la montée de l’intelligence artificielle a profondément transformé la manière dont les marques gèrent leur visibilité et leur présence en ligne.
Le récent rapport trimestriel de Nvidia a suscité une attention considérable de la part des investisseurs et des passionnés de technologie, marquant une étape clé dans la révolution de l'IA.
Lors de la conférence Ignite 2025 récente, Microsoft a annoncé l’intégration du modèle avancé de génération vidéo d’OpenAI, Sora 2, dans Microsoft 365 Copilot, marquant une amélioration majeure de ses outils de productivité.
Lors de la Nvidia GPU Technology Conference (GTC) 2025, le PDG Jensen Huang a prononcé une allocution présentant un avenir transformateur pour l'intelligence artificielle (IA), la décrivant comme atteignant un point d'inflexion critique.
Imaginez le scénario : une semaine avant l’anniversaire de votre mère, vous souhaitez lui offrir un cadeau en chocolat.
Launch your AI-powered team to automate Marketing, Sales & Growth
and get clients on autopilot — from social media and search engines. No ads needed
Begin getting your first leads today