Durante el último año, los modelos de difusión de video generados por inteligencia artificial han logrado avances notables en realismo visual, como lo demuestran modelos como Sora 2 de OpenAI, Veo 3 de Google y Runway Gen-4. La generación de videos por IA está alcanzando un estadio crucial, con los últimos modelos capaces de crear clips impresionantes y realistas. Sin embargo, las arquitecturas de estos modelos limitan su uso en aplicaciones interactivas en tiempo real, ya que generan fotogramas de video de manera secuencial mediante pasos complejos y computacionalmente exigentes. Procesar cada fragmento antes de pasar al siguiente provoca latencia, impidiendo la transmisión en vivo de videos por IA. La mayoría de los profesionales en IA se enfoca en generar clips para su visualización posterior, considerando aún lejanos los avances que permitan transformar videos en vivo de forma instantánea. El equipo de Decart desafió esta barrera arquitectónica y desarrolló LSD v2, un modelo que demuestra que una latencia mínima es alcanzable mediante enfoques novedosos aplicables a diversos modelos de IA. Optimizaron la infraestructura para maximizar la utilización de GPU y aceleraron el proceso de eliminación de ruido, crucial para evitar la acumulación de errores. LSD v2 emplea una arquitectura autocausal y autoregresiva para generar videos de manera instantánea y continua, sin límites en la duración de la salida. Las principales innovaciones incluyen: 1. **Generación infinita mediante modelos autocausales y autoregresivos** Para lograr una transmisión continua, los modelos de video deben operar “causalmente”, produciendo cada fotograma solo en función de los anteriores, lo que reduce la carga computacional. Este enfoque garantiza continuidad, pero con el tiempo sufre por la acumulación de errores: imprecisiones pequeñas como una sombra mal colocada se distorsionan progresivamente, limitando a la mayoría de los modelos a clips cortos. Para contrarrestar esto, Decart mejoró la “forzadura de difusión” para eliminar el ruido de los fotogramas generados y presentó la “aumentación de historia”, entrenando a los modelos para reconocer y corregir salidas corruptas. La retroalimentación causal considera los fotogramas previos generados, la entrada actual y las indicaciones del usuario, permitiendo que el modelo identifique y corrija artefactos y produzca contenido de alta calidad de manera indefinida. Esto posibilita la edición y transformación en tiempo real y en continua, basada en las instrucciones del usuario. 2. **Reducción de latencia a menos de un segundo mediante optimización de GPU** La generación en tiempo real de videos interactivos requiere crear cada fotograma en menos de 40 milisegundos para evitar retrasos visibles.
Sin embargo, la intensidad computacional de los modelos causales choca con el diseño de las GPUs modernas, que favorecen procesamientos en grandes lotes en lugar de baja latencia. Decart abordó esto optimizando profundamente los kernels de Nvidia Hopper. En lugar de múltiples kernels pequeños que causan detenciones, reinicios y movimientos de datos, crearon un “mega kernel” único para ejecutar todos los cálculos en una sola pasada continua. Este método mejora dramáticamente la utilización de la GPU y acelera el procesamiento en un orden de magnitud, similar a cómo la línea de ensamblaje de Henry Ford revolucionó la producción al simplificar los flujos de trabajo secuenciales. 3. **Poda y destilación de atajos para mayor eficiencia** Las redes neuronales tienden a estar sobredimensionadas, con muchos parámetros innecesarios para generar resultados deseados. Decart aplicó la “poda consciente de arquitectura” para eliminar parámetros redundantes, reduciendo la carga computacional y adaptando los modelos más cercanamente a la arquitectura del hardware. Además, desarrollaron la “destilación por atajos”, ajustando modelos más pequeños y ligeros para igualar la velocidad de eliminación de ruido de los modelos más grandes y con mayor consumo energético. El uso de estos modelos simplificados reduce los pasos necesarios para generar fotogramas coherentes, acumulando ahorros de tiempo incrementales y acelerando la producción total. Estos avances en conjunto habilitan la generación de videos con latencia inferior a un segundo, un hito crucial que apertura el campo de los videos interactivos por IA, antes impensables. Los usuarios podrán editar contenido en tiempo real, adaptando videos en vivo según instrucciones o la retroalimentación de la audiencia. Esta capacidad ofrece perspectivas emocionantes para influenciadores en transmisiones en vivo y streamers de Twitch, que podrán modificar su contenido de forma dinámica mientras transmiten. Más allá del entretenimiento, esta tecnología promete transformar los videojuegos en vivo, permitiendo secuencias generadas por IA que se adapten en tiempo real a las decisiones del jugador, como narrativas ramificadas moldeadas por las elecciones del usuario. También impacta en la realidad extendida, la educación inmersiva y el marketing de eventos a gran escala. Además, los videos generados por IA funcionan como motores de renderizado neural para profesionales como arquitectos y diseñadores de interiores, permitiendo prototipar rápidamente estilos y temas mediante indicaciones antes de finalizar sus diseños. Lo más sorprendente es que, al eliminar la latencia y posibilitar la generación infinita de videos, los creadores pueden explorar contenidos largos de forma interactiva. Pueden ajustar escenas, iluminación, ángulos de cámara y expresiones de personajes en tiempo real mientras el video se desarrolla, transformando la narrativa en una experiencia dinámica y dirigida por el usuario. Kfir Aberman, miembro fundador de Decart AI y jefe de su oficina en San Francisco, lidera los esfuerzos para convertir la investigación en generación de video en productos concretos. Su trabajo se centra en construir sistemas interactivos y personalizados de IA que fusionen la excelencia en investigación con experiencias creativas para los usuarios.
El avance de Decart AI en LSD v2 permite la generación de videos con inteligencia artificial en tiempo real y con baja latencia
El gobierno saudí está impulsando significativamente la inteligencia artificial enfocada en Hollywood al liderar una ronda de financiación de 900 millones de dólares para Luma AI, una empresa con sede en San Francisco que desarrolla modelos para aplicaciones de entretenimiento.
Nueva York – El sector de publicidad de la economía de creadores está expandiéndose y evolucionando rápidamente, con un gasto publicitario que sube de 13,9 mil millones de dólares en 2021 a 29,5 mil millones en 2024, y las previsiones proyectan un crecimiento a 37 mil millones en breve.
En el entorno digital que cambia rápidamente en la actualidad, el auge de la inteligencia artificial ha transformado profundamente la forma en que las marcas gestionan su visibilidad y presencia en línea.
El informe de ganancias reciente de Nvidia ha capturado una atención significativa de inversores y entusiastas de la tecnología, marcando un hito clave en la revolución de la inteligencia artificial.
En la reciente conferencia Ignite 2025, Microsoft anunció la integración del avanzado modelo de generación de video de OpenAI, Sora 2, en Microsoft 365 Copilot, marcando una importante mejoras en sus herramientas de productividad.
En la Conferencia de Tecnología de GPU de Nvidia (GTC) 2025, el director ejecutivo Jensen Huang realizó una ponencia en la que esbozó un futuro transformador para la inteligencia artificial (IA), describiéndolo como el alcance de un crítico "punto de inflexión".
Imagina el escenario: una semana antes del cumpleaños de tu madre, quieres encontrarle un regalo de chocolates.
Launch your AI-powered team to automate Marketing, Sales & Growth
and get clients on autopilot — from social media and search engines. No ads needed
Begin getting your first leads today