على مدى العام الماضي، أحرز نماذج التشتت الفيديو المعتمدة على الذكاء الاصطناعي تقدمًا ملحوظًا في الواقعية البصرية، من خلال نماذج مثل Sora 2 من OpenAI، وVeo 3 من Google، وRunway Gen-4. أصبح توليد الفيديو بواسطة الذكاء الاصطناعي في مرحلة حاسمة، مع قدرة أحدث النماذج على إنتاج مقاطع مدهشة وواقعية بشكل مذهل. ومع ذلك، فإن هياكل هذه النماذج تقيّد استخدامها للتطبيقات التفاعلية في الزمن الحقيقي، حيث تقوم بتوليد إطارات الفيديو بشكل متسلسل عبر خطوات معقدة ومتطلبة حسابيًا. معالجة كل قطعة قبل الانتقال إلى التالية تتسبب في تأخير، مما يمنع بث الفيديو المباشر باستخدام الذكاء الاصطناعي في الوقت الفعلي. يركز معظم ممارسي الذكاء الاصطناعي على إنشاء مقاطع للمشاهدين لمشاهدتها لاحقًا، مع تبقي التحول الفوري والفوري للفيديو بالذكاء الاصطناعي لا يزال بعيدًا لسنوات. تحدى فريق ديكارت هذه الحواجز الهيكلية وطور نموذج LSD v2، الذي يُظهر أن أقل زمن استجابة ممكن يمكن تحقيقه من خلال منهجيات جديدة قابلة للتطبيق على نماذج الذكاء الاصطناعي المختلفة. قاموا بتحسين البنية التحتية لتعظيم استخدام وحدات معالجة الرسوميات (GPU) وسرعة عملية إزالة التشويش الحيوية الضرورية لمنع تراكم الأخطاء. يستخدم LSD v2 بنية سببية وتلقائية ذاتية الحلقات لإنتاج الفيديو بشكل فوري ومستمر، دون حدود لمدّة الإخراج. تشمل الابتكارات الرئيسية: 1. **الإنشاء اللامحدود عبر نماذج سببية وتلقائية ذاتية الحلقات** لتمكين التدفق المستمر، يجب أن تعمل نماذج الفيديو بشكل “سببي”، بحيث تنتج كل إطار بناءً فقط على الإطارات السابقة، مما يقلل من عبء الحسابات. يضمن هذا النهج استمرارية العمل، لكنه على مر الزمن يعاني من تراكم الأخطاء — مثل الظل غير موضعه الذي يصبح أكثر تشويها، الأمر الذي يحد من قدرة معظم النماذج على إنتاج مقاطع طويلة. لمواجهة ذلك، قام ديكارت بتحسين “تدعيم الانتشار” لإزالة التشويش عن الإطارات أثناء إنشائها وأدخل مفهوم “تعزيز التاريخ” لتدريب النماذج على التعرف على التصحيحات وتصحيح المخرجات المشوشة. يأخذ الحلقة الراجعة السببية بعين الاعتبار الإطارات المولدة سابقًا، والمدخل الحالي، وأوامر المستخدم، مما يمكن النموذج من اكتشاف وتصحيح العيوب واستمرار إخراج محتوى عالي الجودة بشكل غير محدود. يتيح ذلك التعديل والتحول في الوقت الحقيقي بشكل مستمر استنادًا إلى مدخلات المستخدم. 2.
**تحقيق زمن استجابة أقل من الثانية من خلال تحسين وحدات الـ GPU** يتطلب الفيديو التفاعلي في الزمن الحقيقي إنتاج كل إطار خلال أقل من 40 مللي ثانية لتجنب التأخير الملحوظ. لكن، تتعارض كثافة العمليات الحسابية في نماذج الذكاء الاصطناعي السببية مع تصميم وحدات معالجة الرسوميات الحديثة التي تفضل المعالجة بكميات كبيرة من البيانات دفعة واحدة، على حساب تقليل الزمن المستغرق. عالج ديكارت ذلك عن طريق تحسين نوى Nvidia’s Hopper بشكل عميق، بحيث بدلاً من تشغيل العديد من النوى الصغيرة التي تتطلب توقفات وتبديلات متكررة، أنشأوا نواة “عملاقة” تقوم بتنفيذ جميع عمليات النموذج بمسار واحد مستمر. أدى هذا الأسلوب إلى تحسين كبير في استخدام الـ GPU وتسريع المعالجة بعشرة أضعاف، مما يشبه إلى حد كبير ثورة هنري فورد في تصنيع السيارات عبر تبسيط سير العمل التتابعي. 3. **التقليل والتنقية عبر التقطير الموجز والكفاءة** تميل الشبكات العصبية إلى أن تكون مفرطة في المعلمات، مع احتوائها على الكثير منها غير الضروري لإنتاج المخرجات المرغوبة. طبق ديكارت تقنية “القص الهندسي المدروس” لإزالة المعلمات الزائدة، مما يقلل من عبء الحسابات ويجعل النماذج أكثر توافقًا مع بنية الأجهزة. بالإضافة إلى ذلك، طوروا “تقطير الموجز” لضبط النماذج الأصغر والخفيفة لتطابق سرعة إزالة التشويش للنماذج الأكبر والأكثر استهلاكًا للطاقة. استخدام هذه النماذج المختصرة يقلل من الخطوات اللازمة لإنتاج إطارات متماسكة، مما يحقق وفورات زمنية تدريجية ويعجل من عملية الإنتاج الإجمالية. هذه الإنجازات مجتمعة تمكن من إنتاج فيديو بزمن استجابة أقل من ثانية، وهو إنجاز مهم يفتح المجال أمام تطبيقات تفاعلية كانت سابقًا مستحيلة. يمكن للمستخدمين إجراء تعديلات مستمرة على المحتوى بشكل مباشر، مع تكييف الفيديوهات حيًّا استنادًا إلى أوامر أو تفاعلات الجمهور. يوفر هذا القدر من الإمكانيات فرصة مثيرة للمؤثرين والبث المباشر على Twitch الذين يمكنهم تعديل المحتوى ديناميكيًا أثناء البث. علاوة على الترفيه، تحمل هذه التقنية وعودًا للألعاب الحيّة، حيث يمكن تسلسل الفيديو المولّد بواسطة الذكاء الاصطناعي التكيف في الوقت الحقيقي مع اختيارات اللاعب، مثل تحوير السرد حسب قرارات المستخدم. كما تؤثر على الواقع الممتد، والتعليم التفاعلي، والتسويق في الفعاليات الكبرى. علاوة على ذلك، تُستخدم الفيديوهات المولّدة بواسطة الذكاء الاصطناعي كمحركات تصيير عصبية للمحترفين مثل المعماريين والمصممي الداخليين، مما يتيح تجريب الأنماط والمواضيع بسرعة عبر الأوامر قبل إنهاء التصاميم. الأمر الأكثر إثارة للإعجاب هو أن إزالة زمن التأخير مع تمكين الإنتاج غير المحدود للفيديو يمنح المبدعين القدرة على استكشاف المحتوى الطويل بشكل تفاعلي، حيث يمكنهم تعديل المشاهد والإضاءة وزوايا الكاميرا وتعابير الشخصيات بشكل مباشر أثناء سير الفيديو، مما يحول سرد القصص إلى تجربة ديناميكية يقودها المستخدم. يكير أبرمان، العضو المؤسس لشركة ديكارت AI ورئيس مكتبها في سان فرانسيسكو، يقود جهود تحويل أبحاث الفيديو التوليدية في الزمن الحقيقي إلى منتجات عملية، مركّزًا على بناء أنظمة ذكاء اصطناعي تفاعلية وشخصية تجمع بين التميز البحثي والتجربة الإبداعية للمستخدمين.
اختراق ديكارت إيه آي لإصدار LSD 2 يُمكن من توليد الفيديوهات الذكية في الوقت الحقيقي وبتأخير منخفض
في معرض SMM 2024، المعرض التجاري البحري الدولي الرائد الذي يُعقد في هامبورغ، تم إبراز الدور الحيوي للذكاء الاصطناعي (AI) في تسريع التحول الرقمي لصناعة الملاحة البحرية بشكل بارز.
يعبر الديمقراطيون في الكونغرس عن قلق جاد بشأن احتمالية أن تبدأ الولايات المتحدة قريبًا ببيع رقاقات متقدمة واحدة من أبرز خصومها الجيوسياسيين.
قدمت شركة DeepMind مؤخرًا نظام ذكاء اصطناعي مبتكر يُدعى AlphaCode، مما يُمثل قفزة كبيرة في تطوير البرمجيات المدعومة بالذكاء الاصطناعي.
تستعد شركة OpenAI حسب التقارير لجمع ما يصل إلى 100 مليار دولار من التمويل الجديد، مما قد يعزز تقييمها ليصل إلى 830 مليار دولار بشكل مذهل.
يصنع صناعة الألعاب تحولا كبيرا يقوده الذكاء الاصطناعي المتقدم، خاصة في مجال التصيير الواقعي للرسومات.
الذكاء الاصطناعي (AI) يغير بشكل عميق التسويق الرقمي، ويؤثر بشكل كبير على تحسين محركات البحث (SEO).
ريباكاه كارتر لقد كان الارتفاع السريع للذكاء الاصطناعي في التسويق لافتًا للنظر، من التجارب الأولية مع مولدات النصوص إلى أن أصبح الذكاء الاصطناعي الآن يشكل ميزانيات إعلانات كاملة، خطوط إنتاج المحتوى، وقطاعات العملاء
Launch your AI-powered team to automate Marketing, Sales & Growth
and get clients on autopilot — from social media and search engines. No ads needed
Begin getting your first leads today