Dalam setahun terakhir, model difusi video yang dihasilkan AI telah mencapai kemajuan luar biasa dalam realisme visual, seperti yang ditunjukkan oleh model seperti Sora 2 dari OpenAI, Veo 3 dari Google, dan Runway Gen-4. Generasi video AI sedang mencapai tahap penting, dengan model terbaru mampu menciptakan klip yang menakjubkan dan tampak nyata. Namun, arsitektur model-model ini membatasi penggunaannya untuk aplikasi interaktif secara waktu nyata, karena mereka menghasilkan bingkai video secara berurutan melalui langkah-langkah yang kompleks dan membutuhkan banyak komputasi. Memproses setiap bagian sebelum melanjutkan ke bagian berikutnya menyebabkan latensi, sehingga menyulitkan streaming video AI secara langsung. Sebagian besar praktisi AI fokus pada pembuatan klip untuk ditonton nanti, sementara transformasi video AI secara instan dan langsung masih dianggap memerlukan beberapa tahun lagi. Tim Decart menantang hambatan arsitektur ini dan mengembangkan LSD v2, sebuah model yang menunjukkan bahwa latensi minimal dapat dicapai melalui pendekatan inovatif yang berlaku untuk berbagai model AI. Mereka mengoptimalkan infrastruktur untuk memaksimalkan penggunaan GPU dan mempercepat proses denoising yang penting untuk mencegah penumpukan kesalahan. LSD v2 menggunakan arsitektur kausal dan auto-regressive untuk menghasilkan video secara instan dan terus-menerus, tanpa batasan durasi output. Inovasi utama meliputi: 1. **Pembangkitan Tak Terbatas melalui Model Kausal dan Auto-regressive** Untuk memungkinkan output streaming, model video harus beroperasi secara “kausal, ” menghasilkan setiap frame hanya berdasarkan frame sebelumnya, mengurangi beban komputasi. Pendekatan ini memastikan kontinuitas, tetapi seiring waktu, terjadi akumulasi kesalahan—ketidakakuratan kecil seperti bayangan yang salah tempat menjadi semakin terdistorsi, membatasi sebagian besar model pada klip-klip pendek. Untuk mengatasi hal ini, Decart meningkatkan “diffusion forcing” untuk men-denoise frame saat mereka dibuat dan memperkenalkan “hijaukan sejarah” (history augmentation), melatih model mengenali dan memperbaiki output yang rusak. Loop umpan balik kausal ini mempertimbangkan frame yang telah dihasilkan sebelumnya, input saat ini, dan prompt pengguna, memungkinkan model mengidentifikasi dan memperbaiki artefak serta menghasilkan konten berkualitas tinggi secara terus-menerus. Ini memungkinkan pengeditan dan transformasi real-time berkelanjutan berdasarkan input pengguna. 2. **Mencapai Latensi Subdetik melalui Optimisasi GPU** Video AI interaktif waktu nyata membutuhkan pembuatan setiap frame dalam waktu kurang dari 40 milidetik agar tidak terlihat lag.
Namun, intensitas komputasi model AI kausal bertabrakan dengan desain GPU modern yang lebih mengutamakan pemrosesan batch besar daripada latensi rendah. Decart mengatasi ini dengan mengoptimalkan kernel Nvidia Hopper secara mendalam. Alih-alih banyak kernel kecil yang menyebabkan penghentian, mulai, dan perpindahan data berulang-ulang—yang menyia-nyiakan waktu dan membiarkan kapasitas GPU menganggur—mereka menciptakan satu “mega kernel” yang menjalankan semua perhitungan model dalam satu pass kontinu. Pendekatan ini secara drastis meningkatkan pemanfaatan GPU dan mempercepat proses hingga sepuluh kali lipat, mirip dengan revolusi jalur perakitan Henry Ford yang menyederhanakan alur kerja secara berurutan. 3. **Pruning dan Distilasi Jalur Singkat untuk Efisiensi** Jaringan neural cenderung terlalu banyak parameter, mengandung banyak parameter yang tidak diperlukan untuk menghasilkan output yang diinginkan. Decart menerapkan “pruning sadar arsitektur” untuk menghilangkan parameter yang berlebihan, mengurangi beban komputasi dan menyesuaikan model agar lebih cocok dengan arsitektur perangkat keras. Selain itu, mereka mengembangkan “distilasi jalur singkat, ” fine-tuning model yang lebih kecil dan ringan agar setara dalam kecepatan denoising dengan model yang lebih besar dan lebih boros daya. Menggunakan model jalur singkat ini mengurangi langkah yang diperlukan untuk menghasilkan frame yang koheren, menghasilkan penghematan waktu secara bertahap dan mempercepat keseluruhan proses output. Kejutan dari terobosan ini secara kolektif memungkinkan pembuatan video dengan latensi kurang dari satu detik, sebuah pencapaian penting yang membuka potensi penggunaan video AI secara interaktif yang sebelumnya tak mungkin. Pengguna dapat mengedit konten secara terus-menerus saat berjalan, menyesuaikan video secara langsung berdasarkan prompt atau input dari audiens. Kemampuan ini menawarkan prospek menarik bagi influencer siaran langsung dan streamer Twitch yang dapat memodifikasi konten secara dinamis saat mereka siaran. Selain hiburan, teknologi ini berpotensi untuk game video langsung, memungkinkan rangkaian AI yang menyesuaikan secara real-time berdasarkan pilihan pemain—seperti narasi bercabang yang dipengaruhi keputusan pengguna. Teknologi ini juga berdampak pada realitas tertambah, pendidikan imersif, dan pemasaran acara berskala besar. Lebih dari itu, video yang dihasilkan AI berfungsi sebagai mesin rendering neural bagi para profesional seperti arsitek dan desainer interior, memungkinkan prototipe cepat gaya dan tema melalui prompt sebelum menyelesaikan desain akhir. Yang paling mencengangkan, menghilangkan latensi sekaligus memungkinkan generasi video tak terbatas memberdayakan pencipta untuk menjelajahi konten panjang secara interaktif. Mereka dapat menyesuaikan adegan, pencahayaan, sudut kamera, dan ekspresi karakter secara real time saat video berlangsung, mengubah proses bercerita menjadi pengalaman yang dinamis dan dipandu pengguna. Kfir Aberman, anggota pendiri Decart AI dan kepala kantor di San Francisco, memimpin upaya dalam mengubah riset generasi video waktu nyata menjadi produk. Karyanya berfokus pada pembangunan sistem AI interaktif dan personal yang menggabungkan keunggulan riset dengan pengalaman kreatif pengguna.
Lompatan Terobosan Decart AI's LSD v2 Memungkinkan Pembuatan Video Berbasis AI Secara Real-Time dan dengan Latensi Rendah
Generasi video AI telah berkembang secara dramatis dalam waktu hanya dua setengah tahun, tidak lagi menyerupai upaya kasar di masa lalu.
Apple mengumumkan bahwa John Giannandrea, Wakil Presiden Senior untuk Pembelajaran Mesin dan Strategi Kecerdasan Buatan (AI), akan pensiun pada musim semi 2026.
John Mueller dari Google menyatakan bahwa hanya dengan manusia menulis ulang konten yang dihasilkan AI tidak secara otomatis akan meningkatkan peringkat situs di Google.
Salesforce (CRM.N) mengumumkan peningkatan proyeksi pendapatan dan laba disesuaikan untuk tahun fiskal 2026 pada hari Rabu, didorong oleh permintaan besar dari perusahaan untuk platform agen AI-nya.
Industri periklanan dan hubungan masyarakat (PR) sudah merasakan dampak signifikan dari pergeseran menuju kecerdasan buatan (AI), terutama dalam peran entry-level bagi pekerja berusia 20 hingga 24 tahun yang mengalami penyusutan setiap tahun.
Laboratorium riset Kecerdasan Buatan Meta baru-baru ini mengumumkan terobosan besar dalam bidang visi komputer, menandai kemajuan menjanjikan dalam teknologi pengenalan objek.
Brightcove, penyedia layanan konten cloud global terkemuka, telah mengumumkan peluncuran tujuh fitur baru yang dirancang untuk meningkatkan jangkauan global, meningkatkan keterlibatan audiens, memperbaiki kualitas siaran langsung, dan menyederhanakan alur kerja video.
Launch your AI-powered team to automate Marketing, Sales & Growth
and get clients on autopilot — from social media and search engines. No ads needed
Begin getting your first leads today