バイトダンス、オープンソースのAIテキストから動画へのモデル「悟空」を発表—OpenAIの「空(ソラ)」に挑戦
Brief news summary
AIのテキストから動画への分野は急速に進化しており、OpenAIのSoraやByteDanceのGokuがその最先端を示しています。Soraは高度な拡散モデルを用いて、テキストから超リアルな映像を生成し、優れた映像品質と滑らかな動きを実現していますが、まだ独自開発のものであり、アクセスは限定的です。一方、Gokuはオープンソースのモデルで、コミュニティの協力によるAI動画生成の民主化を推進しています。これは、流動的な動きを実現するRectified Flowや詳細を保持する3Dジョイント画像・動画変分オートエンコーダ、および複雑な空間-時間のダイナミクスを捉えるための全注意機構を持つトランスフォーマーネットワークなどの革新的手法を採用しています。Soraが映像の忠実度で優れている一方で、Gokuのオープンな性格は、多くの協力と革新を促進しています。これらは、将来的には映画、マーケティング、教育などの分野でAI生成動画が一般的になることを示唆しており、倫理的な課題やディープフェイクの懸念もあります。ByteDanceのGokuは、アクセスしやすく協力的なAI駆動型のデジタルコンテンツ制作の動向を象徴しています。AIのテキストから動画への分野は急速に進歩しており、突破口が広がることで能力が拡大しています。OpenAIのSoraは、シンプルなテキストプロンプトから超リアルな高品質の動画を生成し、観客を驚かせました。現在、ByteDance(TikTokの親会社)は新たな競合相手を登場させました。それがGokuというオープンソースのAI動画生成モデルです。 閉鎖的なソースのSoraとは異なり、Gokuのオープンソース設計はAI動画制作を民主化し、コミュニティの協力によるイノベーションを促進することを目的としています。Gokuの特徴やSoraとの比較、そしてAI生成動画の未来への影響について見てみましょう。 **Gokuとは何か?** Gokuは最先端のテキストから動画へのAIモデルで、文章の説明から一貫性のある高品質で現実的な動画クリップを制作します。完全な公開はされていませんが、初期の報告によると、最も先進的なAI動画生成器の一つとされます。 **Gokuの主な特徴** - *Rectified Flow(RF)方式*:従来のモデルでよくあるフレームの独立性を避け、滑らかで一貫した動きを確保し、自然な動画の流れを実現します。 - *3D関節画像・動画変分オートエンコーダ(VAE)*:画像や動画を共有の潜在空間に圧縮し、高効率を実現しつつ高解像度の詳細を保持します。 - *全注意メカニズムを備えたトランスフォーマーネットワーク*:FlashAttentionや3D RoPE位置埋め込みを活用し、空間・時間の関係を捉え、現実的な物体の動きのあるダイナミックな動画を生成します。 - *オープンソースの公開性*:商用化されたSoraとは異なり、Gokuは誰でも自由に利用・改良できるようになっており、開発者や研究者、愛好者による実験とイノベーションを促進します。これによりAI動画の進歩が加速する可能性があります。 **GokuとSoraの比較** ByteDanceのGokuとOpenAIのSoraは、主にアクセス可能性とアプローチに差があります。Gokuはオープンソースでコミュニティ主導の開発を促し、より広範な採用と急速な進歩を目指しています。一方、Soraは閉鎖的で、OpenAIの管理下にあるため、試験や改良の範囲が制限されています。技術的には、GokuはRectified Flowや3D関節画像・動画VAE、フルアテンションのトランスフォーマーを利用し、Soraは拡散モデルや長距離の動画生成に最適化された深層ニューラルネットワークを採用しています。Soraは非常にリアルで一貫性のある映像出力に定評がありますが、アクセス制限により広く試すことはできません。Gokuは開発途上ながら、そのオープン性によるイノベーションの潜在性に期待が寄せられています。 **AI動画生成の未来** GokuとSoraの登場は、AI動画革命の幕開けを告げており、次のような展望を示しています。 - 高品質な動画制作を誰もが手軽に行えるような、主流のAI駆動動画作成の拡大。 - ByteDanceのアプローチに触発され、他の企業や研究者もオープンソースの競争に参加し、技術進歩が加速。 - AIによる脚本・監督・アニメーションまで担った、完全にAI生成の映画やテレビ番組の実現。 - 一方で、ディープフェイクの悪用や偽情報、プライバシー問題など倫理的課題も浮上し、責任あるAIの利用には規制やガバナンスが必要になる。 **最後に:AI動画の新たな時代** ByteDanceのGokuは、そのオープンソースモデルを通じて、AI動画技術の大きな飛躍を示しています。これにより、AI映画制作の民主化やイノベーションの促進が期待され、OpenAIの閉鎖的なSoraよりも早い進展をもたらす可能性があります。まだ発展途上ですが、Gokuの持つ影響力はエンターテインメント、教育、マーケティングなど多方面に及ぶでしょう。 AI動画技術の進化とともに、重要な問いは一つです。Gokuのようなオープンソースプロジェクトは、Soraのような独占モデルを凌駕するのか?その答えが、デジタルコンテンツ創造の未来を大きく変えるかもしれません。 今後の動向にご期待ください。
Watch video about
バイトダンス、オープンソースのAIテキストから動画へのモデル「悟空」を発表—OpenAIの「空(ソラ)」に挑戦
Try our premium solution and start getting clients — at no cost to you