2019年に設立されたオープンソースAIのパイオニア企業であるStability.aiは、このほど最新の画期的な技術である「安定した動画拡散AIモデル」を発表した。このイノベーションは、AI能力の大幅な飛躍を意味し、静止画像を魅惑的なアニメーションに変換することを可能にする。その前身であるStable Diffusion画像モデルと同様に、この新しい製品はStability.aiのGithubリポジトリを通じて研究プレビュー用に提供されている。
静止画のアニメーション:コアコンセプト
Stable Video Diffusionの核心は、アップロードされた静止画像に基づいてアニメーション・シーケンスを生成する能力にある。画像のコンテンツを活用し、AIモデルが25フレームを作成し、短いアニメーションに仕上げる。さらに、14フレームの動画を作成する柔軟性もある。ただし、アニメーションの解像度は最大576x1024で、アップロードされた画像のサイズに依存する。
利点と限界
Stability.aiは、ライバルAIモデルよりもStable Video Diffusionの方が優れていると主張し、そのリリースに付随する研究を引用している。しかし、この研究はピアレビューを欠いており、公平性に疑問があることを認識しておく必要がある。注目すべきは、比較対象がRunwayのGEN-2モデルとPika Labsのモデルであることだ。
しかし、限界もある。静止画から生成される動画の再生時間は約4秒に限られる。ループコンテンツには適しているが、オリジナルのアニメーションを作るには物足りない。また、アニメーションの生成に失敗したり、動きが鈍かったり不自然だったりすることもある。
モデルが直面する課題
多くのAIがそうであるように、安定した動画拡散にも課題がある。特に、画像内のテキストはビデオフォーマットに変換されると読みにくくなる可能性があり、顔の要素は歪みを被る可能性がある。現在、研究目的でのみ利用可能なこのモデルへのアクセスは、Stability.ai'のGitHubリポジトリから入手可能だが、コードのダウンロードと実行には事前の経験が必要である。
未来を垣間見る
Stability.ai'のStable Video Diffusionの発表は、AI技術の迅速な進化に貢献する。同時に、Pika Labsは最近、テキストからビデオへのAIジェネレーターであるPika 1.0を発表した。