ログイン/ 登録

Stability.ai、画像から動画へのアニメーションAIモデルを発表

2023/11/30 17:20

従う

2019年に設立されたオープンソースAIのパイオニア企業であるStability.aiは、このほど最新の画期的な技術である「安定した動画拡散AIモデル」を発表した。このイノベーションは、AI能力の大幅な飛躍を意味し、静止画像を魅惑的なアニメーションに変換することを可能にする。その前身であるStable Diffusion画像モデルと同様に、この新しい製品はStability.aiのGithubリポジトリを通じて研究プレビュー用に提供されている。

静止画のアニメーション：コアコンセプト

Stable Video Diffusionの核心は、アップロードされた静止画像に基づいてアニメーション・シーケンスを生成する能力にある。画像のコンテンツを活用し、AIモデルが25フレームを作成し、短いアニメーションに仕上げる。さらに、14フレームの動画を作成する柔軟性もある。ただし、アニメーションの解像度は最大576x1024で、アップロードされた画像のサイズに依存する。

利点と限界

Stability.aiは、ライバルAIモデルよりもStable Video Diffusionの方が優れていると主張し、そのリリースに付随する研究を引用している。しかし、この研究はピアレビューを欠いており、公平性に疑問があることを認識しておく必要がある。注目すべきは、比較対象がRunwayのGEN-2モデルとPika Labsのモデルであることだ。

しかし、限界もある。静止画から生成される動画の再生時間は約4秒に限られる。ループコンテンツには適しているが、オリジナルのアニメーションを作るには物足りない。また、アニメーションの生成に失敗したり、動きが鈍かったり不自然だったりすることもある。

モデルが直面する課題

多くのAIがそうであるように、安定した動画拡散にも課題がある。特に、画像内のテキストはビデオフォーマットに変換されると読みにくくなる可能性があり、顔の要素は歪みを被る可能性がある。現在、研究目的でのみ利用可能なこのモデルへのアクセスは、Stability.ai'のGitHubリポジトリから入手可能だが、コードのダウンロードと実行には事前の経験が必要である。