Microsoft の新しい VASA-1 は、画像と音声からリアルな話し顔を作成します

選挙直前、タイミングが悪かったという話。

ホーム » ニュース

2分。読んだ

更新日 ２０２４年７月１１日

by デベシュ・ベリ

上の更新 ２０２４年７月１１日

この記事を共有する

このガイドを改善する

読者は MSpoweruser のサポートを支援します。私たちのリンクを通じて購入すると、手数料が発生する場合があります。

キーノート

新しい AI システムである VASA は、単一の画像と音声クリップからリアルな話し顔を作成します。
VASA は口パクを超えて、感情や自然な頭の動きを捉えて、本物のような結果をもたらします。
このシステムは、生成されたビデオ内の視線、距離、感情を制御します。

Microsoft の研究者は、1 つの画像と音声クリップから本物のような話し顔を作成できる新しい VASA システムを開発しました。このフレームワークで構築された最初のモデルである VASA-XNUMX は、顔の表情、正確に同期された唇の動き、自然な頭の動きを生み出すことができます。これにより、さまざまなアプリケーションでより魅力的で現実的なエクスペリエンスを作成できる可能性があります。

VASA-1 は、単に唇の動きをオーディオに合わせるだけではありません。幅広い感情、微妙な顔のニュアンス、自然な頭の動きを捉えることができ、生成された顔がより本物らしく見えるようになります。生成されたビデオも制御できます。ユーザーはキャラクターの視線の方向、知覚される距離、さらには感情状態を指定できます。

最も優れた点は、システムが予期しない入力にも対応できるように設計されていることです。芸術的な写真、歌声、英語以外の音声についてはトレーニングされていませんが、VASA-1 はこれらの入力を使用してビデオを生成できます。

VASA-1 は、顔の特徴、3D 頭の位置、表情を個別のパーツに分離することでこのリアリズムを実現しています。この「もつれの解除」により、生成されたビデオ内のこれらの側面を独立して制御および編集できるようになります。

VASA-1 の背後にある研究者は、そのリアルタイム効率を強調しています。このシステムは、高フレームレートで高解像度ビデオ (512 × 512 ピクセル) を生成できます。オフラインモードでは 45 秒あたり 40 フレームでフレームが生成されますが、オンライン生成では XNUMX 秒あたり XNUMX フレームが配信されます。

研究者らは、悪用の可能性を認めながらも、VASA-1の積極的な応用を強調している。これらには、教育体験の強化、コミュニケーション上の問題を抱える人々の支援、交際や治療上のサポートの提供などが含まれます。

いずれにせよ、私はこの研究論文の発表のタイミングについては依然として疑問を抱いています。人々はソーシャルメディアで目にしたものは何でも信じるだろうということを考えると、それが遅れる可能性はあったと私は信じています。このテクノロジーは、特に選挙期間中はひどく悪用される可能性があります。あと、こんな技術も見つけました Google の VLOGGER によく似ています。

まだ新しいのはわかっていますが、目の動きが奇妙に感じます、ほら（茶事の話はこちらをチェック）.