Microsoft の VALL-E は、元のスピーカーの声、感情をコピーして、パーソナライズされたスピーチを合成します
2分。 読んだ
上で公開
MSPoweruser の編集チームの維持にどのように貢献できるかについては、開示ページをお読みください。 続きを読む
Microsoft の新しい言語モデル VALL-E は、人間の声だけでなく、感情やトーンまでもコピーできる興味深い人工知能ツールです。 音声プロンプトとして使用するのに必要なのは XNUMX 秒間の録音だけですが、元の話者の声を使用して別のメッセージを伝えることができます。 (AIトピックス 、 Windowsの中央)
Microsoft は AI に多額の投資を行っています。 OpenAI の ChatGPT AI テクノロジーは別として (これは、 ビング およびその他の Officeアプリ)、最近リリースされた VALL-E ツールも含まれています。 これは、60,000 時間分の英語の音声データでトレーニングされた言語モデルです。 この技術により、人は別の話者の声を使用して、パーソナライズされた音声を合成できます。
論文で詳述されている実験では (コーネル大学)、VALL-E がテストされ、良好な結果が得られました。
「実験結果は、スピーチの自然さと話者の類似性に関して、VALL-E が最先端のゼロショット TTS システムよりも大幅に優れていることを示しています」と論文には書かれています。 「さらに、VALL-E は合成時に音声プロンプトの話者の感情と音響環境を維持できることがわかりました。」
いくつかの サンプル 共有されているように、音響プロンプトを使用した合成音声はほとんど完璧に聞こえます。 VALL-E は、元のスピーカーから同じトーンと感情をコピーすることに成功し、それらを使用して、非常に異なるパーソナライズされたスピーチを提供することさえできました。 たとえば、同じ文の録音を作成することができました (「私たちはビニール袋の数を減らさなければなりません」)怒り、眠気、中立性、娯楽、嫌悪感など、さまざまな気分や調子で伝えられます。
この並外れたパフォーマンスにもかかわらず、Microsoft はおそらく、VALL-E をさらに改良して、より非の打ちどころのないパフォーマンスを提供できるようにする計画を立てていると思われます。 また、さまざまなケース シナリオに役立つ可能性がありますが、このテクノロジは、不適切な個人の手に渡ると危険になる可能性もあります。 ありがたいことに、現在は一般に公開されていないため、レドモンドの会社がこの技術をどこでどのように提供するかを考える時間が増える可能性があります.
これについてどう思いますか。 コメント欄でお知らせください。
ユーザーフォーラム
0メッセージ