単なるプロンプトからオーディオを作曲するための Meta の新しい AI モジュール、MAGNeT とは何ですか?

読書時間アイコン 2分。 読んだ


読者は MSpoweruser のサポートを支援します。私たちのリンクを通じて購入すると、手数料が発生する場合があります。 ツールチップアイコン

MSPoweruser の編集チームの維持にどのように貢献できるかについては、開示ページをお読みください。 続きを読む

メタストア

Meta の MAGNeT は、テキストの説明から高品質のオーディオを生成できる、新しいテキスト音声変換モデルです。

MAGNeT は、非自己回帰アプローチを使用して一度に 1 セグメントずつ音声を生成する従来の自己回帰手法とは異なります。これにより、複数のオーディオ セグメントの並列予測が可能になり、生成速度が大幅に向上します。ベンチマークは、MAGNeT が以前のバージョンよりも最大 7 倍高速であることを示しています。

これは、複数のオーディオ部分を次々に生成するのではなく、同時に予測できることを意味します。これは、複数のオーブンでさまざまな料理を一度に調理するようなものです。

さらに、MAGNeT には、自己回帰手法の初期精度と非自己回帰手法の効率を組み合わせたハイブリッド メカニズムが組み込まれています。これにより、速度の向上によるメリットを享受しながら、生成されたオーディオが高い忠実度を維持できるようになります。

つまり、特別な「ハイブリッドメカニズム」技術を使用して、高速生成にもかかわらず、良い音を保証します。

MAGNeT の潜在的な用途は広大で、さまざまな業界に及びます。以下にいくつかの注目すべき例を示します。

  • 作曲: ミュージシャンやプロデューサーは MAGNeT を利用して、新しいアイデアを迅速に実験し、AI 支援の音楽要素を生成できます。
  • 映画とゲームのサウンドデザイン: MAGNeT はダイナミックで没入型のサウンドトラックをリアルタイムで作成し、視聴者とプレイヤーの体験を向上させることができます。
  • 音声駆動型アプリケーション: 自然な響きの合成音声を生成するこのモデルの機能は、仮想アシスタントやその他の音声インタラクティブ技術にとって有望です。
  • アクセシビリティツール: MAGNeT のリアルタイムのテキストから音声への変換機能は、視覚障害を持つ個人に力を与え、アクセシビリティ ソリューションに革命をもたらす可能性があります。

Meta AI は MAGNeT をオープンソース化することを選択し、テキストからオーディオへの生成におけるコラボレーションとイノベーションを促進します。オープンソースのアプローチは、サウンド デザインや AI が人間の感覚と対話するその他の分野で新しい AI 方法論を作成する道も開きます。

MAGNeT はまだ開発中であり、その機能と制限は引き続き調査されていることに注意することが重要です。 

その他 こちら.

トピックの詳細: Meta