単なるプロンプトからオーディオを作曲するための Meta の新しい AI モジュール、MAGNeT とは何ですか?

読書時間アイコン 2分。読んだ

カレンダーアイコン上で公開 2024 年 1 月 19 日

上の公表 2024 年 1 月 19 日

読者は MSpoweruser のサポートを支援します。私たちのリンクを通じて購入すると、手数料が発生する場合があります。

Meta の MAGNeT は、テキストの説明から高品質のオーディオを生成できる、新しいテキスト音声変換モデルです。

MAGNeT は、非自己回帰アプローチを使用して一度に 1 セグメントずつ音声を生成する従来の自己回帰手法とは異なります。これにより、複数のオーディオセグメントの並列予測が可能になり、生成速度が大幅に向上します。ベンチマークは、MAGNeT が以前のバージョンよりも最大 7 倍高速であることを示しています。

これは、複数のオーディオ部分を次々に生成するのではなく、同時に予測できることを意味します。これは、複数のオーブンでさまざまな料理を一度に調理するようなものです。

さらに、MAGNeT には、自己回帰手法の初期精度と非自己回帰手法の効率を組み合わせたハイブリッドメカニズムが組み込まれています。これにより、速度の向上によるメリットを享受しながら、生成されたオーディオが高い忠実度を維持できるようになります。

つまり、特別な「ハイブリッドメカニズム」技術を使用して、高速生成にもかかわらず、良い音を保証します。

MAGNeT の潜在的な用途は広大で、さまざまな業界に及びます。以下にいくつかの注目すべき例を示します。

作曲： ミュージシャンやプロデューサーは MAGNeT を利用して、新しいアイデアを迅速に実験し、AI 支援の音楽要素を生成できます。
映画とゲームのサウンドデザイン: MAGNeT はダイナミックで没入型のサウンドトラックをリアルタイムで作成し、視聴者とプレイヤーの体験を向上させることができます。
音声駆動型アプリケーション: 自然な響きの合成音声を生成するこのモデルの機能は、仮想アシスタントやその他の音声インタラクティブ技術にとって有望です。
アクセシビリティツール: MAGNeT のリアルタイムのテキストから音声への変換機能は、視覚障害を持つ個人に力を与え、アクセシビリティソリューションに革命をもたらす可能性があります。

Meta AI は MAGNeT をオープンソース化することを選択し、テキストからオーディオへの生成におけるコラボレーションとイノベーションを促進します。オープンソースのアプローチは、サウンドデザインや AI が人間の感覚と対話するその他の分野で新しい AI 方法論を作成する道も開きます。

MAGNeT はまだ開発中であり、その機能と制限は引き続き調査されていることに注意することが重要です。

その他こちら.

トピックの詳細: Meta

デベシュ・ベリ

技術ジャーナリスト

有益で役立つコンテンツを作成すること、モータースポーツと音楽への情熱を追求すること、遠征に参加すること、健康的なライフスタイルを維持すること、そして愛猫のタコスと時間を過ごすこと、これらが私を動かす原動力です。