Microsoft Researchは、これまでで最高の音声認識ベンチマークスコアでライバルを打ち負かしました

読書時間アイコン 2分。 読んだ


読者は MSpoweruser のサポートを支援します。私たちのリンクを通じて購入すると、手数料が発生する場合があります。 ツールチップアイコン

MSPoweruser の編集チームの維持にどのように貢献できるかについては、開示ページをお読みください。 続きを読む

ボイスウェーブ

Microsoftブログで、Microsoft Researchは、AIの取り組みが新たなマイルストーンに到達し、標準化された音声認識テストであるSwitchboard音声認識タスクで業界をリードする6.3%の単語誤り率を達成したことを発表しました。

「当社の最高の単一システムは、NIST 6.9スイッチボードセットで2000%のエラー率を達成しています。 これは、システムの組み合わせに基づかない認識システムについてこれまでに報告された最高のパフォーマンスであると信じています。 音響モデルのアンサンブルは、スイッチボードのテストデータで最先端技術を6.3%に向上させます」と科学者は述べています 研究論文で.

最終的な目標は、音声だけでなく他の人も認識することです。これにより、Cortanaなどの音声アシスタントがさらに便利になります。

「これは単純な概念ですが、その影響は非常に強力です。 それは、人間の言語の力を利用して、それをすべてのコンピューティングにさらに普及させることです」とナデラは今年初めのイベントで述べました。

MicrosoftのSpeech&Dialog研究グループの主任研究員兼マネージャーであるGeoffrey Zweigが、Switchboardの音声認識の取り組みを主導しました。 彼は、同社の業界をリードする音声認識の結果を研究者のスキルに帰しており、新しいトレーニングアルゴリズム、高度に最適化された畳み込みニューラルネットモデル、およびComputational NetworkToolkitなどのツールの開発につながりました。 CNTKは、ディープラーニングアルゴリズムを以前よりも桁違いに高速に実行できるようにする高度な最適化を実装しています。 重要な前進は、グラフィックスプロセッシングユニット(GPU)での並列トレーニングの飛躍的進歩でした。

「私たちが集まった研究チームは、音声認識技術の最先端を推進するために、XNUMX世紀にわたる産業用音声研究開発の経験をもたらします」とZweig氏は述べています。

「この新しいマイルストーンは、過去20年間に多くの異なる組織からAIコミュニティによって開発された幅広い新技術の恩恵を受けました」と、マイクロソフトのチーフスピーチサイエンティストであるXuedongHuangは述べています。

今年の初め、マイクロソフトの研究者はImageNetコンピュータービジョンチャレンジに勝ちました。 このテクノロジーは、バイラルなHowOldAmI.netアプリを含む、多くのMicrosoft製品にその名を馳せています。

トピックの詳細: マイクロソフトリサーチ, 音声認識

コメントを残す

あなたのメールアドレスは公開されません。 必須フィールドは、マークされています *