微軟研究院以有史以來最好的語音識別基準分數擊敗競爭對手

2分鐘讀

發表於 2016 年 9 月 13 日

讀者幫助支持 MSpoweruser。如果您透過我們的連結購買，我們可能會獲得佣金。

在微軟博客上，微軟研究院宣布他們的 AI 工作達到了一個新的里程碑，在標準化語音識別測試 Switchboard 語音識別任務中取得了行業領先的 6.3% 的單詞錯誤率分數。

“我們最好的單一系統在 NIST 6.9 Switchboard 集上實現了 2000% 的錯誤率。我們相信這是迄今為止報告的非基於系統組合的識別系統的最佳性能。一組聲學模型將 Switchboard 測試數據的最新技術提高到 6.3%，”這位科學家指出在一篇研究論文中.

最終目標是識別語音以及任何其他人，這將使 Cortana 等語音助手更加有用。

“這是一個簡單的概念，但它的影響卻非常強大。這是關於利用人類語言的力量並將其更普遍地應用到我們所有的計算中，”納德拉在今年早些時候的一次活動中說。

微軟語音與對話研究小組的首席研究員兼經理 Geoffrey Zweig 領導了 Switchboard 語音識別工作。他將公司行業領先的語音識別結果歸功於其研究人員的技能，這導致了新訓練算法的開發、高度優化的捲積和遞歸神經網絡模型以及計算網絡工具包等工具的開發。 CNTK 實施了複雜的優化，使深度學習算法的運行速度比以前快了一個數量級。向前邁出的關鍵一步是圖形處理單元或 GPU 並行訓練的突破。

“我們組建的研究團隊擁有一個世紀的工業語音研發經驗，推動了語音識別技術的發展，”茨威格說。

微軟首席語音科學家黃學東表示：“這一新的里程碑得益於人工智能社區在過去 20 年中由許多不同組織開發的各種新技術。”

今年早些時候，微軟研究人員贏得了 ImageNet 計算機視覺挑戰賽。該技術已經在許多微軟產品中找到了自己的位置，包括病毒式的 HowOldAmI.net 應用程序。

有關主題的更多資訊：微軟研究, 語音識別