微软研究院以有史以来最好的语音识别基准分数击败竞争对手

阅读时间图标 2分钟读


读者帮助支持 MSpoweruser。如果您通过我们的链接购买,我们可能会获得佣金。 工具提示图标

阅读我们的披露页面,了解如何帮助 MSPoweruser 维持编辑团队 查看更多

声波

在微软博客上,微软研究院宣布他们的 AI 工作达到了一个新的里程碑,在标准化语音识别测试 Switchboard 语音识别任务中取得了行业领先的 6.3% 的单词错误率分数。

“我们最好的单一系统在 NIST 6.9 Switchboard 集上实现了 2000% 的错误率。 我们相信这是迄今为止报告的非基于系统组合的识别系统的最佳性能。 一组声学模型将 Switchboard 测试数据的最新技术提高到 6.3%,”这位科学家指出 在一篇研究论文中.

最终目标是识别语音以及任何其他人,这将使 Cortana 等语音助手更加有用。

“这是一个简单的概念,但它的影响却非常强大。 这是关于利用人类语言的力量并将其更普遍地应用到我们所有的计算中,”纳德拉在今年早些时候的一次活动中说。

微软语音与对话研究小组的首席研究员兼经理 Geoffrey Zweig 领导了 Switchboard 语音识别工作。 他将公司行业领先的语音识别结果归功于其研究人员的技能,这导致了新训练算法的开发、高度优化的卷积和递归神经网络模型以及计算网络工具包等工具的开发。 CNTK 实施了复杂的优化,使深度学习算法的运行速度比以前快了一个数量级。 向前迈出的关键一步是图形处理单元或 GPU 并行训练的突破。

“我们组建的研究团队拥有一个世纪的工业语音研发经验,推动了语音识别技术的发展,”茨威格说。

微软首席语音科学家黄学东表示:“这一新的里程碑得益于人工智能社区在过去 20 年中由许多不同组织开发的各种新技术。”

今年早些时候,微软研究人员赢得了 ImageNet 计算机视觉挑战赛。 该技术已经在许多微软产品中找到了自己的位置,包括病毒式的 HowOldAmI.net 应用程序。

有关主题的更多信息: 微软研究, 语音识别