IBM은 음성 인식 정확도에서 Microsoft를 능가합니다.

독서 시간 아이콘 2 분. 읽다


독자들은 MSpoweruser를 지원하는 데 도움을 줍니다. 당사의 링크를 통해 구매하시면 수수료를 받을 수 있습니다. 툴팁 아이콘

공개 페이지를 읽고 MSPoweruser가 편집팀을 유지하는 데 어떻게 도움을 줄 수 있는지 알아보세요. 자세히 보기

작년에 Microsoft는 음성 인식에서 꽤 인상적인 혁신을 이루었습니다. 회사는 자사의 음성 인식 기술이 5.9%에 불과한 "인간 동등성" WER(단어 오류율). 그리고 이제 IBM은 음성 인식 기술로 훨씬 더 낮은 WER을 달성했습니다. 이 회사는 5.5%의 단어 오류율을 달성했으며 Microsoft의 5.9% 기록을 0.4% 앞섰다고 주장합니다.

마이크로소프트는 이전에 IBM의 6.9% WER 기록 깨기 6.3년 2016월에 XNUMX%의 오류율을 달성했습니다. 따라서 Microsoft가 IBM에 반격할 때까지는 그리 오래 걸리지 않을 것입니다.

흥미로운 점은 IBM이 회사가 아직 인간 수준에 도달하지 못했다고 주장한다는 것입니다. Microsoft와 달리 IBM은 인간의 패리티가 5.1%의 WER이라고 주장합니다. 이는 아직 어떤 음성 인식 기술로도 달성할 수 없습니다. IBM의 수석 연구 과학자인 George Saon은 다음과 같이 말했습니다.

“인간과 동등한 수준에 도달하는 것(두 사람이 말하는 것과 같은 오류율을 의미함)은 오랫동안 업계의 궁극적인 목표였습니다. 업계의 다른 사람들은 우리와 함께 이 이정표를 쫓고 있으며 일부는 최근 5.9%에 도달하여 인간과 동등하다고 주장했지만… 아직 샴페인을 터뜨리지 않고 있습니다. 오늘의 이정표에 도달하는 과정의 일환으로 인간의 동등성은 실제로는 5.1%로 다른 사람이 달성한 것보다 낮습니다.”

IBM은 블로그 포스트에서 회사가 LSTM(Long Short Term Memory)과 WaveNet 언어 모델을 결합하여 Microsoft보다 낮은 오류율을 달성할 수 있었다고 말했습니다.

주제에 대한 추가 정보: Cortana, IBM, IBM 연구소, IBM 음성 인식, 마이크로 소프트, 마이크로 소프트 연구, MSR, 음성 인식