IBM poráží Microsoft v přesnosti rozpoznávání řeči

Ikona času čtení 2 min. číst


Čtenáři pomáhají podporovat MSpoweruser. Pokud nakoupíte prostřednictvím našich odkazů, můžeme získat provizi. Ikona popisku

Přečtěte si naši informační stránku a zjistěte, jak můžete pomoci MSPoweruser udržet redakční tým Dozvědět se více

Minulý rok Microsoft udělal docela působivý průlom v rozpoznávání řeči. Společnost tvrdila, že její technologie rozpoznávání řeči dosáhla „lidská parita“ pouze 5.9 % WER (Word Error Rate). A nyní IBM dosáhlo ještě nižší WER se svou technologií rozpoznávání řeči. Společnost tvrdí, že dosáhla 5.5% chybovosti slov, čímž překonala rekord Microsoftu 5.9% o 0.4%.

Microsoft dříve překonal rekord IBM 6.9 % WER dosažením 6.3% chybovosti již v září 2016. Takže pravděpodobně nebude dlouho trvat, než se Microsoft vrátí k IBM.

Zajímavé je, že IBM tvrdí, že společnost ještě nedosáhla lidské parity. Na rozdíl od Microsoftu IBM tvrdí, že lidská parita je na WER 5.1 % – což je ještě třeba dosáhnout pomocí jakékoli technologie rozpoznávání řeči. George Saon, hlavní vědecký pracovník IBM, řekl:

„Dosažení lidské parity – což znamená chybovost na stejné úrovni jako u dvou lidí, kteří mluví – bylo dlouho hlavním cílem odvětví. Ostatní v tomto odvětví jdou za tímto milníkem vedle nás a někteří nedávno prohlásili, že dosažení 5.9 procenta je ekvivalentem lidské parity… ale ještě nepraskáme šampaňské. V rámci našeho procesu při dosahování dnešního milníku jsme zjistili, že lidská parita je ve skutečnosti nižší, než čeho kdokoli dosud dosáhl – na 5.1 procenta.“

IBM v příspěvku na blogu uvedla, že společnost byla schopna dosáhnout nižší chybovosti než Microsoft kombinací jazykových modelů LSTM (Long Short Term Memory) a WaveNet.

Více o tématech: Cortana, IBM, Laboratoře IBM, IBM Speech Recognition, microsoft, průzkum společnosti Microsoft, MSR, rozpoznávání řeči