Microsoft Research päihittää kilpailijansa kaikkien aikojen parhaalla puheentunnistuksen vertailupisteellä

Lukuajan kuvake 2 min. lukea


Lukijat auttavat tukemaan MSpoweruseria. Saatamme saada palkkion, jos ostat linkkien kautta. Työkaluvihje-kuvake

Lue ilmoitussivumme saadaksesi selville, kuinka voit auttaa MSPoweruseria ylläpitämään toimitustiimiä Lue lisää

ääniaalto

Microsoft Blogissa Microsoft Research on ilmoittanut, että heidän tekoälytyönsä ovat saavuttaneet uuden virstanpylvään ja saavuttaneet alan johtavan 6.3 %:n sanavirhesuhteen standardoidussa puheentunnistustestissä, Switchboard-puheentunnistustehtävässä.

"Paras yksittäinen järjestelmämme saavuttaa 6.9 %:n virhesuhteen NIST 2000 Switchboard -sarjassa. Uskomme, että tämä on paras tähän mennessä raportoitu suorituskyky sellaiselle tunnistusjärjestelmälle, joka ei perustu järjestelmän yhdistelmään. Akustisten mallien kokonaisuus nostaa tekniikan tason 6.3 prosenttiin Switchboardin testitiedoissa”, tutkija totesi. tutkimuspaperissa.

Lopullisena tavoitteena on tunnistaa puhe sekä kaikki muut henkilöt, mikä tekisi Cortanan kaltaisista ääniavustajista entistä hyödyllisempiä.

”Se on yksinkertainen konsepti, mutta silti sen vaikutus on erittäin voimakas. Kyse on ihmisen kielen voiman ottamisesta ja sen soveltamisesta entistä kattavammin kaikkeen tietotekniikkaamme", Nadella sanoi tapahtumassa aiemmin tänä vuonna.

Geoffrey Zweig, Microsoftin Speech & Dialog -tutkimusryhmän päätutkija ja johtaja, johti Switchboardin puheentunnistusta. Hän selittää yhtiön alan johtavat puheentunnistustulokset tutkijoidensa taitojen ansioksi, mikä johti uusien koulutusalgoritmien, erittäin optimoitujen konvoluutio- ja toistuvien hermoverkkomallien kehittämiseen sekä Computational Network Toolkit -työkalujen kaltaisten työkalujen kehittämiseen. CNTK toteuttaa kehittyneitä optimointeja, jotka mahdollistavat syväoppimisalgoritmien suorittamisen suuruusluokkaa nopeammin kuin ennen. Tärkeä askel eteenpäin oli läpimurto grafiikan prosessointiyksiköiden tai GPU:iden rinnakkaiskoulutuksessa.

"Kokoamamme tutkimusryhmä tuo mukanaan vuosisadan teollisen puheen T&K-kokemuksen, joka edistää puheentunnistusteknologioiden huippua", Zweig sanoi.

"Tämä uusi virstanpylväs hyötyi laajasta valikoimasta uusia teknologioita, joita tekoälyyhteisö on kehittänyt useissa eri organisaatioissa viimeisten 20 vuoden aikana", sanoi Xuedong Huang, Microsoftin johtava puhetutkija.

Aiemmin tänä vuonna Microsoftin tutkijat voittivat ImageNet-tietokonenäköhaasteen. Tekniikka on löytänyt kotinsa useissa Microsoftin tuotteissa, mukaan lukien virusperäinen HowOldAmI.net-sovellus.

Lisää aiheista: microsoft -tutkimus, puheentunnistus