Microsoft Research slår konkurrenterne med den bedste talegenkendelsesscore nogensinde

Ikon for læsetid 2 min. Læs


Læsere hjælper med at understøtte MSpoweruser. Vi får muligvis en kommission, hvis du køber via vores links. Værktøjstip-ikon

Læs vores oplysningsside for at finde ud af, hvordan du kan hjælpe MSPoweruser med at opretholde redaktionen Læs mere

stemmebølge

På Microsoft-bloggen har Microsoft Research annonceret, at deres AI-indsats har nået en ny milepæl, idet de har opnået en brancheførende score på 6.3 % Word Error Rate på en standardiseret talegenkendelsestest, Switchboard-talegenkendelsesopgaven.

"Vores bedste enkeltsystem opnår en fejlrate på 6.9% på NIST 2000 Switchboard-sættet. Vi mener, at dette er den bedste ydelse, der er rapporteret til dato for et genkendelsessystem, der ikke er baseret på systemkombination. Et ensemble af akustiske modeller fremmer den nyeste teknologi til 6.3 % på omstillingsbordtestdataene,” bemærkede videnskabsmanden i et forskningspapir.

Det ultimative mål er at genkende tale såvel som enhver anden person, hvilket ville gøre stemmeassistenter som Cortana endnu mere nyttige.

"Det er et simpelt koncept, men alligevel er det meget kraftfuldt i sin effekt. Det handler om at tage kraften i det menneskelige sprog og anvende det mere gennemgribende på al vores computer,” sagde Nadella ved en begivenhed tidligere på året.

Geoffrey Zweig, hovedforsker og leder af Microsofts Speech & Dialog-forskningsgruppe, ledede omstillingsbordets talegenkendelsesindsats. Han tilskriver virksomhedens brancheførende talegenkendelsesresultater til dets forskeres færdigheder, hvilket førte til udviklingen af ​​nye træningsalgoritmer, stærkt optimerede foldnings- og tilbagevendende neurale netmodeller og udviklingen af ​​værktøjer som Computational Network Toolkit. CNTK implementerer sofistikerede optimeringer, der gør det muligt for deep learning-algoritmer at køre en størrelsesorden hurtigere end før. Et vigtigt skridt fremad var et gennembrud for parallel træning i grafikbehandlingsenheder eller GPU'er.

"Forskerholdet, vi har samlet, frembringer et århundredes industriel tale-R&D-erfaring for at skubbe det nyeste inden for talegenkendelsesteknologier," sagde Zweig.

"Denne nye milepæl nød godt af en bred vifte af nye teknologier udviklet af AI-fællesskabet fra mange forskellige organisationer i løbet af de sidste 20 år," sagde Xuedong Huang, Microsofts ledende taleforsker.

Tidligere i år vandt Microsoft-forskere ImageNet computer vision challenge. Teknologien har fundet sit hjem i en række Microsoft-produkter, herunder den virale HowOldAmI.net-app.

Mere om emnerne: Microsoft-forskning, tale genkendelse