Microsoft Research învinge rivalii cu cel mai bun punctaj de referință pentru recunoașterea vorbirii

Pictograma timp de citire 2 min. citit


Cititorii ajută la sprijinirea MSpoweruser. Este posibil să primim un comision dacă cumpărați prin link-urile noastre. Pictograma Tooltip

Citiți pagina noastră de dezvăluire pentru a afla cum puteți ajuta MSPoweruser să susțină echipa editorială Află mai multe

undă vocală

Pe blogul Microsoft, Microsoft Research a anunțat că eforturile lor de inteligență artificială au atins o nouă etapă, obținând un scor de lider în industrie de 6.3% rata de eroare a cuvintelor la un test standardizat de recunoaștere a vorbirii, sarcina de recunoaștere a vorbirii Switchboard.

„Cel mai bun sistem unic al nostru realizează o rată de eroare de 6.9% pe setul NIST 2000 Switchboard. Considerăm că aceasta este cea mai bună performanță raportată până în prezent pentru un sistem de recunoaștere care nu se bazează pe o combinație de sisteme. Un ansamblu de modele acustice avansează stadiul tehnicii la 6.3% din datele de testare a Switchboardului”, a menționat omul de știință. într-o lucrare de cercetare.

Scopul final este de a recunoaște vorbirea, precum și orice altă persoană, ceea ce ar face asistenții vocali precum Cortana și mai folositori.

„Este un concept simplu, dar are un impact foarte puternic. Este vorba despre preluarea puterii limbajului uman și aplicarea ei mai răspândită la toate calculatoarele noastre”, a spus Nadella la un eveniment la începutul acestui an.

Geoffrey Zweig, cercetător principal și manager al grupului de cercetare Speech & Dialog al Microsoft, a condus efortul de recunoaștere a vorbirii Switchboard. El atribuie rezultatele companiei de recunoaștere a vorbirii, lider în industrie, abilităților cercetătorilor săi, care au condus la dezvoltarea de noi algoritmi de antrenament, modele de rețele neuronale convoluționale și recurente foarte optimizate și dezvoltarea de instrumente precum Setul de instrumente pentru rețea computațională. CNTK implementează optimizări sofisticate care permit algoritmilor de învățare profundă să ruleze un ordin de mărime mai rapid decât înainte. Un pas cheie înainte a fost o descoperire pentru instruirea paralelă pe unitățile de procesare grafică sau GPU-uri.

„Echipa de cercetare pe care am adunat-o pune la dispoziție un secol de experiență în cercetare și dezvoltare a vorbirii industriale pentru a promova stadiul tehnicii în tehnologiile de recunoaștere a vorbirii”, a spus Zweig.

„Această nouă piatră de hotar a beneficiat de o gamă largă de noi tehnologii dezvoltate de comunitatea AI de la multe organizații diferite în ultimii 20 de ani”, a declarat Xuedong Huang, om de știință șef de discurs al Microsoft.

La începutul acestui an, cercetătorii Microsoft au câștigat provocarea ImageNet de viziune pe computer. Tehnologia și-a găsit locul într-un număr de produse Microsoft, inclusiv în aplicația virală HowOldAmI.net.

Mai multe despre subiecte: cercetare Microsoft, recunoaștere a vorbirii