Microsoft Research batte i rivali con il miglior punteggio benchmark di riconoscimento vocale di sempre

Icona del tempo di lettura 2 minuto. leggere


I lettori aiutano a supportare MSpoweruser. Potremmo ricevere una commissione se acquisti tramite i nostri link. Icona descrizione comando

Leggi la nostra pagina informativa per scoprire come puoi aiutare MSPoweruser a sostenere il team editoriale Per saperne di più

onda vocale

Sul blog Microsoft Microsoft Research ha annunciato che i loro sforzi di intelligenza artificiale hanno raggiunto un nuovo traguardo, ottenendo un punteggio leader del settore del 6.3% di tasso di errore di parola su un test di riconoscimento vocale standardizzato, l'attività di riconoscimento vocale del centralino.

“Il nostro miglior sistema singolo raggiunge un tasso di errore del 6.9% sul set di centralini NIST 2000. Riteniamo che questa sia la migliore prestazione riportata fino ad oggi per un sistema di riconoscimento non basato su una combinazione di sistemi. Un insieme di modelli acustici fa avanzare lo stato dell'arte al 6.3% sui dati dei test del centralino", ha osservato lo scienziato in un documento di ricerca.

L'obiettivo finale è riconoscere il parlato così come qualsiasi altra persona, il che renderebbe gli assistenti vocali come Cortana ancora più utili.

“È un concetto semplice, ma ha un impatto molto potente. Si tratta di prendere il potere del linguaggio umano e applicarlo in modo più pervasivo a tutti i nostri computer", ha detto Nadella in un evento all'inizio di quest'anno.

Geoffrey Zweig, ricercatore principale e manager del gruppo di ricerca Speech & Dialog di Microsoft, ha guidato lo sforzo di riconoscimento vocale Switchboard. Attribuisce i risultati leader del settore del riconoscimento vocale dell'azienda alle capacità dei suoi ricercatori, che hanno portato allo sviluppo di nuovi algoritmi di addestramento, modelli di reti neurali convoluzionali e ricorrenti altamente ottimizzati e allo sviluppo di strumenti come il Computational Network Toolkit. CNTK implementa ottimizzazioni sofisticate che consentono agli algoritmi di deep learning di eseguire un ordine di grandezza più velocemente di prima. Un passo avanti fondamentale è stata una svolta per la formazione parallela sulle unità di elaborazione grafica o GPU..

"Il team di ricerca che abbiamo assemblato mette in campo un secolo di esperienza di ricerca e sviluppo vocale industriale per spingere lo stato dell'arte nelle tecnologie di riconoscimento vocale", ha affermato Zweig.

"Questa nuova pietra miliare ha beneficiato di un'ampia gamma di nuove tecnologie sviluppate dalla comunità di intelligenza artificiale di molte organizzazioni diverse negli ultimi 20 anni", ha affermato Xuedong Huang, capo scienziato del linguaggio di Microsoft.

All'inizio di quest'anno i ricercatori Microsoft hanno vinto la sfida di visione artificiale di ImageNet. La tecnologia ha trovato la sua casa in numerosi prodotti Microsoft, inclusa l'app virale HowOldAmI.net.

Maggiori informazioni sugli argomenti: ricerca Microsoft, riconoscimento vocale

Lascia un Commento

L'indirizzo email non verrà pubblicato. I campi obbligatori sono contrassegnati con *