Microsoft Research bat ses rivaux avec le meilleur score de référence en reconnaissance vocale

Icône de temps de lecture 2 minute. lis


Les lecteurs aident à prendre en charge MSpoweruser. Nous pouvons recevoir une commission si vous achetez via nos liens. Icône d'info-bulle

Lisez notre page de divulgation pour savoir comment vous pouvez aider MSPoweruser à soutenir l'équipe éditoriale En savoir plus

onde vocale

Sur le blog de Microsoft, Microsoft Research a annoncé que ses efforts en matière d'intelligence artificielle avaient franchi une nouvelle étape, atteignant un score de 6.3 % de taux d'erreur de mot sur un test de reconnaissance vocale standardisé, la tâche de reconnaissance vocale Switchboard.

"Notre meilleur système unique atteint un taux d'erreur de 6.9 % sur l'ensemble de tableaux de contrôle NIST 2000. Nous pensons qu'il s'agit de la meilleure performance rapportée à ce jour pour un système de reconnaissance non basé sur la combinaison de systèmes. Un ensemble de modèles acoustiques fait progresser l'état de l'art à 6.3 % sur les données du test Switchboard", a noté le scientifique. dans un article de recherche.

Le but ultime est de reconnaître la parole ainsi que toute autre personne, ce qui rendrait les assistants vocaux tels que Cortana encore plus utiles.

« C'est un concept simple, mais il est très puissant dans son impact. Il s'agit de prendre le pouvoir du langage humain et de l'appliquer plus largement à l'ensemble de notre informatique », a déclaré Nadella lors d'un événement plus tôt cette année.

Geoffrey Zweig, chercheur principal et directeur du groupe de recherche Speech & Dialog de Microsoft, a dirigé l'effort de reconnaissance vocale Switchboard. Il attribue les résultats de reconnaissance vocale de pointe de l'entreprise aux compétences de ses chercheurs, qui ont conduit au développement de nouveaux algorithmes de formation, de modèles de réseaux neuronaux convolutifs et récurrents hautement optimisés, et au développement d'outils tels que Computational Network Toolkit. CNTK met en œuvre des optimisations sophistiquées qui permettent aux algorithmes d'apprentissage en profondeur d'exécuter un ordre de grandeur plus rapidement qu'auparavant. Un pas en avant clé a été une percée pour la formation parallèle sur les unités de traitement graphique, ou GPU.

« L'équipe de recherche que nous avons réunie met à profit un siècle d'expérience en recherche et développement de la parole industrielle pour pousser l'état de l'art dans les technologies de reconnaissance vocale », a déclaré Zweig.

"Cette nouvelle étape a bénéficié d'un large éventail de nouvelles technologies développées par la communauté de l'IA de nombreuses organisations différentes au cours des 20 dernières années", a déclaré Xuedong Huang, scientifique en chef de la parole chez Microsoft.

Plus tôt cette année, les chercheurs de Microsoft ont remporté le défi de vision par ordinateur ImageNet. La technologie a trouvé sa place dans un certain nombre de produits Microsoft, y compris l'application virale HowOldAmI.net.

En savoir plus sur les sujets : recherche Microsoft, reconnaissance de la parole