Η Microsoft Research κερδίζει τους αντιπάλους με την καλύτερη βαθμολογία αναφοράς Αναγνώρισης ομιλίας

Εικονίδιο ώρας ανάγνωσης 2 λεπτό. ανάγνωση


Οι αναγνώστες βοηθούν στην υποστήριξη του MSpoweruser. Ενδέχεται να λάβουμε προμήθεια εάν αγοράσετε μέσω των συνδέσμων μας. Εικονίδιο επεξήγησης εργαλείου

Διαβάστε τη σελίδα αποκάλυψης για να μάθετε πώς μπορείτε να βοηθήσετε το MSPoweruser να διατηρήσει τη συντακτική ομάδα Διάβασε περισσότερα

φωνητικό κύμα

Στο ιστολόγιο της Microsoft, η Microsoft Research ανακοίνωσε ότι οι προσπάθειές της για τεχνητή νοημοσύνη πέτυχαν ένα νέο ορόσημο, επιτυγχάνοντας κορυφαία βαθμολογία στον κλάδο της τάξης του 6.3% Word Error Rate σε μια τυποποιημένη δοκιμή αναγνώρισης ομιλίας, την εργασία αναγνώρισης ομιλίας Switchboard.

«Το καλύτερο μεμονωμένο σύστημά μας επιτυγχάνει ποσοστό σφάλματος 6.9% στο σετ πίνακα NIST 2000. Πιστεύουμε ότι αυτή είναι η καλύτερη απόδοση που έχει αναφερθεί μέχρι σήμερα για ένα σύστημα αναγνώρισης που δεν βασίζεται σε συνδυασμό συστήματος. Ένα σύνολο ακουστικών μοντέλων προάγει την τελευταία λέξη της τεχνολογίας στο 6.3% στα δεδομένα δοκιμών του Switchboard», σημείωσε ο επιστήμονας. σε ερευνητική εργασία.

Ο απώτερος στόχος είναι η αναγνώριση της ομιλίας όπως και κάθε άλλου προσώπου, κάτι που θα έκανε τους βοηθούς φωνής όπως η Cortana ακόμα πιο χρήσιμοι.

«Είναι μια απλή ιδέα, αλλά είναι πολύ ισχυρή στον αντίκτυπό της. Πρόκειται για το να πάρουμε τη δύναμη της ανθρώπινης γλώσσας και να την εφαρμόσουμε πιο διάχυτα σε όλους μας τους υπολογιστές», είπε η Nadella σε εκδήλωση νωρίτερα φέτος.

Ο Geoffrey Zweig, κύριος ερευνητής και διευθυντής της ερευνητικής ομάδας Speech & Dialog της Microsoft, ηγήθηκε της προσπάθειας αναγνώρισης ομιλίας του Switchboard. Αποδίδει τα κορυφαία στον κλάδο αποτελέσματα αναγνώρισης ομιλίας της εταιρείας στις δεξιότητες των ερευνητών της, που οδήγησαν στην ανάπτυξη νέων αλγορίθμων εκπαίδευσης, εξαιρετικά βελτιστοποιημένα συνελικτικά και επαναλαμβανόμενα μοντέλα νευρωνικών δικτύων και στην ανάπτυξη εργαλείων όπως το Computational Network Toolkit. Το CNTK εφαρμόζει εξελιγμένες βελτιστοποιήσεις που επιτρέπουν στους αλγόριθμους βαθιάς μάθησης να εκτελούν μια τάξη μεγέθους πιο γρήγορα από πριν. Ένα βασικό βήμα προς τα εμπρός ήταν μια σημαντική ανακάλυψη για την παράλληλη εκπαίδευση σε μονάδες επεξεργασίας γραφικών ή GPU.

«Η ερευνητική ομάδα που έχουμε συγκεντρώσει προσφέρει έναν αιώνα εμπειρίας βιομηχανικής έρευνας και ανάπτυξης ομιλίας για να προωθήσει την τελευταία λέξη της τεχνολογίας στις τεχνολογίες αναγνώρισης ομιλίας», δήλωσε ο Zweig.

«Αυτό το νέο ορόσημο επωφελήθηκε από ένα ευρύ φάσμα νέων τεχνολογιών που αναπτύχθηκαν από την κοινότητα AI από πολλούς διαφορετικούς οργανισμούς τα τελευταία 20 χρόνια», δήλωσε ο Xuedong Huang, επικεφαλής επιστήμονας ομιλίας της Microsoft.

Νωρίτερα φέτος, οι ερευνητές της Microsoft κέρδισαν την πρόκληση ImageNet computer vision. Η τεχνολογία έχει βρει το σπίτι της σε μια σειρά από προϊόντα της Microsoft, συμπεριλαμβανομένης της ιογενούς εφαρμογής HowOldAmI.net.

Περισσότερα για τα θέματα: έρευνα microsoft, αναγνώρισης ομιλίας