Η IBM ξεπερνά τη Microsoft στην ακρίβεια αναγνώρισης ομιλίας

Εικονίδιο ώρας ανάγνωσης 2 λεπτό. ανάγνωση


Οι αναγνώστες βοηθούν στην υποστήριξη του MSpoweruser. Ενδέχεται να λάβουμε προμήθεια εάν αγοράσετε μέσω των συνδέσμων μας. Εικονίδιο επεξήγησης εργαλείου

Διαβάστε τη σελίδα αποκάλυψης για να μάθετε πώς μπορείτε να βοηθήσετε το MSPoweruser να διατηρήσει τη συντακτική ομάδα Διάβασε περισσότερα

Πέρυσι, η Microsoft έκανε μια αρκετά εντυπωσιακή ανακάλυψη στην αναγνώριση ομιλίας. Η εταιρεία ισχυρίστηκε ότι η τεχνολογία αναγνώρισης ομιλίας της έφτασε «ανθρώπινη ισοτιμία» με μόλις 5.9% του WER (Word Error Rate). Και τώρα, η IBM έχει επιτύχει ακόμη χαμηλότερο WER με την τεχνολογία αναγνώρισης ομιλίας της. Η εταιρεία ισχυρίζεται ότι έχει επιτύχει ποσοστό λεκτικών σφαλμάτων 5.5%, ξεπερνώντας το ρεκόρ 5.9% της Microsoft κατά 0.4%.

Microsoft παλαιότερα ξεπέρασε το ρεκόρ WER 6.9% της IBM επιτυγχάνοντας ποσοστό σφάλματος 6.3% τον Σεπτέμβριο του 2016. Επομένως, πιθανότατα δεν θα αργήσει πολύ μέχρι η Microsoft να επανέλθει στην IBM.

Αυτό που είναι ενδιαφέρον είναι ότι η IBM ισχυρίζεται ότι η εταιρεία δεν έχει ακόμη φτάσει στην ανθρώπινη ισοτιμία. Σε αντίθεση με τη Microsoft, η IBM ισχυρίζεται ότι η ανθρώπινη ισοτιμία είναι στο WER 5.1% — κάτι που δεν έχει ακόμη επιτευχθεί με οποιαδήποτε τεχνολογία αναγνώρισης ομιλίας. Ο George Saon, κύριος ερευνητής της IBM, δήλωσε:

«Η επίτευξη της ανθρώπινης ισοτιμίας – που σημαίνει ένα ποσοστό σφάλματος στο ίδιο επίπεδο με αυτό των δύο ανθρώπων που μιλούν – ήταν εδώ και καιρό ο απώτερος στόχος της βιομηχανίας. Άλλοι στον κλάδο κυνηγούν αυτό το ορόσημο μαζί μας, και κάποιοι ισχυρίστηκαν πρόσφατα ότι έφτασαν το 5.9 τοις εκατό ως ισοδύναμο με την ανθρώπινη ισοτιμία…αλλά δεν σκάμε ακόμα τη σαμπάνια. Ως μέρος της διαδικασίας μας για να φτάσουμε στο σημερινό ορόσημο, προσδιορίσαμε ότι η ανθρώπινη ισοτιμία είναι στην πραγματικότητα χαμηλότερη από ό,τι έχει πετύχει οποιοσδήποτε – στο 5.1 τοις εκατό».

Η IBM ανέφερε σε μια ανάρτηση ιστολογίου ότι η εταιρεία κατάφερε να επιτύχει χαμηλότερο ποσοστό σφάλματος από τη Microsoft συνδυάζοντας μοντέλα γλώσσας LSTM (Long Short Term Memory) και WaveNet.

Περισσότερα για τα θέματα: Cortana, IBM, Εργαστήρια IBM, Αναγνώριση ομιλίας IBM, microsoft, έρευνα microsoft, MSR, αναγνώρισης ομιλίας

Αφήστε μια απάντηση

Η διεύθυνση email σας δεν θα δημοσιευθεί. Τα υποχρεωτικά πεδία σημειώνονται *