Η IBM ξεπερνά τη Microsoft στην ακρίβεια αναγνώρισης ομιλίας

Εικονίδιο ώρας ανάγνωσης 2 λεπτό. ανάγνωση

Εικονίδιο ημερολογίου Δημοσιεύθηκε στις Μαρτίου 11, 2017

Δημοσιεύθηκε στις Μαρτίου 11, 2017

Οι αναγνώστες βοηθούν στην υποστήριξη του MSpoweruser. Ενδέχεται να λάβουμε προμήθεια εάν αγοράσετε μέσω των συνδέσμων μας.

Πέρυσι, η Microsoft έκανε μια αρκετά εντυπωσιακή ανακάλυψη στην αναγνώριση ομιλίας. Η εταιρεία ισχυρίστηκε ότι η τεχνολογία αναγνώρισης ομιλίας της έφτασε «ανθρώπινη ισοτιμία» με μόλις 5.9% του WER (Word Error Rate). Και τώρα, η IBM έχει επιτύχει ακόμη χαμηλότερο WER με την τεχνολογία αναγνώρισης ομιλίας της. Η εταιρεία ισχυρίζεται ότι έχει επιτύχει ποσοστό λεκτικών σφαλμάτων 5.5%, ξεπερνώντας το ρεκόρ 5.9% της Microsoft κατά 0.4%.

Microsoft παλαιότερα ξεπέρασε το ρεκόρ WER 6.9% της IBM επιτυγχάνοντας ποσοστό σφάλματος 6.3% τον Σεπτέμβριο του 2016. Επομένως, πιθανότατα δεν θα αργήσει πολύ μέχρι η Microsoft να επανέλθει στην IBM.

Αυτό που είναι ενδιαφέρον είναι ότι η IBM ισχυρίζεται ότι η εταιρεία δεν έχει ακόμη φτάσει στην ανθρώπινη ισοτιμία. Σε αντίθεση με τη Microsoft, η IBM ισχυρίζεται ότι η ανθρώπινη ισοτιμία είναι στο WER 5.1% — κάτι που δεν έχει ακόμη επιτευχθεί με οποιαδήποτε τεχνολογία αναγνώρισης ομιλίας. Ο George Saon, κύριος ερευνητής της IBM, δήλωσε:

«Η επίτευξη της ανθρώπινης ισοτιμίας – που σημαίνει ένα ποσοστό σφάλματος στο ίδιο επίπεδο με αυτό των δύο ανθρώπων που μιλούν – ήταν εδώ και καιρό ο απώτερος στόχος της βιομηχανίας. Άλλοι στον κλάδο κυνηγούν αυτό το ορόσημο μαζί μας, και κάποιοι ισχυρίστηκαν πρόσφατα ότι έφτασαν το 5.9 τοις εκατό ως ισοδύναμο με την ανθρώπινη ισοτιμία…αλλά δεν σκάμε ακόμα τη σαμπάνια. Ως μέρος της διαδικασίας μας για να φτάσουμε στο σημερινό ορόσημο, προσδιορίσαμε ότι η ανθρώπινη ισοτιμία είναι στην πραγματικότητα χαμηλότερη από ό,τι έχει πετύχει οποιοσδήποτε – στο 5.1 τοις εκατό».

Η IBM ανέφερε σε μια ανάρτηση ιστολογίου ότι η εταιρεία κατάφερε να επιτύχει χαμηλότερο ποσοστό σφάλματος από τη Microsoft συνδυάζοντας μοντέλα γλώσσας LSTM (Long Short Term Memory) και WaveNet.

Περισσότερα για τα θέματα: Cortana, IBM, Εργαστήρια IBM, Αναγνώριση ομιλίας IBM, microsoft, έρευνα microsoft, MSR, αναγνώρισης ομιλίας

Σον Τσαν

Δημοσιογράφος τεχνολογίας

Ο Sean Chan είναι δημοσιογράφος τεχνολογίας με πολυετή εμπειρία. Καλύπτει κυρίως ειδήσεις υλικού και ειδικά ειδήσεις σχετικά με chip από την AMD, την NVidia και την Intel.

Αφήστε μια απάντηση