IBM đánh bại Microsoft về độ chính xác của Nhận dạng giọng nói

Biểu tượng thời gian đọc 2 phút đọc


Bạn đọc giúp đỡ ủng hộ MSpoweruser. Chúng tôi có thể nhận được hoa hồng nếu bạn mua thông qua các liên kết của chúng tôi. Biểu tượng chú giải công cụ

Đọc trang tiết lộ của chúng tôi để tìm hiểu cách bạn có thể giúp MSPoweruser duy trì nhóm biên tập Tìm hiểu thêm

Năm ngoái, Microsoft đã thực hiện một số bước đột phá khá ấn tượng về nhận dạng giọng nói. Công ty tuyên bố rằng công nghệ nhận dạng giọng nói của họ đạt "Tính ngang bằng con người" chỉ với 5.9% của WER (Tỷ lệ lỗi từ). Và bây giờ, IBM đã đạt được WER thậm chí còn thấp hơn với công nghệ nhận dạng giọng nói của mình. Công ty tuyên bố họ đã đạt được tỷ lệ lỗi từ 5.5%, đánh bại kỷ lục 5.9% của Microsoft với 0.4%.

Microsoft trước đây đánh bại kỷ lục 6.9% WER của IBM bằng cách đạt được tỷ lệ lỗi 6.3% vào tháng 2016 năm XNUMX. Vì vậy, có lẽ sẽ không lâu nữa cho đến khi Microsoft quay trở lại IBM.

Điều thú vị là IBM tuyên bố công ty vẫn chưa đạt được mức độ tương đương con người. Không giống như Microsoft, IBM tuyên bố rằng tỷ lệ tương đương của con người ở mức WER là 5.1% - điều này vẫn chưa đạt được bằng bất kỳ công nghệ nhận dạng giọng nói nào. George Saon, một nhà khoa học nghiên cứu chính của IBM cho biết:

“Đạt được mức độ ngang bằng của con người - nghĩa là tỷ lệ lỗi ngang bằng với tỷ lệ của hai con người - từ lâu đã là mục tiêu cuối cùng của ngành. Những người khác trong ngành đang theo đuổi cột mốc quan trọng này cùng với chúng tôi, và một số gần đây đã tuyên bố đạt 5.9% tương đương với mức tương đương với con người… nhưng chúng tôi vẫn chưa khui sâm panh. Là một phần trong quá trình đạt được cột mốc quan trọng ngày hôm nay, chúng tôi xác định mức độ tương đương của con người thực sự thấp hơn những gì mà bất kỳ ai chưa đạt được - ở mức 5.1%. ”

IBM cho biết trong một bài đăng trên blog rằng công ty có thể đạt được tỷ lệ lỗi thấp hơn Microsoft bằng cách kết hợp các mô hình ngôn ngữ LSTM (Bộ nhớ ngắn hạn dài hạn) và WaveNet.

Thông tin thêm về các chủ đề: Cortana, ibm, Phòng thí nghiệm của IBM, Nhận dạng giọng nói của IBM, microsoft, nghiên cứu microsoft, MSR, nhận dạng giọng nói