Công nghệ nhận dạng giọng nói của Microsoft giờ đây chính xác hơn bao giờ hết
2 phút đọc
Được đăng trên
Đọc trang tiết lộ của chúng tôi để tìm hiểu cách bạn có thể giúp MSPoweruser duy trì nhóm biên tập Tìm hiểu thêm
Công nghệ nhận dạng giọng nói của Microsoft vừa đạt được độ chính xác ở mức độ con người. Nhóm nghiên cứu của công ty đã thông báo rằng hệ thống nhận dạng giọng nói của họ hiện có Tỷ lệ lỗi từ (WER) chỉ là 5.1%. Con số này giảm so với WER trước đó của hệ thống là 5.9%. Redmond đã liên tục cải tiến hệ thống nhận dạng giọng nói của mình trong năm và đã có thể giảm tỷ lệ này xuống 5.1% so với 6.3% WER nó đạt được hồi tháng XNUMX của năm ngoái. Công ty đã có thể giảm tỷ lệ lỗi của mình xuống 12% so với năm ngoái.
Các báo cáo trước đây đã chỉ ra rằng tỷ lệ lỗi từ ngữ của con người là hiện ở mức 5,1%, có nghĩa là hệ thống nhận dạng giọng nói của Microsoft hiệu quả cũng chính xác như con người. Đó là một thành tựu khá lớn về phía Microsoft, vì họ đã cố gắng đạt được sự ngang bằng của con người trong 25 năm qua.
Redmond đã trình bày chi tiết cách nó đạt được tỷ lệ lỗi thấp hơn bằng cách sử dụng sự kết hợp của mạng nơ-ron phức hợp và bộ nhớ ngắn hạn hai chiều trên một tường trình kỹ thuật. Các kỹ sư tại Microsoft cũng đang làm việc để cải thiện các mô hình âm thanh và ngôn ngữ dựa trên mạng nơ-ron, góp phần cải thiện tỷ lệ lỗi từ. Công ty cũng tuyên bố việc đầu tư vào kinh doanh đám mây đã cho phép quá trình đào tạo nhanh hơn cho các mô hình âm thanh và ngôn ngữ của mình.
Công nghệ nhận dạng giọng nói của Microsoft được sử dụng trên Windows, Cortana, Office, Dịch vụ nhận thức và độ chính xác được cải thiện có thể sẽ mang lại lợi ích cho hầu hết tất cả khách hàng của họ trong những tháng tới.