Microsoft Research đánh bại các đối thủ với điểm chuẩn Nhận dạng giọng nói tốt nhất từ ​​trước đến nay

Biểu tượng thời gian đọc 2 phút đọc


Bạn đọc giúp đỡ ủng hộ MSpoweruser. Chúng tôi có thể nhận được hoa hồng nếu bạn mua thông qua các liên kết của chúng tôi. Biểu tượng chú giải công cụ

Đọc trang tiết lộ của chúng tôi để tìm hiểu cách bạn có thể giúp MSPoweruser duy trì nhóm biên tập Tìm hiểu thêm

làn sóng thoại

Trên blog của Microsoft, Microsoft Research đã thông báo rằng nỗ lực AI của họ đã đạt được một cột mốc mới, đạt được điểm số dẫn đầu ngành là 6.3% Tỷ lệ lỗi từ trong bài kiểm tra nhận dạng giọng nói tiêu chuẩn, nhiệm vụ nhận dạng giọng nói Switchboard.

“Hệ thống đơn lẻ tốt nhất của chúng tôi đạt được tỷ lệ lỗi là 6.9% trên bộ NIST 2000 Switchboard. Chúng tôi tin rằng đây là hiệu suất tốt nhất được báo cáo cho đến nay đối với hệ thống nhận dạng không dựa trên sự kết hợp của hệ thống. Một nhóm các mô hình âm thanh nâng cao trình độ hiện đại lên 6.3% trên dữ liệu thử nghiệm của Switchboard, ”nhà khoa học lưu ý trong một bài báo nghiên cứu.

Mục đích cuối cùng là nhận dạng giọng nói cũng như bất kỳ người nào khác, điều này sẽ làm cho các trợ lý giọng nói như Cortana thậm chí còn hữu ích hơn.

“Đó là một khái niệm đơn giản, nhưng tác động của nó rất mạnh mẽ. Đó là về việc tận dụng sức mạnh của ngôn ngữ con người và áp dụng nó phổ biến hơn vào tất cả các máy tính của chúng ta, ”Nadella cho biết tại một sự kiện đầu năm nay.

Geoffrey Zweig, nhà nghiên cứu chính và quản lý nhóm nghiên cứu Speech & Dialog của Microsoft, đã dẫn đầu nỗ lực nhận dạng giọng nói của Switchboard. Ông cho rằng kết quả nhận dạng giọng nói hàng đầu trong ngành của công ty là do kỹ năng của các nhà nghiên cứu, dẫn đến sự phát triển của các thuật toán đào tạo mới, các mô hình mạng nơron lặp lại và tích lũy được tối ưu hóa cao và sự phát triển của các công cụ như Bộ công cụ mạng tính toán. CNTK thực hiện các tối ưu hóa tinh vi cho phép các thuật toán học sâu chạy một thứ tự cường độ nhanh hơn trước. Một bước tiến quan trọng là một bước đột phá để đào tạo song song về đơn vị xử lý đồ họa hoặc GPU ..

Zweig cho biết: “Nhóm nghiên cứu chúng tôi đã tập hợp mang đến một thế kỷ kinh nghiệm nghiên cứu và phát triển giọng nói công nghiệp để thúc đẩy hiện đại nhất trong công nghệ nhận dạng giọng nói,” Zweig nói.

Xuedong Huang, trưởng nhóm khoa học phát biểu của Microsoft cho biết: “Cột mốc mới này được hưởng lợi từ một loạt các công nghệ mới được phát triển bởi cộng đồng AI từ nhiều tổ chức khác nhau trong 20 năm qua.

Đầu năm nay, các nhà nghiên cứu của Microsoft đã chiến thắng trong thử thách tầm nhìn máy tính ImageNet. Công nghệ này đã xuất hiện trên một số sản phẩm của Microsoft, bao gồm cả ứng dụng HowOldAmI.net.

Thông tin thêm về các chủ đề: nghiên cứu microsoft, nhận dạng giọng nói