Microsoft Research เอาชนะคู่แข่งด้วยคะแนนเกณฑ์มาตรฐานการรู้จำเสียงที่ดีที่สุดเท่าที่เคยมีมา

ไอคอนเวลาอ่านหนังสือ 2 นาที. อ่าน


ผู้อ่านช่วยสนับสนุน MSpoweruser เราอาจได้รับค่าคอมมิชชันหากคุณซื้อผ่านลิงก์ของเรา ไอคอนคำแนะนำเครื่องมือ

อ่านหน้าการเปิดเผยข้อมูลของเราเพื่อดูว่าคุณจะช่วย MSPoweruser รักษาทีมบรรณาธิการได้อย่างไร อ่านเพิ่มเติม

คลื่นเสียง

ในบล็อกของ Microsoft Microsoft Research ได้ประกาศว่าความพยายามของ AI ของพวกเขาได้บรรลุหลักชัยสำคัญ โดยได้คะแนนระดับแนวหน้าของอุตสาหกรรมที่ 6.3% Word Error Rate ในการทดสอบการรู้จำคำพูดที่เป็นมาตรฐาน นั่นคืองานการรู้จำคำพูดของ Switchboard

“ระบบเดียวที่ดีที่สุดของเรามีอัตราข้อผิดพลาด 6.9% ในชุดสวิตช์บอร์ด NIST 2000 เราเชื่อว่านี่เป็นประสิทธิภาพที่ดีที่สุดสำหรับระบบการรู้จำที่ไม่อิงตามการรวมกันของระบบ แบบจำลองอะคูสติกทั้งมวลช่วยพัฒนาความล้ำสมัยให้ถึง 6.3% จากข้อมูลการทดสอบสวิตช์บอร์ด” นักวิทยาศาสตร์ตั้งข้อสังเกต ในงานวิจัย.

เป้าหมายสูงสุดคือการจดจำคำพูดเช่นเดียวกับบุคคลอื่น ซึ่งจะทำให้ผู้ช่วยเสียงเช่น Cortana มีประโยชน์มากยิ่งขึ้น

“มันเป็นแนวคิดที่เรียบง่าย แต่ก็มีประสิทธิภาพมากในผลกระทบ มันเป็นเรื่องของการนำพลังของภาษามนุษย์มาใช้กับคอมพิวเตอร์ของเราอย่างแพร่หลายมากขึ้น” นาเดลลากล่าวในงานเมื่อต้นปีนี้

Geoffrey Zweig นักวิจัยหลักและผู้จัดการกลุ่มวิจัย Speech & Dialog ของ Microsoft เป็นผู้นำความพยายามในการรู้จำคำพูดของ Switchboard เขาให้เหตุผลว่าผลการรู้จำคำพูดระดับชั้นนำของอุตสาหกรรมของบริษัทนั้นมาจากทักษะของนักวิจัย ซึ่งนำไปสู่การพัฒนาอัลกอริธึมการฝึกอบรมใหม่ โมเดลโครงข่ายประสาทแบบ Convolutional และ Recurrent ที่ปรับให้เหมาะสมที่สุด และการพัฒนาเครื่องมืออย่าง Computational Network Toolkit CNTK ใช้การเพิ่มประสิทธิภาพที่ซับซ้อนซึ่งช่วยให้อัลกอริทึมการเรียนรู้เชิงลึกสามารถเรียกใช้ลำดับความสำคัญได้เร็วกว่าเมื่อก่อน ก้าวสำคัญที่ก้าวไปข้างหน้าคือการพัฒนาการฝึกอบรมแบบคู่ขนานในหน่วยประมวลผลกราฟิกหรือ GPU

Zweig กล่าวว่า "ทีมวิจัยที่เรารวบรวมได้นำประสบการณ์การวิจัยและพัฒนาด้านการพูดในอุตสาหกรรมมายาวนานนับศตวรรษเพื่อผลักดันเทคโนโลยีการรู้จำเสียงที่ทันสมัย"

Xuedong Huang หัวหน้านักวิทยาศาสตร์ด้านสุนทรพจน์ของ Microsoft กล่าวว่า "ความสำเร็จครั้งใหม่นี้ได้รับประโยชน์จากเทคโนโลยีใหม่ๆ ที่พัฒนาโดยชุมชน AI จากองค์กรต่างๆ มากมายในช่วง 20 ปีที่ผ่านมา

เมื่อต้นปีนี้ นักวิจัยของ Microsoft ชนะการประกวด ImageNet Computer Vision เทคโนโลยีนี้มีอยู่จริงในผลิตภัณฑ์ต่างๆ ของ Microsoft รวมถึงแอป HowOldAmI.net ที่เป็นไวรัล

ข้อมูลเพิ่มเติมเกี่ยวกับหัวข้อต่างๆ: การวิจัยของไมโครซอฟต์, การรู้จำเสียง