IBM در دقت تشخیص گفتار مایکروسافت را شکست داد
2 دقیقه خواندن
منتشر شده در
صفحه افشای ما را بخوانید تا بدانید چگونه می توانید به MSPoweruser کمک کنید تا تیم تحریریه را حفظ کند ادامه مطلب
سال گذشته، مایکروسافت پیشرفت بسیار چشمگیری در زمینه تشخیص گفتار داشت. این شرکت مدعی شد که فناوری تشخیص گفتارش رسیده است «برابری انسانی» تنها با 5.9 درصد WER (نرخ خطای کلمه). و اکنون، IBM با فناوری تشخیص گفتار خود به WER حتی کمتری دست یافته است. این شرکت ادعا می کند که به نرخ خطای کلمه 5.5% دست یافته است و رکورد 5.9% مایکروسافت را 0.4% شکسته است.
مایکروسافت قبلا رکورد 6.9% WER IBM را شکست با دستیابی به نرخ خطای 6.3 درصدی در سپتامبر 2016. بنابراین احتمالاً زمان زیادی طول نخواهد کشید تا مایکروسافت به IBM پاسخ دهد.
نکته جالب این است که IBM ادعا می کند که این شرکت هنوز به برابری انسانی دست پیدا نکرده است. برخلاف مایکروسافت، IBM ادعا می کند که برابری انسانی در WER 5.1٪ است - که هنوز با هیچ فناوری تشخیص گفتار محقق نشده است. جورج ساون، دانشمند تحقیقاتی اصلی IBM گفت:
"دستیابی به برابری انسانی - به معنای نرخ خطای همتراز با صحبت دو انسان - هدف نهایی صنعت برای مدت طولانی بوده است. سایرین در صنعت در کنار ما به دنبال این نقطه عطف هستند، و برخی اخیراً ادعا کرده اند که به 5.9 درصد معادل برابری انسانی رسیده اند... اما ما هنوز شامپاین را تولید نکرده ایم. به عنوان بخشی از فرآیند ما در رسیدن به نقطه عطف امروز، ما تشخیص دادیم که برابری انسانی در واقع کمتر از آنچه که تاکنون به دست آورده است - در 5.1 درصد است.
IBM در یک پست وبلاگی اعلام کرد که این شرکت توانسته است با ترکیب مدلهای زبان LSTM (حافظه کوتاه مدت بلندمدت) و WaveNet به نرخ خطای کمتری نسبت به مایکروسافت دست یابد.