Microsoft Research побеждает конкурентов с лучшим результатом в тесте распознавания речи

Значок времени чтения 2 минута. читать


Читатели помогают поддержать MSpoweruser. Мы можем получить комиссию, если вы совершите покупку по нашим ссылкам. Значок подсказки

Прочтите нашу страницу раскрытия информации, чтобы узнать, как вы можете помочь MSPoweruser поддержать редакционную команду. Читать далее

голосовая волна

В блоге Microsoft Microsoft Research объявила, что их усилия в области искусственного интеллекта достигли новой вехи, достигнув ведущего в отрасли показателя коэффициента ошибок в словах 6.3% в стандартном тесте распознавания речи, задаче распознавания речи Switchboard.

«Наша лучшая одиночная система обеспечивает уровень ошибок 6.9% на наборе коммутаторов NIST 2000. Мы считаем, что на сегодняшний день это лучшая производительность для системы распознавания, не основанной на комбинации систем. Ансамбль акустических моделей повышает уровень техники до 6.3% по данным испытаний Switchboard», — отметил ученый. в исследовательской статье.

Конечная цель — распознавать речь так же хорошо, как любого другого человека, что сделало бы голосовые помощники, такие как Cortana, еще более полезными.

«Это простая концепция, но очень мощная по своему воздействию. Речь идет о том, чтобы использовать возможности человеческого языка и более широко применять их во всех наших вычислениях», — сказал Наделла на мероприятии в начале этого года.

Джеффри Цвейг, главный исследователь и менеджер исследовательской группы Microsoft Speech & Dialog, руководил работой по распознаванию речи Switchboard. Он связывает лучшие в отрасли результаты распознавания речи с навыками ее исследователей, которые привели к разработке новых алгоритмов обучения, высокооптимизированных моделей сверточных и рекуррентных нейронных сетей, а также к разработке таких инструментов, как Computational Network Toolkit. CNTK реализует сложные оптимизации, которые позволяют алгоритмам глубокого обучения работать на порядок быстрее, чем раньше. Ключевым шагом вперед стал прорыв в параллельном обучении на графических процессорах или графических процессорах.

«Собранная нами исследовательская группа применила столетний опыт исследований и разработок в области промышленной речи, чтобы вывести на новый уровень технологии распознавания речи», — сказал Цвейг.

«Этому новому рубежу способствовал широкий спектр новых технологий, разработанных сообществом ИИ из разных организаций за последние 20 лет, — сказал Сюэдун Хуанг, главный специалист Microsoft по речи.

Ранее в этом году исследователи Microsoft выиграли конкурс компьютерного зрения ImageNet. Эта технология нашла свое применение в ряде продуктов Microsoft, включая вирусное приложение HowOldAmI.net.

Подробнее о темах: исследование Microsoft, распознавание речи