Microsoft Research bije rywali najlepszym w historii wynikiem testu rozpoznawania mowy

Ikona czasu czytania 2 minuta. czytać


Czytelnicy pomagają wspierać MSpoweruser. Możemy otrzymać prowizję, jeśli dokonasz zakupu za pośrednictwem naszych linków. Ikona podpowiedzi

Przeczytaj naszą stronę z informacjami, aby dowiedzieć się, jak możesz pomóc MSPoweruser w utrzymaniu zespołu redakcyjnego Czytaj więcej

fala głosowa

Na blogu firmy Microsoft Microsoft Research ogłosił, że ich wysiłki w zakresie sztucznej inteligencji osiągnęły nowy kamień milowy, osiągając wiodący w branży wynik 6.3% współczynnika błędów słowa w standardowym teście rozpoznawania mowy, zadaniu rozpoznawania mowy Switchboard.

„Nasz najlepszy pojedynczy system osiąga wskaźnik błędów 6.9% w zestawie tablicy rozdzielczej NIST 2000. Uważamy, że jest to najlepsza dotychczas zgłoszona wydajność systemu rozpoznawania, który nie jest oparty na kombinacji systemów. Zespół modeli akustycznych podnosi stan wiedzy do 6.3% w danych testowych tablicy rozdzielczej” – zauważył naukowiec w pracy naukowej.

Ostatecznym celem jest rozpoznawanie mowy, jak również każdej innej osoby, dzięki czemu asystenci głosowi, tacy jak Cortana, będą jeszcze bardziej przydatni.

„To prosta koncepcja, ale ma bardzo silny wpływ. Chodzi o przejęcie mocy ludzkiego języka i zastosowanie go w bardziej wszechobecny sposób we wszystkich naszych komputerach” – powiedział Nadella podczas wydarzenia na początku tego roku.

Geoffrey Zweig, główny badacz i kierownik grupy badawczej Microsoft Speech & Dialog, kierował pracami nad rozpoznawaniem mowy w Switchboard. Wiodące w branży wyniki firmy w zakresie rozpoznawania mowy przypisuje umiejętnościom jej badaczy, które doprowadziły do ​​opracowania nowych algorytmów szkoleniowych, wysoce zoptymalizowanych splotowych i powtarzalnych modeli sieci neuronowych oraz opracowania narzędzi, takich jak Computational Network Toolkit. CNTK wdraża zaawansowane optymalizacje, które umożliwiają algorytmom głębokiego uczenia działanie o rząd wielkości szybciej niż wcześniej. Kluczowym krokiem naprzód był przełom w szkoleniu równoległym na procesorach graficznych lub GPU.

„Zgromadzony przez nas zespół badawczy wnosi stuletnie doświadczenie w zakresie badań i rozwoju mowy w przemyśle, aby wprowadzić najnowocześniejsze technologie rozpoznawania mowy”, powiedział Zweig.

„Ten nowy kamień milowy skorzystał z szerokiej gamy nowych technologii opracowanych przez społeczność AI w wielu różnych organizacjach w ciągu ostatnich 20 lat” — powiedział Xuedong Huang, główny badacz mowy w Microsoft.

Na początku tego roku badacze Microsoft wygrali wyzwanie ImageNet dotyczące wizji komputerowej. Technologia ta znalazła swoje miejsce w wielu produktach firmy Microsoft, w tym w wirusowej aplikacji HowOldAmI.net.

Więcej na tematy: badania Microsoft, rozpoznawanie mowy

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *