Model OpenAI Whisper jest teraz dostępny w usługach Microsoft Azure OpenAI i Azure AI Speech

Ikona czasu czytania 2 minuta. czytać

Ikona kalendarza Opublikowany 18 września 2023 r.

opublikowane w dniu 18 września 2023 r.

Czytelnicy pomagają wspierać MSpoweruser. Możemy otrzymać prowizję, jeśli dokonasz zakupu za pośrednictwem naszych linków.

W lipcu Microsoft ogłosił ten model OpenAI Whisper będzie wkrótce dostępny w usługach Azure OpenAI Services. W ubiegły piątek Microsoft ogłosił, że model OpenAI Whisper jest już dostępny dla klientów korzystających z usługi Azure OpenAI i usługi Azure AI Speech.

Model szeptany OpenAI to sieć neuronowa, która może wykonywać zadania rozpoznawania mowy i tłumaczenia w 57 językach. Jest szkolony na dużym i zróżnicowanym zbiorze danych audio i tekstowych zebranych z Internetu. Wykorzystuje proste, kompleksowe podejście oparte na architekturze kodera-dekodera Transformera i może generować transkrypcje o zwiększonej czytelności i znacznikach czasu na poziomie frazy.

Przedsiębiorstwa mogą teraz budować aplikacje w oparciu o model OpenAI Whisper na dwa sposoby:

Model OpenAI Whisper w usłudze Azure OpenAI:

OpenAI oferuje już własne API Whisper. Korzystając z tej nowej usługi Azure OpenAI, programiści mogą korzystać z tego samego interfejsu API OpenAI Whisper w zakresie funkcji i funkcjonalności, w tym możliwości transkrypcji i tłumaczenia. Interfejsy API REST modelu Whisper do transkrypcji i tłumaczenia można znaleźć w portalu usługi Azure OpenAI Service.

Model OpenAI Whisper w Azure AI Speech:

Użytkownicy usługi Azure AI Speech mogą teraz korzystać z nowego modelu Whisper OpenAI w połączeniu z istniejącym interfejsem API transkrypcji wsadowej usługi Azure AI Speech. Użytkownicy Whisper w Azure AI Speech korzystają z istniejących funkcji, w tym przetwarzania asynchronicznego, diaaryzacji głośników, dostosowywania i większych rozmiarów plików. Znajdź szczegóły poniżej.

Duże rozmiary plików: Usługa Azure AI Speech usprawnia transkrypcję szeptów, umożliwiając pliki o rozmiarze do 1 GB i możliwość przetwarzania dużych ilości plików, umożliwiając grupowanie do 1000 plików w jednym żądaniu.
Znaczniki czasu: Dzięki usłudze Azure AI Speech wynik rozpoznawania obejmuje sygnatury czasowe na poziomie słowa, co pozwala określić, gdzie w dźwięku wypowiadane jest każde słowo.
Diaryzacja głośników: Jest to kolejna korzystna funkcja usługi Azure AI Speech, która identyfikuje poszczególnych mówców w pliku audio i oznacza ich segmenty mowy. Ta funkcja umożliwia klientom rozróżnianie mówców, dokładną transkrypcję ich słów oraz tworzenie bardziej zorganizowanej i uporządkowanej transkrypcji plików audio.
Dostosowywanie/dostrajanie (dostępne wkrótce): Funkcja niestandardowej mowy w Azure Speech umożliwia klientom dostrajanie funkcji Whisper na własnych danych w celu poprawy dokładności i spójności rozpoznawania.

Więcej na tematy: Usługa Azure OpenAI, Microsoft, Szept OpenAI

Pradeepa Viswava

Ekspert ds. oprogramowania i usług

Pradeep jest absolwentem informatyki i inżynierii. Był także partnerem studenckim firmy Microsoft. Obecnie pracuje w wiodącej firmie informatycznej.

Dodaj komentarz