Model OpenAI Whisper jest teraz dostępny w usługach Microsoft Azure OpenAI i Azure AI Speech

Ikona czasu czytania 2 minuta. czytać


Czytelnicy pomagają wspierać MSpoweruser. Możemy otrzymać prowizję, jeśli dokonasz zakupu za pośrednictwem naszych linków. Ikona podpowiedzi

Przeczytaj naszą stronę z informacjami, aby dowiedzieć się, jak możesz pomóc MSPoweruser w utrzymaniu zespołu redakcyjnego Czytaj więcej

Usługa Microsoft OpenAI OpenAI Whisper

W lipcu Microsoft ogłosił ten model OpenAI Whisper będzie wkrótce dostępny w usługach Azure OpenAI Services. W ubiegły piątek Microsoft ogłosił, że model OpenAI Whisper jest już dostępny dla klientów korzystających z usługi Azure OpenAI i usługi Azure AI Speech.

Model szeptany OpenAI to sieć neuronowa, która może wykonywać zadania rozpoznawania mowy i tłumaczenia w 57 językach. Jest szkolony na dużym i zróżnicowanym zbiorze danych audio i tekstowych zebranych z Internetu. Wykorzystuje proste, kompleksowe podejście oparte na architekturze kodera-dekodera Transformera i może generować transkrypcje o zwiększonej czytelności i znacznikach czasu na poziomie frazy.

Przedsiębiorstwa mogą teraz budować aplikacje w oparciu o model OpenAI Whisper na dwa sposoby:

Model OpenAI Whisper w usłudze Azure OpenAI:

OpenAI oferuje już własne API Whisper. Korzystając z tej nowej usługi Azure OpenAI, programiści mogą korzystać z tego samego interfejsu API OpenAI Whisper w zakresie funkcji i funkcjonalności, w tym możliwości transkrypcji i tłumaczenia. Interfejsy API REST modelu Whisper do transkrypcji i tłumaczenia można znaleźć w portalu usługi Azure OpenAI Service.

Model OpenAI Whisper w Azure AI Speech:

Użytkownicy usługi Azure AI Speech mogą teraz korzystać z nowego modelu Whisper OpenAI w połączeniu z istniejącym interfejsem API transkrypcji wsadowej usługi Azure AI Speech. Użytkownicy Whisper w Azure AI Speech korzystają z istniejących funkcji, w tym przetwarzania asynchronicznego, diaaryzacji głośników, dostosowywania i większych rozmiarów plików. Znajdź szczegóły poniżej.

  • Duże rozmiary plików: Usługa Azure AI Speech usprawnia transkrypcję szeptów, umożliwiając pliki o rozmiarze do 1 GB i możliwość przetwarzania dużych ilości plików, umożliwiając grupowanie do 1000 plików w jednym żądaniu.
  • Znaczniki czasu: Dzięki usłudze Azure AI Speech wynik rozpoznawania obejmuje sygnatury czasowe na poziomie słowa, co pozwala określić, gdzie w dźwięku wypowiadane jest każde słowo.
  • Diaryzacja głośników: Jest to kolejna korzystna funkcja usługi Azure AI Speech, która identyfikuje poszczególnych mówców w pliku audio i oznacza ich segmenty mowy. Ta funkcja umożliwia klientom rozróżnianie mówców, dokładną transkrypcję ich słów oraz tworzenie bardziej zorganizowanej i uporządkowanej transkrypcji plików audio.
  • Dostosowywanie/dostrajanie (dostępne wkrótce): Funkcja niestandardowej mowy w Azure Speech umożliwia klientom dostrajanie funkcji Whisper na własnych danych w celu poprawy dokładności i spójności rozpoznawania.

Więcej na tematy: Usługa Azure OpenAI, Microsoft, Szept OpenAI

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *