Modelul OpenAI Whisper acum disponibil în serviciul Microsoft Azure OpenAI și serviciul Azure AI Speech

2 min. citit

Publicat în data de 18 Septembrie, 2023

publicat pe 18 Septembrie, 2023

Cititorii ajută la sprijinirea MSpoweruser. Este posibil să primim un comision dacă cumpărați prin link-urile noastre.

Serviciul Microsoft OpenAI OpenAI Whisper

În iulie, Microsoft a anunțat acel model OpenAI Whisper va veni în curând la Azure OpenAI Services. Vinerea trecută, Microsoft a anunțat că modelul OpenAI Whisper este acum disponibil pentru clienții care folosesc serviciul Azure OpenAI și serviciul Azure AI Speech.

Modelul de șoaptă OpenAI este o rețea neuronală care poate efectua sarcini de recunoaștere a vorbirii și traducere în 57 de limbi. Este antrenat pe un set mare și divers de date audio și text colectate de pe web. Utilizează o abordare simplă de la capăt la capăt, bazată pe arhitectura codificatorului-decodor Transformer și poate produce transcrieri cu lizibilitate îmbunătățită și marcaje temporale la nivel de frază.

Întreprinderile pot acum să construiască aplicații bazate pe modelul OpenAI Whisper folosind următoarele două moduri:

Modelul OpenAI Whisper în serviciul Azure OpenAI:

OpenAI oferă deja API-ul Whisper pe cont propriu. Folosind acest nou Serviciu Azure OpenAI, dezvoltatorii pot folosi același API OpenAI Whisper în funcții și funcționalități, inclusiv capabilități de transcriere și traducere. API-urile REST ale modelului Whisper pentru transcriere și traducere pot fi găsite în portalul Azure OpenAI Service.

Modelul OpenAI Whisper în Azure AI Speech:

Utilizatorii Azure AI Speech pot folosi acum noul model Whisper al OpenAI împreună cu API-ul de transcriere în lot Azure AI Speech. Utilizatorii Whisper în Azure AI Speech beneficiază de funcțiile existente, inclusiv procesarea asincronă, diarizarea difuzoarelor, personalizarea și dimensiuni mai mari ale fișierelor. Găsiți detaliile mai jos.

Dimensiuni mari de fișiere: Azure AI Speech îmbunătățește transcripția Whisper, permițând fișiere de până la 1 GB și capacitatea de a procesa cantități mari de fișiere, permițându-vă să grupați până la 1000 de fișiere într-o singură solicitare.
Timbre: Folosind Azure AI Speech, rezultatul recunoașterii include marcaje temporale la nivel de cuvânt, oferind capacitatea de a identifica unde în audio este rostit fiecare cuvânt.
Diarizarea vorbitorului: Aceasta este o altă caracteristică benefică a Azure AI Speech, care identifică difuzoarele individuale într-un fișier audio și etichetează segmentele de vorbire ale acestora. Această caracteristică permite clienților să distingă între difuzoare, să-și transcrie cu acuratețe cuvintele și să creeze o transcriere mai organizată și mai structurată a fișierelor audio.
Personalizare/Ajustare fină (disponibilă în curând): Capacitatea de vorbire personalizată din Azure Speech permite clienților să ajusteze Whisper pe propriile date pentru a îmbunătăți acuratețea și consistența recunoașterii.

Mai multe despre subiecte: Serviciul Azure OpenAI, microsoft, OpenAI Whisper

Pradeep Viswav

Expert în software și servicii

Pradeep este absolvent de informatică și inginerie. A fost, de asemenea, partener student Microsoft. În prezent lucrează într-o companie lider în IT.