Model OpenAI Whisper kini tersedia di layanan Microsoft Azure OpenAI dan layanan Azure AI Speech

2 menit Baca

Ditampilkan di September 18, 2023

Diterbitkan di September 18, 2023

Pembaca membantu dukungan MSpoweruser. Kami mungkin mendapat komisi jika Anda membeli melalui tautan kami.

Kembali pada bulan Juli, Microsoft mengumumkan bahwa model OpenAI Whisper akan segera hadir di Layanan Azure OpenAI. Jumat lalu, Microsoft mengumumkan bahwa model OpenAI Whisper kini tersedia untuk pelanggan yang menggunakan layanan Azure OpenAI dan layanan Azure AI Speech.

Model bisikan OpenAI adalah jaringan saraf yang dapat melakukan tugas pengenalan suara dan terjemahan dalam 57 bahasa. Ini dilatih pada kumpulan data audio dan teks yang besar dan beragam yang dikumpulkan dari web. Ini menggunakan pendekatan end-to-end sederhana berdasarkan arsitektur encoder-decoder Transformer dan dapat menghasilkan transkrip dengan keterbacaan yang lebih baik dan cap waktu tingkat frase.

Perusahaan kini dapat membangun aplikasi berdasarkan model OpenAI Whisper menggunakan dua cara berikut:

Model OpenAI Whisper di layanan Azure OpenAI:

OpenAI sudah menawarkan Whisper API sendiri. Dengan menggunakan Layanan Azure OpenAI baru ini, pengembang dapat menggunakan OpenAI Whisper API yang sama dalam fitur dan fungsionalitas, termasuk kemampuan transkripsi dan terjemahan. REST API model Whisper untuk transkripsi dan terjemahan dapat ditemukan di portal Azure OpenAI Service.

Model Bisikan OpenAI di Azure AI Speech:

Pengguna Azure AI Speech kini dapat menggunakan model Whisper OpenAI baru bersama dengan API transkripsi batch Azure AI Speech yang sudah ada. Pengguna Whisper di Azure AI Speech mendapatkan manfaat dari fitur-fitur yang ada termasuk pemrosesan asinkron, diarisasi speaker, penyesuaian, dan ukuran file yang lebih besar. Temukan detailnya di bawah ini.

Ukuran file besar: Azure AI Speech meningkatkan transkripsi Whisper dengan mengaktifkan file berukuran hingga 1 GB dan kemampuan untuk memproses file dalam jumlah besar dengan memungkinkan Anda mengelompokkan hingga 1000 file dalam satu permintaan.
Stempel waktu: Dengan menggunakan Azure AI Speech, hasil pengenalan mencakup stempel waktu tingkat kata, memberikan kemampuan untuk mengidentifikasi di mana setiap kata diucapkan dalam audio.
Diarisasi pembicara: Ini adalah fitur bermanfaat lainnya dari Azure AI Speech yang mengidentifikasi masing-masing pembicara dalam file audio dan memberi label pada segmen ucapannya. Fitur ini memungkinkan pelanggan membedakan pembicara, mentranskripsikan kata-katanya secara akurat, dan membuat transkripsi file audio yang lebih terorganisir dan terstruktur.
Kustomisasi/Penyempurnaan (segera tersedia): Kemampuan Custom Speech di Azure Speech memungkinkan pelanggan menyempurnakan Whisper pada data mereka sendiri untuk meningkatkan akurasi dan konsistensi pengenalan.

Lebih lanjut tentang topik: Layanan Azure OpenAI, microsoft, BukaAI Whisper

Pradeep Viswav

Pakar Perangkat Lunak dan Layanan

Pradeep adalah Lulusan Ilmu Komputer dan Teknik. Dia juga merupakan Mitra Mahasiswa Microsoft. Saat ini dia bekerja di sebuah perusahaan IT terkemuka.