OpenAI Whisper モデルが Microsoft の Azure OpenAI サービスと Azure AI Speech サービスで利用可能になりました

読書時間アイコン 2分。 読んだ


読者は MSpoweruser のサポートを支援します。私たちのリンクを通じて購入すると、手数料が発生する場合があります。 ツールチップアイコン

MSPoweruser の編集チームの維持にどのように貢献できるかについては、開示ページをお読みください。 続きを読む

Microsoft OpenAI サービス OpenAI Whisper

XNUMX月に戻って、マイクロソフト 発表の その OpenAI Whisper モデルは、間もなく Azure OpenAI Services に導入される予定です。 先週の金曜日、Microsoft は、Azure OpenAI サービスと Azure AI Speech サービスを使用している顧客が OpenAI Whisper モデルを利用できるようになったと発表しました。

OpenAI ウィスパー モデルは、57 の言語で音声認識および翻訳タスクを実行できるニューラル ネットワークです。 これは、Web から収集された音声とテキストの大規模で多様なデータセットでトレーニングされます。 Transformer のエンコーダ/デコーダ アーキテクチャに基づくシンプルなエンドツーエンドのアプローチを使用し、読みやすさとフレーズレベルのタイムスタンプが強化されたトランスクリプトを生成できます。

企業は、次の XNUMX つの方法を使用して、OpenAI Whisper モデルに基づいたアプリケーションを構築できるようになりました。

Azure OpenAI サービスの OpenAI Whisper モデル:

OpenAI はすでに独自の Whisper API を提供しています。 この新しい Azure OpenAI サービスを使用すると、開発者は文字起こしや翻訳機能などの機能で同じ OpenAI Whisper API を使用できます。 Whisper モデルの文字起こしと翻訳用の REST API は、Azure OpenAI Service ポータルにあります。

Azure AI Speech の OpenAI Whisper モデル:

Azure AI Speech のユーザーは、新しい OpenAI の Whisper モデルを既存の Azure AI Speech バッチ文字起こし API と組み合わせて使用​​できるようになりました。 Azure AI Speech の Whisper のユーザーは、非同期処理、話者ダイアライゼーション、カスタマイズ、ファイル サイズの拡大などの既存の機能を利用できます。 詳細は以下をご覧ください。

  • 大きなファイルサイズ: Azure AI Speech は、最大 1 GB のファイルを有効にし、1000 回の要求で最大 XNUMX 個のファイルをバッチ処理できるようにすることで、Whisper の文字起こしを強化します。
  • タイムスタンプ: Azure AI Speech を使用すると、認識結果に単語レベルのタイムスタンプが含まれるため、音声のどこで各単語が話されているかを識別できるようになります。
  • 話者のダイアライゼーション: これは、音声ファイル内の個々の話者を識別し、その音声セグメントにラベルを付ける、Azure AI Speech のもう XNUMX つの有益な機能です。 この機能により、顧客は話者を区別し、その言葉を正確に書き起こし、より組織的かつ構造化された音声ファイルの書き起こしを作成できるようになります。
  • カスタマイズ/微調整 (近日提供予定): Azure Speech の Custom Speech 機能を使用すると、お客様は独自のデータに基づいて Whisper を微調整して、認識の精度と一貫性を向上させることができます。

トピックの詳細: AzureOpenAIサービス, マイクロソフト, OpenAIウィスパー