Microsoft、テキスト読み上げアバターを含む Azure AI のいくつかの新機能を発表
3分。 読んだ
上で公開
MSPoweruser の編集チームの維持にどのように貢献できるかについては、開示ページをお読みください。 続きを読む
Azure AI サービスを使用すると、開発者は、すぐに使用できる事前構築済みのカスタマイズ可能な API とモデルを使用して AI アプリケーションを作成できます。 Azure AI サービスには、ビジョン サービス、音声サービス、翻訳サービスなどが含まれます。 Microsoft は本日、Ignite 2023 で、テキスト読み上げアバター、パーソナル ニューラル音声、新しく改良された機械翻訳モードなどを含む、Azure AI のいくつかの新機能を発表しました。 詳細は以下をご覧ください。
- 新しい タスクの最適化 要約能力 Azure AI Language では、大規模な言語モデル (GPT-3.5-Turbo、GPT-4、Z-Code++ など) を利用しています。
- 新しい 機械翻訳モデル 英語の翻訳を仲介せずに、ある言語から別の言語に翻訳できます。 さらに、顧客データを使用してカスタマイズして、業界のコンテキストに合わせて翻訳を調整することもできます。
- 名前付きエンティティの認識、コンテナーでのドキュメントの翻訳と要約により、厳格なデータ常駐要件を持つ金融サービスや医療などの政府機関や業界が、独自のインフラストラクチャで AI サービスを実行できるようになります。
- 個人の声は、企業がユーザー向けに 60 秒のオーディオ サンプルを含むカスタム ニューラル音声を作成できるようにする新しいカスタム ニューラル音声機能です。 個人的な声は アクセス制限機能.
- テキスト読み上げアバターは、実際に話している人の入力テキストとビデオ データに基づいて、話している人のリアルなファクシミリを生成する新しいテキスト読み上げ機能です。 事前構築済みアバターとカスタム アバターの両方が現在プレビュー段階にありますが、カスタム アバターはアクセスが制限された機能です。
Azure AI Vision サービスには次の更新が加えられています。
- ライブネス機能 および ビジョンSDK: Liveness 機能は、顔認識スプーフィング攻撃の防止に役立ち、ISO 30107-3 PAD レベル 2 に準拠しています。Vision SDK for Face を使用すると、開発者は顔認識と Liveness をモバイル アプリケーションに簡単に追加できます。 どちらの機能もプレビュー段階にあります。
- 画像解析 4.0: この API は、画像キャプション、OCR、オブジェクト検出などを含む最先端の画像分析モデルを導入しており、すべて単一の同期 API エンドポイントを通じてアクセスできます。 特に、強化された OCR モデルでは、画像内の入力テキストと手書きテキストの両方の精度が向上しています。 画像解析 4.0 一般的に利用可能です。
- フィレンツェ財団モデル: 数十億のテキストと画像のペアを使用してトレーニングされ、費用対効果が高く、運用環境にすぐに対応できるコンピューター ビジョン サービスとして Azure AI Vision に統合されたこの機能の改善により、開発者は、さまざまな業界にわたって、市場で使用できる最先端の責任あるコンピューター ビジョン アプリケーションを作成できるようになります。 フィレンツェ財団モデル 一般的に利用可能です。
最後に、Azure AI Services の新しい更新により、ビデオから洞察を抽出するプロセスがこれまでより簡単になります。 Azure AI を使用して、ビデオ コンテンツのテキスト概要を取得できるようになりました。 また、今すぐ検索することもできます 自然言語を使用した広範なビデオ内の特定のトピック、瞬間、または詳細。 詳細は以下をご覧ください。
- ビデオからテキストへの要約: ユーザーはビデオコンテンツの本質を抽出し、簡潔で有益なテキストの要約を生成できるようになります。 高度なアルゴリズムはビデオを一貫したチャプターに分割し、視覚、音声、テキストの手がかりを活用して、ラージ言語モデル (LLM) プロンプト ウィンドウに簡単に収まるセクションを作成します。 各セクションには、トランスクリプト、音声イベント、視覚要素などの重要なコンテンツが含まれています。 これは、ビデオの要約、トレーニング資料、または知識の共有の作成に最適です。
- 効率的なビデオコンテンツ検索: ユーザーは、LLM と Video Indexer の洞察を使用して、ビデオ コンテンツを検索可能な形式に変換できるようになります。 ビデオの洞察を LLM フレンドリーなプロンプトに変換することで、主要なハイライトにアクセスして効果的な検索を行うことができます。 シーンのセグメンテーション、オーディオ イベント、視覚的な詳細によりコンテンツの分割がさらに強化され、ユーザーは広範なビデオ内で特定のトピック、瞬間、または詳細を迅速に見つけることができます。