Microsoft、テキスト読み上げアバターを含む Azure AI のいくつかの新機能を発表

読書時間アイコン 3分。読んだ

カレンダーアイコン上で公開 2023 年 11 月 15 日

上の公表 2023 年 11 月 15 日

読者は MSpoweruser のサポートを支援します。私たちのリンクを通じて購入すると、手数料が発生する場合があります。

Azure AI サービスを使用すると、開発者は、すぐに使用できる事前構築済みのカスタマイズ可能な API とモデルを使用して AI アプリケーションを作成できます。 Azure AI サービスには、ビジョンサービス、音声サービス、翻訳サービスなどが含まれます。 Microsoft は本日、Ignite 2023 で、テキスト読み上げアバター、パーソナルニューラル音声、新しく改良された機械翻訳モードなどを含む、Azure AI のいくつかの新機能を発表しました。詳細は以下をご覧ください。

新しい タスクの最適化要約能力 Azure AI Language では、大規模な言語モデル (GPT-3.5-Turbo、GPT-4、Z-Code++ など) を利用しています。
新しい 機械翻訳モデル 英語の翻訳を仲介せずに、ある言語から別の言語に翻訳できます。さらに、顧客データを使用してカスタマイズして、業界のコンテキストに合わせて翻訳を調整することもできます。
名前付きエンティティの認識、コンテナーでのドキュメントの翻訳と要約により、厳格なデータ常駐要件を持つ金融サービスや医療などの政府機関や業界が、独自のインフラストラクチャで AI サービスを実行できるようになります。
個人の声は、企業がユーザー向けに 60 秒のオーディオサンプルを含むカスタムニューラル音声を作成できるようにする新しいカスタムニューラル音声機能です。個人的な声はアクセス制限機能.
テキスト読み上げアバターは、実際に話している人の入力テキストとビデオデータに基づいて、話している人のリアルなファクシミリを生成する新しいテキスト読み上げ機能です。事前構築済みアバターとカスタムアバターの両方が現在プレビュー段階にありますが、カスタムアバターはアクセスが制限された機能です。

Azure AI Vision サービスには次の更新が加えられています。

ライブネス機能 および ビジョンSDK: Liveness 機能は、顔認識スプーフィング攻撃の防止に役立ち、ISO 30107-3 PAD レベル 2 に準拠しています。Vision SDK for Face を使用すると、開発者は顔認識と Liveness をモバイルアプリケーションに簡単に追加できます。どちらの機能もプレビュー段階にあります。
画像解析 4.0: この API は、画像キャプション、OCR、オブジェクト検出などを含む最先端の画像分析モデルを導入しており、すべて単一の同期 API エンドポイントを通じてアクセスできます。特に、強化された OCR モデルでは、画像内の入力テキストと手書きテキストの両方の精度が向上しています。画像解析 4.0 一般的に利用可能です。
フィレンツェ財団モデル: 数十億のテキストと画像のペアを使用してトレーニングされ、費用対効果が高く、運用環境にすぐに対応できるコンピュータービジョンサービスとして Azure AI Vision に統合されたこの機能の改善により、開発者は、さまざまな業界にわたって、市場で使用できる最先端の責任あるコンピュータービジョンアプリケーションを作成できるようになります。フィレンツェ財団モデル一般的に利用可能です。

最後に、Azure AI Services の新しい更新により、ビデオから洞察を抽出するプロセスがこれまでより簡単になります。 Azure AI を使用して、ビデオコンテンツのテキスト概要を取得できるようになりました。また、今すぐ検索することもできます自然言語を使用した広範なビデオ内の特定のトピック、瞬間、または詳細。詳細は以下をご覧ください。

ビデオからテキストへの要約: ユーザーはビデオコンテンツの本質を抽出し、簡潔で有益なテキストの要約を生成できるようになります。高度なアルゴリズムはビデオを一貫したチャプターに分割し、視覚、音声、テキストの手がかりを活用して、ラージ言語モデル (LLM) プロンプトウィンドウに簡単に収まるセクションを作成します。各セクションには、トランスクリプト、音声イベント、視覚要素などの重要なコンテンツが含まれています。これは、ビデオの要約、トレーニング資料、または知識の共有の作成に最適です。
効率的なビデオコンテンツ検索: ユーザーは、LLM と Video Indexer の洞察を使用して、ビデオコンテンツを検索可能な形式に変換できるようになります。ビデオの洞察を LLM フレンドリーなプロンプトに変換することで、主要なハイライトにアクセスして効果的な検索を行うことができます。シーンのセグメンテーション、オーディオイベント、視覚的な詳細によりコンテンツの分割がさらに強化され、ユーザーは広範なビデオ内で特定のトピック、瞬間、または詳細を迅速に見つけることができます。

トピックの詳細: アズール AI, マイクロソフト, テキスト読み上げアバター

プラディープ・ヴィスワフ

ソフトウェアおよびサービスの専門家

Pradeep はコンピュータサイエンスとエンジニアリングの卒業生です。彼はマイクロソフトの学生パートナーでもありました。現在は大手IT企業に勤務。

コメントを残す