Gemini 1.5 Pro には「Native Audio Understanding」が搭載され、講義をクイズに変換できるようになりました

現在 180 か国以上でアクセス可能です。

読書時間アイコン 2分。 読んだ


読者は MSpoweruser のサポートを支援します。私たちのリンクを通じて購入すると、手数料が発生する場合があります。 ツールチップアイコン

MSPoweruser の編集チームの維持にどのように貢献できるかについては、開示ページをお読みください。 続きを読む

キーノート

  • Google AI により、1.5 か国以上で強力な言語モデル Gemini 180 Pro へのアクセスが可能になります。
  • Gemini 1.5 Pro は、オーディオを直接理解して処理する機能を獲得しました。
  • 開発者は、システム命令と JSON モードを使用してモデルの動作をより詳細に制御できます。

Google AI は、LLM のメジャー アップデートである Gemini 1.5 Pro をリリースしました。発表の最初の重要な部分は、以前は限られたグループのみに提供されていた Gemini 1.5 Pro が、Google AI Studio のパブリック プレビューを通じて 180 か国以上でアクセスできるようになったということです。 

このツールには 1 万のコンテキスト ウィンドウがあり、開発者はこれを使用して膨大な量の情報を分析して優れた理解を得ることができます。これらすべてはその後に来る Google、Duet AI for Devs を Gemini Code Assist としてブランド変更.

もう 1.5 つのエキサイティングな追加機能 (少なくとも私にとって) は、Gemini XNUMX Pro のネイティブ オーディオ理解機能です。この「史上初」の機能により、モデルは話し言葉を直接処理できるようになります。開発者は講義や会議などの音声ファイルをアップロードでき、Gemini は貴重な洞察を抽出します。

Jeff Dean による 117,000 以上のトークンの講義など、講義の録音をアップロードすると、Gemini 1.5 Pro でそれを解答キー付きのクイズに変えることができます。

このアップデートにより、開発者はより優れた制御と機能を利用できるようになります。 「システム命令」を使用すると、ユーザーはモデルの特定の役割、形式、目標を定義し、その応答をユーザー固有のニーズに変えることができます。また、「JSON モード」ではテキストや画像から構造化データを抽出できるため、整理された情報が必要なタスクに最適です。

JSON オブジェクトのみを出力するようにモデルに指示します。このモードでは、テキストまたは画像から構造化データを抽出できます。 cURL から始めることができ、Python SDK のサポートも間もなく開始されます。

Google AI は、Gemini 1.5 Pro と並行して、次世代のテキスト埋め込みモデルもリリースしました。このモデルは、同クラスの既存のオプションを上回る優れた検索パフォーマンスを提供します。

Googleも開発中だと言われています Axion と名付けられた新しい自社設計 CPU チップ Tensor チップの作成に成功した後。

その他 (茶事の話はこちらをチェック).

ユーザーフォーラム

0メッセージ