Gemini 1.5 Pro には「Native Audio Understanding」が搭載され、講義をクイズに変換できるようになりました

現在 180 か国以上でアクセス可能です。

ホーム » ニュース

読書時間アイコン 2分。読んだ

カレンダーアイコン上で公開 2024 年 4 月 9 日

by デベシュ・ベリ

上の公表 2024 年 4 月 9 日

この記事を共有する

このガイドを改善する

読者は MSpoweruser のサポートを支援します。私たちのリンクを通じて購入すると、手数料が発生する場合があります。

キーノート

Google AI により、1.5 か国以上で強力な言語モデル Gemini 180 Pro へのアクセスが可能になります。
Gemini 1.5 Pro は、オーディオを直接理解して処理する機能を獲得しました。
開発者は、システム命令と JSON モードを使用してモデルの動作をより詳細に制御できます。

Google AI は、LLM のメジャーアップデートである Gemini 1.5 Pro をリリースしました。発表の最初の重要な部分は、以前は限られたグループのみに提供されていた Gemini 1.5 Pro が、Google AI Studio のパブリックプレビューを通じて 180 か国以上でアクセスできるようになったということです。

このツールには 1 万のコンテキストウィンドウがあり、開発者はこれを使用して膨大な量の情報を分析して優れた理解を得ることができます。これらすべてはその後に来る Google、Duet AI for Devs を Gemini Code Assist としてブランド変更.

もう 1.5 つのエキサイティングな追加機能 (少なくとも私にとって) は、Gemini XNUMX Pro のネイティブオーディオ理解機能です。この「史上初」の機能により、モデルは話し言葉を直接処理できるようになります。開発者は講義や会議などの音声ファイルをアップロードでき、Gemini は貴重な洞察を抽出します。

「Jeff Dean による 117,000 以上のトークンの講義など、講義の録音をアップロードすると、Gemini 1.5 Pro でそれを解答キー付きのクイズに変えることができます。

このアップデートにより、開発者はより優れた制御と機能を利用できるようになります。「システム命令」を使用すると、ユーザーはモデルの特定の役割、形式、目標を定義し、その応答をユーザー固有のニーズに変えることができます。また、「JSON モード」ではテキストや画像から構造化データを抽出できるため、整理された情報が必要なタスクに最適です。

JSON オブジェクトのみを出力するようにモデルに指示します。このモードでは、テキストまたは画像から構造化データを抽出できます。 cURL から始めることができ、Python SDK のサポートも間もなく開始されます。

Google AI は、Gemini 1.5 Pro と並行して、次世代のテキスト埋め込みモデルもリリースしました。このモデルは、同クラスの既存のオプションを上回る優れた検索パフォーマンスを提供します。

Googleも開発中だと言われています Axion と名付けられた新しい自社設計 CPU チップ Tensor チップの作成に成功した後。

その他（茶事の話はこちらをチェック）.

デベシュ・ベリ

技術ジャーナリスト

有益で役立つコンテンツを作成すること、モータースポーツと音楽への情熱を追求すること、遠征に参加すること、健康的なライフスタイルを維持すること、そして愛猫のタコスと時間を過ごすこと、これらが私を動かす原動力です。

ユーザーフォーラム

0メッセージ

並び替え：

コメントを残す