イーロン・マスクの xAI がマルチモーダル機能を備えた Grok-1.5 Vision を発表

読書時間アイコン 2分。 読んだ


読者は MSpoweruser のサポートを支援します。私たちのリンクを通じて購入すると、手数料が発生する場合があります。 ツールチップアイコン

MSPoweruser の編集チームの維持にどのように貢献できるかについては、開示ページをお読みください。 続きを読む

キーノート

  • Elon Musk の xAI は Grok-1.5 Vision または Grok-1.5V を発表しました。
  • Grok-1.5V は同社初のマルチモーダル モデルで、早期テスターと既存の Grok ユーザーが間もなく利用できるようになります。
  • Grok-1.5V はテキストおよび視覚情報を処理できます。

先月、イーロン・マスクはその数日後に Grok-1.5 LLM を発表しました GoogleがGemini 1.5を発表。マスク氏の xAI は、そのモデルが GPT-4 のパフォーマンスに近いと主張しましたが、マルチモーダル機能はありませんでした。ただし、同社が最近発表した Grok-1.5 Vision には、テキスト情報と視覚情報の両方を処理できるため、その制限はありません。

Grok-1.5 Vision (Grok-1.5V) とは何ですか?いつ利用可能になりますか?

Grok-1.5V は、デジタル世界と物理世界を接続することを目的とした xAI の第一世代マルチモーダル モデルです。 「Grokは、現実世界の空間理解を測定する新しいRealWorldQAベンチマークで他社を上回っている」と同社は声明で述べた。 ブログ投稿。さらに、Grok-1.5V は「文書、図、チャート、スクリーンショット、写真など、さまざまな視覚情報を処理」できます。

たとえば、図からコードを書く、カロリーを計算する、絵に基づいて就寝時の物語を作る、ミームを理解するのを助けるなど、エキサイティングなことができます。 xAI は、RealWorldQA ベンチマークにおいて、Grok-1.5V は GPT-4V、Claude 3Sonnet、Claude 3 Opus、Gemini Pro などのライバル LLM よりも優れたパフォーマンスを発揮すると主張しています。

xAI は、「Grok は、現実世界の空間理解を測定する新しい RealWorldQA ベンチマークで競合製品を上回っています」と強調しました。

Grok-1.5V は現在利用できませんが、早期テスターと既存の Grok ユーザーにプレビューとして間もなく提供される予定です。 xAI は発売日を明らかにしていませんが、「マルチモーダルの理解」と「生成機能」をさらに前進させ、画像、音声、ビデオなどのさまざまなモダリティに改善をもたらすことが約束されています。