馬斯克 (Elon Musk) 的 xAI 宣布推出具有多模式功能的 Grok-1.5 Vision

主頁 » 最新消息

2分鐘讀

發表於 2024 年 4 月 13 日

by 德韋什·貝裡

發表於 2024 年 4 月 13 日

分享此文章

改進本指南

讀者幫助支持 MSpoweruser。如果您透過我們的連結購買，我們可能會獲得佣金。

重點說明

Elon Musk 的 xAI 宣布推出 Grok-1.5 Vision 或 Grok-1.5V。
Grok-1.5V 是該公司的首款多模式模型，很快就會向早期測試者和現有 Grok 用戶提供。
Grok-1.5V 可以處理文字和視覺訊息。

上個月，Elon Musk 在幾天後推出了 Grok-1.5 LLM 谷歌推出Gemini 1.5。雖然馬斯克的 xAI 聲稱其模型接近 GPT-4 性能，但它不具備多模態能力。然而，該公司最近發布的 Grok-1.5 Vision 沒有這個限制，因為它可以處理文字和視覺訊息。

什麼是 Grok-1.5 Vision (Grok-1.5V)？

Grok-1.5V 是 xAI 的第一代多模態模型，旨在連接數位世界和物理世界。該公司在一份聲明中表示：“Grok 在我們新的 RealWorldQA 基準測試中表現優於同行，該基準測試衡量現實世界的空間理解。” 博客文章。此外，Grok-1.5V 可以「處理各種視覺訊息，包括文件、圖表、螢幕截圖和照片」。

例如，它可以做的一些令人興奮的事情包括從圖表中編寫程式碼、計算卡路里、根據圖畫製作睡前故事、幫助您理解模因等等。 xAI 聲稱，在 RealWorldQA 基準測試中，Grok-1.5V 的表現優於其競爭對手 LLM，包括 GPT-4V、Claude 3Sonnet、Claude 3 Opus 和 Gemini Pro。

xAI 強調：“在我們新的 RealWorldQA 基準測試中，Grok 的表現優於同行，該基準測試衡量現實世界的空間理解。”

Grok-1.5V 目前尚未推出，但很快就會向早期測試者和現有 Grok 用戶提供預覽版。雖然 xAI 尚未具體說明發布日期，但它承諾進一步推進“多模態理解”和“生成能力”，並對圖像、音訊和視訊等各種模態帶來改進。