馬斯克 (Elon Musk) 的 xAI 宣布推出具有多模式功能的 Grok-1.5 Vision

閱讀時間圖標 2分鐘讀


讀者幫助支持 MSpoweruser。如果您透過我們的連結購買,我們可能會獲得佣金。 工具提示圖標

請閱讀我們的揭露頁面,了解如何幫助 MSPoweruser 維持編輯團隊的發展 閱讀更多

重點說明

  • Elon Musk 的 xAI 宣布推出 Grok-1.5 Vision 或 Grok-1.5V。
  • Grok-1.5V 是該公司的首款多模式模型,很快就會向早期測試者和現有 Grok 用戶提供。
  • Grok-1.5V 可以處理文字和視覺訊息。

上個月,Elon Musk 在幾天後推出了 Grok-1.5 LLM 谷歌推出Gemini 1.5。雖然馬斯克的 xAI 聲稱其模型接近 GPT-4 性能,但它不具備多模態能力。然而,該公司最近發布的 Grok-1.5 Vision 沒有這個限制,因為它可以處理文字和視覺訊息。

什麼是 Grok-1.5 Vision (Grok-1.5V)?

Grok-1.5V 是 xAI 的第一代多模態模型,旨在連接數位世界和物理世界。該公司在一份聲明中表示:“Grok 在我們新的 RealWorldQA 基準測試中表現優於同行,該基準測試衡量現實世界的空間理解。” 博客文章。此外,Grok-1.5V 可以「處理各種視覺訊息,包括文件、圖表、螢幕截圖和照片」。

例如,它可以做的一些令人興奮的事情包括從圖表中編寫程式碼、計算卡路里、根據圖畫製作睡前故事、幫助您理解模因等等。 xAI 聲稱,在 RealWorldQA 基準測試中,Grok-1.5V 的表現優於其競爭對手 LLM,包括 GPT-4V、Claude 3Sonnet、Claude 3 Opus 和 Gemini Pro。

xAI 強調:“在我們新的 RealWorldQA 基準測試中,Grok 的表現優於同行,該基準測試衡量現實世界的空間理解。”

Grok-1.5V 目前尚未推出,但很快就會向早期測試者和現有 Grok 用戶提供預覽版。雖然 xAI 尚未具體說明發布日期,但它承諾進一步推進“多模態理解”和“生成能力”,並對圖像、音訊和視訊等各種模態帶來改進。

使用者論壇

0消息