埃隆·马斯克 (Elon Musk) 的 xAI 宣布推出具有多模式功能的 Grok-1.5 Vision

首页 » 新闻

2分钟读

发表于 2024 年 4 月 13 日

by 德韦什·贝里

发表于 2024 年 4 月 13 日

分享此文章

改进本指南

读者帮助支持 MSpoweruser。如果您通过我们的链接购买，我们可能会获得佣金。

重点说明

Elon Musk 的 xAI 宣布推出 Grok-1.5 Vision 或 Grok-1.5V。
Grok-1.5V 是该公司的首款多模式模型，很快将向早期测试者和现有 Grok 用户提供。
Grok-1.5V 可以处理文本和视觉信息。

上个月，Elon Musk 在几天后推出了 Grok-1.5 LLM 谷歌推出Gemini 1.5。虽然马斯克的 xAI 声称其模型接近 GPT-4 性能，但它不具备多模态能力。然而，该公司最近发布的 Grok-1.5 Vision 没有这个限制，因为它可以处理文本和视觉信息。

什么是 Grok-1.5 Vision (Grok-1.5V)？何时推出？

Grok-1.5V 是 xAI 的第一代多模态模型，旨在连接数字世界和物理世界。该公司在一份声明中表示：“Grok 在我们新的 RealWorldQA 基准测试中表现优于同行，该基准测试衡量现实世界的空间理解。” 博客文章。此外，Grok-1.5V 可以“处理各种视觉信息，包括文档、图表、屏幕截图和照片”。

例如，它可以做的一些令人兴奋的事情包括从图表中编写代码、计算卡路里、根据图画制作睡前故事、帮助您理解模因等等。 xAI 声称，在 RealWorldQA 基准测试中，Grok-1.5V 的表现优于其竞争对手 LLM，包括 GPT-4V、Claude 3Sonnet、Claude 3 Opus 和 Gemini Pro。

xAI 强调说：“在我们新的 RealWorldQA 基准测试中，Grok 的表现优于同行，该基准测试衡量现实世界的空间理解。”

Grok-1.5V 目前尚未推出，但很快就会向早期测试者和现有 Grok 用户提供预览版。虽然 xAI 尚未具体说明发布日期，但它承诺进一步推进“多模态理解”和“生成能力”，并对图像、音频和视频等各种模态带来改进。