埃隆·马斯克 (Elon Musk) 的 xAI 宣布推出具有多模式功能的 Grok-1.5 Vision

阅读时间图标 2分钟读


读者帮助支持 MSpoweruser。如果您通过我们的链接购买,我们可能会获得佣金。 工具提示图标

阅读我们的披露页面,了解如何帮助 MSPoweruser 维持编辑团队 查看更多

重点说明

  • Elon Musk 的 xAI 宣布推出 Grok-1.5 Vision 或 Grok-1.5V。
  • Grok-1.5V 是该公司的首款多模式模型,很快将向早期测试者和现有 Grok 用户提供。
  • Grok-1.5V 可以处理文本和视觉信息。

上个月,Elon Musk 在几天后推出了 Grok-1.5 LLM 谷歌推出Gemini 1.5。虽然马斯克的 xAI 声称其模型接近 GPT-4 性能,但它不具备多模态能力。然而,该公司最近发布的 Grok-1.5 Vision 没有这个限制,因为它可以处理文本和视觉信息。

什么是 Grok-1.5 Vision (Grok-1.5V)?何时推出?

Grok-1.5V 是 xAI 的第一代多模态模型,旨在连接数字世界和物理世界。该公司在一份声明中表示:“Grok 在我们新的 RealWorldQA 基准测试中表现优于同行,该基准测试衡量现实世界的空间理解。” 博客文章。此外,Grok-1.5V 可以“处理各种视觉信息,包括文档、图表、屏幕截图和照片”。

例如,它可以做的一些令人兴奋的事情包括从图表中编写代码、计算卡路里、根据图画制作睡前故事、帮助您理解模因等等。 xAI 声称,在 RealWorldQA 基准测试中,Grok-1.5V 的表现优于其竞争对手 LLM,包括 GPT-4V、Claude 3Sonnet、Claude 3 Opus 和 Gemini Pro。

xAI 强调说:“在我们新的 RealWorldQA 基准测试中,Grok 的表现优于同行,该基准测试衡量现实世界的空间理解。”

Grok-1.5V 目前尚未推出,但很快就会向早期测试者和现有 Grok 用户提供预览版。虽然 xAI 尚未具体说明发布日期,但它承诺进一步推进“多模态理解”和“生成能力”,并对图像、音频和视频等各种模态带来改进。