当您可以通过 Azure OpenAI 服务将 GPT-4 Turbo 与 Vision 结合使用时,为什么还要等待 Gemini Ultra

阅读时间图标 2分钟读


读者帮助支持 MSpoweruser。如果您通过我们的链接购买,我们可能会获得佣金。 工具提示图标

阅读我们的披露页面,了解如何帮助 MSPoweruser 维持编辑团队 查看更多

OpenAI GPT-4 Turbo 与 Gemini Ultra

OpenAI的 GPT-4 Turbo 与视觉 是一个大型多模态模型 (LMM),可以分析图像并对有关图像的问题提供文本响应。 这种先进的多模态 AI 模型包含 GPT-4 Turbo 的所有功能,同时增加了处理和分析图像输入的能力。 

今天,微软 公布 GPT-4 Turbo with Vision 现在可通过 Azure OpenAI 服务获得。 澳大利亚东部、瑞典中部、瑞士北部和美国西部 Azure 区域的现有 Azure OpenAI 服务客户现在可以访问 GPT-4 Turbo with Vision 服务。

随着 GPT-4 Turbo with Vision 的推出,微软还宣布对 Azure AI 服务进行以下改进,以实现高级功能。

  • 光学字符识别 (OCR): 从图像中提取文本,将其与用户的提示和图像集成以丰富上下文。 
  • 物体接地:通过识别和概述图像中的关键对象,增强 GPT-4 Turbo with Vision 的文本响应。 
  • 视频提示:允许 GPT-4 Turbo with Vision 根据用户的提示,使用视频中最相关的帧来回答问题。 
  • 使用图像数据处理 Azure OpenAI 服务: 通过将 GPT-4 Turbo 与 Vision、Azure AI 搜索和 Azure AI Vision 相结合,现在可以将图像与文本数据一起添加,利用矢量搜索开发与用户数据连接的解决方案,从而改善聊天体验。

GPT-4 Turbo with Vision on Azure OpenAI 服务将根据输入和输出令牌的数量收费。 查找下面的详细信息。

型号输入 输出 
GPT-4 Turbo 与视觉1每 0.01 个代币 1000 美元每 0.03 个代币 1000 美元
+ 增强的 OCR 附加功能每 1.50 笔交易 1000 美元
+ 增强了对象接地的附加功能每 1.50 笔交易 1000 美元
+ 增强了“添加您的图像”图像嵌入的附加功能每 0.10 笔交易 1000 美元
+ 增强了集成视频检索的视频提示附加功能每分钟 0.05 美元用于索引每 0.25 笔交易 1000 美元2

本周初,微软研究团队 发现 当使用新的提示技术时,OpenAI 的 GPT-4 模型可以击败 Google Gemini Ultra。 因此,如果您正在等待 Gemini Ultra,那么您绝对应该尝试一下 GPT-4 Turbo with Vision。

有关主题的更多信息: GPT-4 Turbo 与视觉, 微软, 开放AI