Apple 的 ReALM AI 模型可以“看到”并理解屏幕上下文; “明显优于”GPT-4

阅读时间图标 2分钟读


读者帮助支持 MSpoweruser。如果您通过我们的链接购买,我们可能会获得佣金。 工具提示图标

阅读我们的披露页面,了解如何帮助 MSPoweruser 维持编辑团队 查看更多

重点说明

  • Apple 的 ReALM 可以理解您屏幕上的内容并相应地响应您的请求。
  • 尽管参数较少,但 ReALM 在各种任务上的表现均优于 GPT-4。
  • ReALM 擅长理解用户对特定领域查询的意图。
Apple

苹果研究人员推出了一种名为 ReALM 的新人工智能系统,它可以理解你屏幕上的内容并相应地响应你的请求。这一突破是继苹果之后 上个月收购了 DarwinAI。

ReALM 通过将屏幕上的信息转换为文本来实现这一目标,使其能够在设备上运行,而不需要大量的图像识别。它可以考虑屏幕上的内容以及后台运行的任务。

根据一份研究论文,苹果较大的 ReALM 模型尽管参数较少,但仍显着超过了 GPT-4。

想象一下浏览网页并找到您想要致电的企业。借助 ReALM,您可以告诉 Siri“致电该公司”,Siri 将能够“查看”电话号码并直接发起呼叫。

这只是 ReALM 对屏幕信息的理解如何改善用户体验的示例之一。通过将 ReALM 集成到未来的 Siri 更新中,Apple 可以创造更加无缝和免提的用户体验。 Apple 也恰好在开发 MM1, 可以减少多次提示以获得所需结果的需要和一个 AI图像操纵器,

该研究论文还详细介绍了 ReALM 在各种数据集(包括会话数据集、合成数据集和未见过的会话数据集)上优于先前模型的基准。值得注意的是,尽管 GPT-4 可以访问屏幕截图,而 ReALM 仅依赖文本编码,但 ReALM 在涉及屏幕信息的任务上与 GPT-4 的表现具有竞争力。看到于 X.

它还探讨了 ReALM 不同模型大小的好处。虽然所有模型在参数更多时表现更好,但这种改进对于处理屏幕信息最有意义,这表明该任务的复杂性。

在评估全新的、未见过的领域的性能时,ReALM 和 GPT-4 都显示出相似的结果。然而,由于针对用户请求进行了微调,ReALM 在特定于域的查询方面表现优于 GPT-4。这使得 ReALM 能够掌握用户意图的细微差别并做出相应的响应。

总体而言,该研究展示了 ReALM 如何使用 LLM 进行参考解析。 ReALM 可以通过将屏幕上的实体转换为自然语言文本来理解用户的屏幕及其请求,同时保持设备上应用程序的高效性。

虽然 ReALM 有效地对屏幕上实体的位置进行编码,但研究人员表示,它可能无法捕获需要对空间关系进行复杂理解的复杂用户查询的每个细节。 

发表评论

您的电邮地址不会被公开。 必填带 *