Apple 的 ReALM AI 模型可以“看到”并理解屏幕上下文； “明显优于”GPT-4

主页 » 新闻

2分钟读

发表于 2024 年 4 月 3 日

by 德韦什·贝里

发表于 2024 年 4 月 3 日

读者帮助支持 MSpoweruser。如果您通过我们的链接购买，我们可能会获得佣金。

重点说明

Apple 的 ReALM 可以理解您屏幕上的内容并相应地响应您的请求。
尽管参数较少，但 ReALM 在各种任务上的表现均优于 GPT-4。
ReALM 擅长理解用户对特定领域查询的意图。

苹果研究人员推出了一种名为 ReALM 的新人工智能系统，它可以理解你屏幕上的内容并相应地响应你的请求。这一突破是继苹果之后上个月收购了 DarwinAI。

ReALM 通过将屏幕上的信息转换为文本来实现这一目标，使其能够在设备上运行，而不需要大量的图像识别。它可以考虑屏幕上的内容以及后台运行的任务。

根据一份研究论文，苹果较大的 ReALM 模型尽管参数较少，但仍显着超过了 GPT-4。

想象一下浏览网页并找到您想要致电的企业。借助 ReALM，您可以告诉 Siri“致电该公司”，Siri 将能够“查看”电话号码并直接发起呼叫。

这只是 ReALM 对屏幕信息的理解如何改善用户体验的示例之一。通过将 ReALM 集成到未来的 Siri 更新中，Apple 可以创造更加无缝和免提的用户体验。 Apple 也恰好在开发 MM1，可以减少多次提示以获得所需结果的需要和一个 AI图像操纵器,

该研究论文还详细介绍了 ReALM 在各种数据集（包括会话数据集、合成数据集和未见过的会话数据集）上优于先前模型的基准。值得注意的是，尽管 GPT-4 可以访问屏幕截图，而 ReALM 仅依赖文本编码，但 ReALM 在涉及屏幕信息的任务上与 GPT-4 的表现具有竞争力。看到于 X.

苹果研究人员在一篇研究论文中介绍了 ReALM。

这是一个新的人工智能系统，可以理解屏幕上的任务、对话上下文和后台进程。

研究人员表示，它“大大优于”GPT-4。

了解更多： https://t.co/5YY5E0kbsk pic.twitter.com/6M8kQiVnKo
——张罗文 (@rowancheung) 2024 年 4 月 3 日