微软证明 GPT-4 可以使用新的提示技术击败 Google Gemini Ultra

阅读时间图标 2分钟读


读者帮助支持 MSpoweruser。如果您通过我们的链接购买,我们可能会获得佣金。 工具提示图标

阅读我们的披露页面,了解如何帮助 MSPoweruser 维持编辑团队 查看更多

Gemini-Ultra-与-GPT-4-模型比较

上周,谷歌宣布 双子座,它迄今为止最强大和通用的模型。 Google Gemini 模型在许多领先的基准测试中提供了最先进的性能。 谷歌强调,在大型语言模型(LLM)研究和开发中使用的 4 个广泛使用的学术基准中,最强大的 Gemini Ultra 模型的性能超过了 OpenAI GPT-30 中 32 个的结果。

具体来说,Gemini Ultra 成为第一个在 MMLU(大规模多任务语言理解)上超越人类专家的模型,得分为 90%,该模型结合了数学、物理、历史、法律、医学和伦理学等 57 个科目来测试世界知识和解决问题的能力。

昨天,微软研究团队 发现 当使用新的提示技术时,OpenAI 的 GPT-4 模型可以击败 Google Gemini Ultra。 上个月,微软研究院透露 梅德提示,由多种提示策略组成,极大地提高了 GPT-4 的性能并在 MultiMedQA 套件中实现了最先进的结果。 Microsoft 现在也将 Medprompt 中使用的提示技术应用于一般领域。 据微软称,OpenAI 的 GPT-4 模型与 Medprompt 的修改版本一起使用时,在完整的 MMLU 上取得了有史以来的最高分。 是的,OpenAI GPT-4 只需使用提示技术就可以击败即将推出的 Gemini Ultra 模型。 这表明我们尚未充分发挥 GPT-4 等已发布模型的全部潜力。

看看下面的 GPT-4(改进的提示)和 Gemini Ultra 型号之间的基准比较。

基准GPT-4 提示GPT-4 结果双子座超结果
百万美元医疗提示+90.10%90.04%
GSM8K零射击95.27%94.4%
数学零射击68.42%53.2%
人类评估零射击87.8%74.4%
大板凳硬少量射击 + CoT*89.0%83.6% 
下降零射击+CoT83.7%82.4%
海拉斯瓦格10 发**95.3%87.8%

首先,微软将原始的Medprompt应用到GPT-4上,在MMLU中取得了89.1%的分数。 后来,微软将 Medprompt 中的集成调用数量从 20 个增加到 89.56 个,得分提高了 4%。 Microsoft 后来将 Medprompt 扩展为 Medprompt+,添加了更简单的提示方法,并制定了通过集成基本 Medprompt 策略和简单提示的输出来得出最终答案的策略。 这使得 GPT-90.10 达到了创纪录的 XNUMX% 分数。 微软研究团队提到,谷歌Gemini团队也使用类似的提示技术在MMLU上取得了记录分数。 

您可以了解更多有关 Microsoft 用于击败 Gemini Ultra 的提示技术 相关信息.

有关主题的更多信息: 双子座超, GPT-4, 微软, 微软研究

发表评论

您的电邮地址不会被公开。 必填带 *