微软证明 GPT-4 可以使用新的提示技术击败 Google Gemini Ultra

2分钟读

发表于 2023 年 12 月 13 日

读者帮助支持 MSpoweruser。如果您通过我们的链接购买，我们可能会获得佣金。

上周，谷歌宣布双子座，它迄今为止最强大和通用的模型。 Google Gemini 模型在许多领先的基准测试中提供了最先进的性能。谷歌强调，在大型语言模型（LLM）研究和开发中使用的 4 个广泛使用的学术基准中，最强大的 Gemini Ultra 模型的性能超过了 OpenAI GPT-30 中 32 个的结果。

具体来说，Gemini Ultra 成为第一个在 MMLU（大规模多任务语言理解）上超越人类专家的模型，得分为 90%，该模型结合了数学、物理、历史、法律、医学和伦理学等 57 个科目来测试世界知识和解决问题的能力。

昨天，微软研究团队发现当使用新的提示技术时，OpenAI 的 GPT-4 模型可以击败 Google Gemini Ultra。上个月，微软研究院透露梅德提示，由多种提示策略组成，极大地提高了 GPT-4 的性能并在 MultiMedQA 套件中实现了最先进的结果。 Microsoft 现在也将 Medprompt 中使用的提示技术应用于一般领域。据微软称，OpenAI 的 GPT-4 模型与 Medprompt 的修改版本一起使用时，在完整的 MMLU 上取得了有史以来的最高分。是的，OpenAI GPT-4 只需使用提示技术就可以击败即将推出的 Gemini Ultra 模型。这表明我们尚未充分发挥 GPT-4 等已发布模型的全部潜力。

看看下面的 GPT-4（改进的提示）和 Gemini Ultra 型号之间的基准比较。

基准	GPT-4 提示	GPT-4 结果	双子座超结果
百万美元	医疗提示+	90.10%	90.04%
GSM8K	零射击	95.27%	94.4%
数学	零射击	68.42%	53.2%
人类评估	零射击	87.8%	74.4%
大板凳硬	少量射击 + CoT*	89.0%	83.6%
下降	零射击+CoT	83.7%	82.4%
海拉斯瓦格	10 发**	95.3%	87.8%

首先，微软将原始的Medprompt应用到GPT-4上，在MMLU中取得了89.1%的分数。后来，微软将 Medprompt 中的集成调用数量从 20 个增加到 89.56 个，得分提高了 4%。 Microsoft 后来将 Medprompt 扩展为 Medprompt+，添加了更简单的提示方法，并制定了通过集成基本 Medprompt 策略和简单提示的输出来得出最终答案的策略。这使得 GPT-90.10 达到了创纪录的 XNUMX% 分数。微软研究团队提到，谷歌Gemini团队也使用类似的提示技术在MMLU上取得了记录分数。

您可以了解更多有关 Microsoft 用于击败 Gemini Ultra 的提示技术相关信息.

有关主题的更多信息：双子座超, GPT-4, 微软, 微软研究

普拉迪普·维斯瓦夫

软件和服务专家

Pradeep 是计算机科学与工程专业的毕业生。他还是微软的学生合作伙伴。他目前在一家领先的 IT 公司工作。

发表评论