Meta 即将推出的 Llama-3 400B 模型可能会击败 GPT-4 Turbo 和 Claude 3 Opus

它没有超过它们,但它有潜力

阅读时间图标 2分钟读


读者帮助支持 MSpoweruser。如果您通过我们的链接购买,我们可能会获得佣金。 工具提示图标

阅读我们的披露页面,了解如何帮助 MSPoweruser 维持编辑团队 查看更多

重点说明

  • Meta 推出 Llama-3,其迄今为止最强大的模型,具有 700B 参数
  • 尽管处于训练阶段,Llama-3仍显示出改进的潜力
  • 最近的数据表明它在基准测试中接近 Claude 3 Opus 和 GPT-4 Turbo

Meta 将推出其迄今为止最强大的人工智能模型 羊驼-3 具有 400B 参数。在其 公告 周四,开源模型将很快为 WhatsApp 和 Instagram 上的 Meta AI 助手工具提供支持。 

但事实是,目前市场上有很多强大的人工智能模型。 GPT-4涡轮 OpenAI 的 128k 上下文窗口已经存在相当长一段时间了,Anthropic 的 Claude 3 Opus 是 现已 在亚马逊基岩上。

那么,根据多个基准,这些模型之间的比较如何?以下是这些强大模型在多个选项中的测试情况比较。这些数字取自 公开信息 和 Meta 的 公告.

基准羊驼 3 400B克劳德 3 作品GPT-4涡轮双子座超1.0双子座专业版1.5
百万美元86.186.886.583.781.9
GP质量保证4850.449.1
人类评估84.184.987.674.471.9
数学57.860.172.253.258.5

正如您所看到的,Llama-3 400B 实际上在这些基准测试中确实稍显不足,在 MMLU 中得分为 86.1,在 GPQA 中得分为 48,在 HumanEval 中得分为 84.1,在 MATH 中得分为 57.8。 

但是,鉴于它仍处于训练阶段,一旦完全部署,很有可能会出现重大改进。对于开源模型来说,这远远超出了令人印象深刻的程度。 

MMLU 测试模型在不直接教授不同主题的情况下对它们的理解程度,涵盖了广泛的主题。另一方面,GPQA 根据模型在生物学、物理和化学方面的表现对模型进行排序,而 HumanEval 则重点关注它们的编码方式。 

发表评论

您的电邮地址不会被公开。 必填带 *