Meta 即将推出的 Llama-3 400B 模型可能会击败 GPT-4 Turbo 和 Claude 3 Opus
它没有超过它们,但它有潜力
2分钟读
发表于
阅读我们的披露页面,了解如何帮助 MSPoweruser 维持编辑团队 查看更多
重点说明
- Meta 推出 Llama-3,其迄今为止最强大的模型,具有 700B 参数
- 尽管处于训练阶段,Llama-3仍显示出改进的潜力
- 最近的数据表明它在基准测试中接近 Claude 3 Opus 和 GPT-4 Turbo
Meta 将推出其迄今为止最强大的人工智能模型 羊驼-3 具有 400B 参数。在其 公告 周四,开源模型将很快为 WhatsApp 和 Instagram 上的 Meta AI 助手工具提供支持。
但事实是,目前市场上有很多强大的人工智能模型。 GPT-4涡轮 OpenAI 的 128k 上下文窗口已经存在相当长一段时间了,Anthropic 的 Claude 3 Opus 是 现已 在亚马逊基岩上。
那么,根据多个基准,这些模型之间的比较如何?以下是这些强大模型在多个选项中的测试情况比较。这些数字取自 公开信息 和 Meta 的 公告.
基准 | 羊驼 3 400B | 克劳德 3 作品 | GPT-4涡轮 | 双子座超1.0 | 双子座专业版1.5 |
百万美元 | 86.1 | 86.8 | 86.5 | 83.7 | 81.9 |
GP质量保证 | 48 | 50.4 | 49.1 | – | – |
人类评估 | 84.1 | 84.9 | 87.6 | 74.4 | 71.9 |
数学 | 57.8 | 60.1 | 72.2 | 53.2 | 58.5 |
正如您所看到的,Llama-3 400B 实际上在这些基准测试中确实稍显不足,在 MMLU 中得分为 86.1,在 GPQA 中得分为 48,在 HumanEval 中得分为 84.1,在 MATH 中得分为 57.8。
但是,鉴于它仍处于训练阶段,一旦完全部署,很有可能会出现重大改进。对于开源模型来说,这远远超出了令人印象深刻的程度。
MMLU 测试模型在不直接教授不同主题的情况下对它们的理解程度,涵盖了广泛的主题。另一方面,GPQA 根据模型在生物学、物理和化学方面的表现对模型进行排序,而 HumanEval 则重点关注它们的编码方式。
用户论坛
0消息