Meta의 곧 출시될 Llama-3 400B 모델은 잠재적으로 GPT-4 Turbo 및 Claude 3 Opus를 이길 수 있습니다.
이를 초과하지는 않지만 잠재력이 있습니다.
2 분. 읽다
에 게시됨
공개 페이지를 읽고 MSPoweruser가 편집팀을 유지하는 데 어떻게 도움을 줄 수 있는지 알아보세요. 자세히 보기
주요 사항
- Meta는 3B 매개변수를 갖춘 가장 강력한 모델인 Llama-700을 공개했습니다.
- Llama-3은 훈련 단계에도 불구하고 개선 가능성을 보여줍니다.
- 최근 수치에 따르면 벤치마크에서 Claude 3 Opus 및 GPT-4 Turbo에 가깝습니다.
Meta는 아직까지 가장 강력한 AI 모델인 라마-3 400B 매개변수를 사용합니다. 그것의 발표 목요일에 오픈 소스 모델은 곧 WhatsApp과 Instagram에 제공될 Meta AI 보조 도구를 강화할 것입니다.
그러나 사실 현재 시장에는 강력한 AI 모델이 많이 있습니다. GPT-4 터보 OpenAI의 128k 컨텍스트 창을 갖춘 제품은 꽤 오랫동안 사용되어 왔으며 Anthropic의 Claude 3 Opus는 사용할 수 아마존 베드락에서.
그렇다면 여러 벤치마크를 기반으로 이러한 모델을 서로 어떻게 비교합니까? 다음은 이러한 강력한 모델이 여러 옵션에서 어떻게 테스트되었는지 비교한 것입니다. 이 수치는 다음에서 가져온 것입니다. 공개적으로 사용 가능한 정보 그리고 메타의 발표.
기준 | 라마 3 400B | 클로드 3 작품 | GPT-4 터보 | 제미니 울트라 1.0 | 제미니 프로 1.5 |
MMLU | 86.1 | 86.8 | 86.5 | 83.7 | 81.9 |
GPQA | 48 | 50.4 | 49.1 | - | - |
인간평가 | 84.1 | 84.9 | 87.6 | 74.4 | 71.9 |
수학 | 57.8 | 60.1 | 72.2 | 53.2 | 58.5 |
보시다시피 Llama-3 400B는 실제로 이 벤치마크에서 약간 부족하여 MMLU에서 86.1점, GPQA에서 48점, HumanEval에서 84.1점, MATH에서 57.8점을 기록했습니다.
그러나 아직 훈련 단계이기 때문에 완전히 배포되면 크게 개선될 가능성이 높습니다. 오픈 소스 모델의 경우 이는 인상적이지 않습니다.
MMLU는 광범위한 주제를 다루면서 모델이 직접 가르치지 않고도 다양한 주제를 얼마나 잘 이해하는지 테스트합니다. 반면 GPQA는 생물학, 물리학, 화학 분야에서 모델이 얼마나 잘 수행되고 있는지에 따라 모델을 정렬하는 반면 HumanEval은 코딩 방법에 중점을 둡니다.
사용자 포럼
0 메시지