Claude 3가 정말 GPT-4보다 나은가요? Promptbase의 벤치마킹 결과가 다릅니다

직접 비교 테스트에서는 GPT-4 Turbo가 모든 범주에서 Claude 3보다 앞서는 것으로 나타났습니다.

독서 시간 아이콘 2 분. 읽다


독자들은 MSpoweruser를 지원하는 데 도움을 줍니다. 당사의 링크를 통해 구매하시면 수수료를 받을 수 있습니다. 툴팁 아이콘

공개 페이지를 읽고 MSPoweruser가 편집팀을 유지하는 데 어떻게 도움을 줄 수 있는지 알아보세요. 자세히 보기

주요 사항

  • Anthropic은 최근 GPT-3와 Google Gemini 4 Ultra보다 뛰어난 성능을 자랑하는 Claude 1.0를 출시했습니다.
  • 게시된 벤치마크 점수는 Claude 3 Opus가 다른 제품에 비해 다양한 영역에서 탁월함을 나타냅니다.
  • 그러나 추가 분석에 따르면 GPT-4 Turbo가 직접 비교에서 Claude 3보다 성능이 뛰어나며 보고된 결과에 잠재적인 편향이 있음을 암시합니다.

인류는 방금 클로드 3 출시 얼마 전까지만 해도 OpenAI의 GPT-4와 Google Gemini 1.0 Ultra를 이길 수 있다고 알려진 AI 모델이 있었습니다. Claude 3 Haiku, Sonnet 및 Opus의 세 가지 변형이 함께 제공되며 모두 다양한 용도로 사용됩니다.

의에서 초기 발표AI업체에서는 클로드3가 최근 출시된 이들 두 모델보다 조금 더 우수하다고 밝혔다. 

게시된 벤치마크 점수에 따르면 Claude 3 Opus는 학부 수준 지식(MMLU), 대학원 수준 추론(GPQA), 초등학교 수학과 수학 문제 해결, 다국어 수학, 코딩, 텍스트 추론 등에서 더 우수합니다. GPT-4 및 Gemini 1.0 Ultra 및 Pro보다.

그러나 그것은 전체 그림을 진실되게 완전히 그리는 것은 아닙니다. 발표에 게시된 벤치마크 점수(특히 GPT-4)는 작년 4년 2023월 릴리스 버전의 GPT-XNUMX에서 가져온 것으로 보입니다(AI 매니아에게 제공) X의 @TolgaBilge_)

성능을 분석하는 도구(벤치마크 분석기) 프롬프트베이스 GPT-4 Turbo가 실제로 직접 비교할 수 있는 모든 테스트에서 Claude 3를 이겼다는 것을 보여줍니다. 이 테스트에서는 기본 수학 능력(GSM8K 및 MATH), 코드 작성(HumanEval), 텍스트 추론(DROP) 및 기타 다양한 과제를 다룹니다.

결과를 발표하면서 Anthropic도 각주에 언급됨 엔지니어들은 테스트를 위해 특별히 미세 조정하여 GPT-4T의 성능을 더욱 향상시킬 수 있었습니다. 이는 보고된 결과가 기본 모델의 실제 기능을 반영하지 않을 수도 있음을 나타냅니다.

아야.