Claude 3 Opus가 중요한 챗봇 순위에서 OpenAI의 GPT-4를 이겼습니다.

독서 시간 아이콘 2 분. 읽다


독자들은 MSpoweruser를 지원하는 데 도움을 줍니다. 당사의 링크를 통해 구매하시면 수수료를 받을 수 있습니다. 툴팁 아이콘

공개 페이지를 읽고 MSPoweruser가 편집팀을 유지하는 데 어떻게 도움을 줄 수 있는지 알아보세요. 자세히 보기

주요 사항

  • Claude 3 Opus가 OpenAI의 GPT-4를 제치고 아레나 순위 XNUMX위에 올랐습니다.
  • Claude 3 Opus의 Elo 점수는 1253으로 GPT-4보다 약간 높습니다.
  • 결과는 사용자가 여러 AI 모델의 출력에 얼마나 만족했는지를 기반으로 합니다.

인류 Claude 3 모델 제품군 발표 이달 초에는 OpenAI의 GPT-4를 능가할 수 있다고 주장했습니다. 회사는 모델의 다양한 성능 지표를 보여주고 이를 경쟁 챗봇의 성능 지표와 비교하여 결론을 도출했습니다. 이제 클로드 3의 패권은 아레나 순위표에도 반영됩니다.

Claude 3 Opus가 GPT-4를 제치고 XNUMX위가 되었습니다.

Claude 3 Opus가 LYMSYS Chatbot Arena 순위에서 4위를 차지하여 GPT-3 모델을 1253위로 끌어올렸습니다. Claude 1251 Opus는 GPT-4의 XNUMX보다 약간 높은 XNUMX의 Elo 점수를 얻었습니다. 체스 선수가 얼마나 능숙한지를 판단하는 것과 같은 점수입니다. 하지만 이 경우 벤치마크 점수는 체스 선수가 아닌 다양한 AI 모델을 판단하는 것입니다.

하지만 LYMSYS Chatbot Arena는 완벽하지 않습니다. 그것이 보여주는 벤치마킹 결과는 사람들의 투표를 기반으로 합니다. 이처럼 점수는 70만 표를 새로 얻은 후 업데이트됐다. 따라서 이론적으로 점수가 높을수록 AI 모델의 전반적인 출력이 더 좋아졌다는 의미입니다. 그러나 많은 경우 출력이 얼마나 좋은지는 보는 사람에 따라 달라집니다. 사용자는 또한 Chatbot Arena에서 GPT-4가 제대로 로드되지 않는다고 불평합니다. 톰의 가이드). 그럼에도 불구하고 OpenAI는 몇 시간 전 Claude 3 Opus에 의해 축출될 때까지 수년 동안 XNUMX위 자리를 유지했습니다.

업데이트된 Arena 순위는 Anthropic의 AI 모델에 더 많은 관심을 불러일으킬 가능성이 높지만 OpenAI는 다음을 계획하고 있습니다. 올여름 GPT-5 출시, 이는 "물질적으로 더 좋다"고 합니다. 만약 그렇다면 OpenAI는 아레나 리더보드에서 다시 1위 자리를 탈환할 가능성이 높습니다.

주제에 대한 추가 정보: 인류, 클로드 3 작품, GPT-4

댓글을 남겨주세요.

귀하의 이메일 주소는 공개되지 않습니다. *표시항목은 꼭 기재해 주세요. *