Claude 3 Opus가 중요한 챗봇 순위에서 OpenAI의 GPT-4를 이겼습니다.

홈 » 뉴스

독서 시간 아이콘 2 분. 읽다

달력 아이콘 에 게시됨 2024 년 3 월 28 일

by 라훌

에 게시 2024 년 3 월 28 일

독자들은 MSpoweruser를 지원하는 데 도움을 줍니다. 당사의 링크를 통해 구매하시면 수수료를 받을 수 있습니다.

주요 사항

Claude 3 Opus가 OpenAI의 GPT-4를 제치고 아레나 순위 XNUMX위에 올랐습니다.
Claude 3 Opus의 Elo 점수는 1253으로 GPT-4보다 약간 높습니다.
결과는 사용자가 여러 AI 모델의 출력에 얼마나 만족했는지를 기반으로 합니다.

인류 Claude 3 모델 제품군 발표 이달 초에는 OpenAI의 GPT-4를 능가할 수 있다고 주장했습니다. 회사는 모델의 다양한 성능 지표를 보여주고 이를 경쟁 챗봇의 성능 지표와 비교하여 결론을 도출했습니다. 이제 클로드 3의 패권은 아레나 순위표에도 반영됩니다.

Claude 3 Opus가 GPT-4를 제치고 XNUMX위가 되었습니다.

Claude 3 Opus가 LYMSYS Chatbot Arena 순위에서 4위를 차지하여 GPT-3 모델을 1253위로 끌어올렸습니다. Claude 1251 Opus는 GPT-4의 XNUMX보다 약간 높은 XNUMX의 Elo 점수를 얻었습니다. 체스 선수가 얼마나 능숙한지를 판단하는 것과 같은 점수입니다. 하지만 이 경우 벤치마크 점수는 체스 선수가 아닌 다양한 AI 모델을 판단하는 것입니다.

[아레나 업데이트]

70K+ 새로운 아레나 투표?? 들어 있어요!

Claude-3 Haiku는 모두에게 깊은 인상을 주었습니다. 심지어 사용자 선호도에 따라 GPT-4 레벨에 도달하기도 했습니다! 속도, 기능 및 컨텍스트 길이가 현재 시장에서 타의 추종을 불허합니까?

축하 안녕하세요. 놀라운 Claude-3 출시에 대해 알아보세요!

더 흥미로운… pic.twitter.com/p1Guuf0B3K
— lmsys.org(@lmsysorg) 2024 년 3 월 26 일

하지만 LYMSYS Chatbot Arena는 완벽하지 않습니다. 그것이 보여주는 벤치마킹 결과는 사람들의 투표를 기반으로 합니다. 이처럼 점수는 70만 표를 새로 얻은 후 업데이트됐다. 따라서 이론적으로 점수가 높을수록 AI 모델의 전반적인 출력이 더 좋아졌다는 의미입니다. 그러나 많은 경우 출력이 얼마나 좋은지는 보는 사람에 따라 달라집니다. 사용자는 또한 Chatbot Arena에서 GPT-4가 제대로 로드되지 않는다고 불평합니다. 톰의 가이드). 그럼에도 불구하고 OpenAI는 몇 시간 전 Claude 3 Opus에 의해 축출될 때까지 수년 동안 XNUMX위 자리를 유지했습니다.

업데이트된 Arena 순위는 Anthropic의 AI 모델에 더 많은 관심을 불러일으킬 가능성이 높지만 OpenAI는 다음을 계획하고 있습니다. 올여름 GPT-5 출시, 이는 "물질적으로 더 좋다"고 합니다. 만약 그렇다면 OpenAI는 아레나 리더보드에서 다시 1위 자리를 탈환할 가능성이 높습니다.

주제에 대한 추가 정보: 인류, 클로드 3 작품, GPT-4

라훌

테크 저널리스트

Rahul은 기술 저널리스트로, 주로 Windows와 Android 등의 소프트웨어를 다루는 데 수년간의 경험을 갖고 있습니다. 그는 또한 다양한 기술 주제에 대한 자신의 의견을 공유하는 것을 좋아합니다.

Claude 3 Opus가 GPT-4를 제치고 XNUMX위가 되었습니다.

댓글을 남겨주세요.