Claude 3 Opus đánh bại GPT-4 của OpenAI trong bảng xếp hạng chatbot quan trọng

Biểu tượng thời gian đọc 2 phút đọc

Biểu tượng lịch Được đăng trên 28 Tháng ba, 2024

Được xuất bản trên 28 Tháng ba, 2024

Bạn đọc giúp đỡ ủng hộ MSpoweruser. Chúng tôi có thể nhận được hoa hồng nếu bạn mua thông qua các liên kết của chúng tôi.

Ghi chú chính

Claude 3 Opus đã đánh bại GPT-4 của OpenAI để trở thành số một trong bảng xếp hạng Arena.
Claude 3 Opus có Điểm Elo là 1253, nhỉnh hơn GPT-4 một chút.
Kết quả dựa trên mức độ hài lòng của người dùng với kết quả đầu ra của một số mô hình AI.

nhân loại công bố gia đình kiểu mẫu Claude 3 vào đầu tháng này, tuyên bố rằng nó có thể vượt trội hơn GPT-4 của OpenAI. Công ty đã đưa ra nhiều số liệu hiệu suất khác nhau của mô hình và so sánh chúng với số liệu của các chatbot đối thủ để đưa ra kết luận đó. Giờ đây, uy quyền tối cao của Claude 3 cũng được phản ánh trên bảng xếp hạng Arena.

Claude 3 Opus đánh bại GPT-4 để trở thành số một

Claude 3 Opus đã đứng đầu bảng xếp hạng LYMSYS Chatbot Arena để đẩy mẫu GPT-4 xuống vị trí thứ hai. Claude 3 Opus đạt được số điểm Elo là 1253, cao hơn một chút so với 1251 của GPT-4. Đó cũng là số điểm đánh giá người chơi cờ khéo léo như thế nào. Nhưng trong trường hợp này, điểm chuẩn đang đánh giá nhiều mô hình AI khác nhau chứ không phải người chơi cờ.

[Cập nhật đấu trường]

70K+ phiếu bầu Arena mới?? đang ở trong!

Claude-3 Haiku đã gây ấn tượng với tất cả mọi người, thậm chí còn đạt đến cấp độ GPT-4 theo sở thích của người dùng! Tốc độ, khả năng và độ dài ngữ cảnh của nó hiện chưa có gì sánh bằng trên thị trường?

chúc mừng @AnthropicAI trong buổi ra mắt đáng kinh ngạc của Claude-3!

Thú vị hơn… pic.twitter.com/p1Guuf0B3K
- lmsys.org (@lmsysorg) 26 Tháng ba, 2024

Tuy nhiên, Đấu trường Chatbot LYMSYS không hoàn hảo. Các kết quả benchmark mà nó hiển thị đều dựa trên sự bình chọn của mọi người. Như vậy, điểm số đã được cập nhật sau 70 nghìn lượt bình chọn mới. Vì vậy, về mặt lý thuyết, điểm cao hơn sẽ chỉ ra rằng kết quả đầu ra tổng thể của mô hình AI tốt hơn. Nhưng trong nhiều trường hợp, kết quả đầu ra tốt đến đâu còn phụ thuộc vào người xem nó. Người dùng cũng phàn nàn rằng GPT-4 không tải đúng cách trong Chatbot Arena (thông qua Hướng dẫn của Tom). Mặc dù vậy, OpenAI vẫn giữ vị trí số một trong suốt nhiều năm cho đến khi bị Claude 3 Opus lật đổ vài giờ trước.

Mặc dù xếp hạng Arena được cập nhật có thể sẽ thu hút nhiều sự quan tâm hơn đến các mô hình AI của Anthropic, OpenAI có kế hoạch ra mắt GPT-5 vào mùa hè này, được cho là “tốt hơn về mặt vật chất”. Nếu đúng như vậy, OpenAI có khả năng sẽ lấy lại vị trí dẫn đầu trên bảng xếp hạng Arena.

Thông tin thêm về các chủ đề: nhân loại, Tác phẩm của Claude 3, GPT-4

Rahul

Nhà báo công nghệ

Rahul là một nhà báo công nghệ, có nhiều năm kinh nghiệm đưa tin về phần mềm, chủ yếu là Windows và Android. Anh ấy cũng thích chia sẻ ý kiến của cô ấy về các chủ đề công nghệ đa dạng.

Claude 3 Opus đánh bại GPT-4 để trở thành số một

Bình luận