Claude 3 Opus đánh bại GPT-4 của OpenAI trong bảng xếp hạng chatbot quan trọng

Biểu tượng thời gian đọc 2 phút đọc


Bạn đọc giúp đỡ ủng hộ MSpoweruser. Chúng tôi có thể nhận được hoa hồng nếu bạn mua thông qua các liên kết của chúng tôi. Biểu tượng chú giải công cụ

Đọc trang tiết lộ của chúng tôi để tìm hiểu cách bạn có thể giúp MSPoweruser duy trì nhóm biên tập Tìm hiểu thêm

Ghi chú chính

  • Claude 3 Opus đã đánh bại GPT-4 của OpenAI để trở thành số một trong bảng xếp hạng Arena.
  • Claude 3 Opus có Điểm Elo là 1253, nhỉnh hơn GPT-4 một chút.
  • Kết quả dựa trên mức độ hài lòng của người dùng với kết quả đầu ra của một số mô hình AI.

nhân loại công bố gia đình kiểu mẫu Claude 3 vào đầu tháng này, tuyên bố rằng nó có thể vượt trội hơn GPT-4 của OpenAI. Công ty đã đưa ra nhiều số liệu hiệu suất khác nhau của mô hình và so sánh chúng với số liệu của các chatbot đối thủ để đưa ra kết luận đó. Giờ đây, uy quyền tối cao của Claude 3 cũng được phản ánh trên bảng xếp hạng Arena.

Claude 3 Opus đánh bại GPT-4 để trở thành số một

Claude 3 Opus đã đứng đầu bảng xếp hạng LYMSYS Chatbot Arena để đẩy mẫu GPT-4 xuống vị trí thứ hai. Claude 3 Opus đạt được số điểm Elo là 1253, cao hơn một chút so với 1251 của GPT-4. Đó cũng là số điểm đánh giá người chơi cờ khéo léo như thế nào. Nhưng trong trường hợp này, điểm chuẩn đang đánh giá nhiều mô hình AI khác nhau chứ không phải người chơi cờ.

Tuy nhiên, Đấu trường Chatbot LYMSYS không hoàn hảo. Các kết quả benchmark mà nó hiển thị đều dựa trên sự bình chọn của mọi người. Như vậy, điểm số đã được cập nhật sau 70 nghìn lượt bình chọn mới. Vì vậy, về mặt lý thuyết, điểm cao hơn sẽ chỉ ra rằng kết quả đầu ra tổng thể của mô hình AI tốt hơn. Nhưng trong nhiều trường hợp, kết quả đầu ra tốt đến đâu còn phụ thuộc vào người xem nó. Người dùng cũng phàn nàn rằng GPT-4 không tải đúng cách trong Chatbot Arena (thông qua Hướng dẫn của Tom). Mặc dù vậy, OpenAI vẫn giữ vị trí số một trong suốt nhiều năm cho đến khi bị Claude 3 Opus lật đổ vài giờ trước.

Mặc dù xếp hạng Arena được cập nhật có thể sẽ thu hút nhiều sự quan tâm hơn đến các mô hình AI của Anthropic, OpenAI có kế hoạch ra mắt GPT-5 vào mùa hè này, được cho là “tốt hơn về mặt vật chất”. Nếu đúng như vậy, OpenAI có khả năng sẽ lấy lại vị trí dẫn đầu trên bảng xếp hạng Arena.

Thông tin thêm về các chủ đề: nhân loại, Tác phẩm của Claude 3, GPT-4

Bình luận

Chúng tôi sẽ không công khai email của bạn. Các ô đánh dấu * là bắt buộc *