Claude 3 Opus mengalahkan GPT-4 OpenAI dalam peringkat chatbot penting

Beranda » Berita

Ikon waktu membaca 2 menit Baca

Ikon kalender Ditampilkan di 28 Maret, 2024

by Rahul

Diterbitkan di 28 Maret, 2024

Pembaca membantu dukungan MSpoweruser. Kami mungkin mendapat komisi jika Anda membeli melalui tautan kami.

Catatan kunci

Claude 3 Opus telah mengalahkan GPT-4 OpenAI untuk menjadi nomor satu di peringkat Arena.
Claude 3 Opus memiliki Elo Score 1253, sedikit lebih tinggi dari GPT-4.
Hasilnya didasarkan pada seberapa puas pengguna dengan keluaran beberapa model AI.

Antropik mengumumkan keluarga model Claude 3 awal bulan ini, mengklaim bahwa ia dapat mengungguli GPT-4 OpenAI. Perusahaan menunjukkan berbagai metrik kinerja model dan membandingkannya dengan chatbot pesaing untuk menarik kesimpulan tersebut. Kini, supremasi Claude 3 juga terlihat di papan peringkat Arena.

Claude 3 Opus mengalahkan GPT-4 untuk menjadi yang nomor satu

Claude 3 Opus menduduki peringkat teratas LYMSYS Chatbot Arena untuk mendorong model GPT-4 ke posisi kedua. Claude 3 Opus memperoleh skor Elo 1253, sedikit lebih tinggi dari 1251 GPT-4. Itu adalah skor yang sama yang menilai seberapa terampil seorang pecatur. Namun dalam kasus ini, skor benchmark menilai berbagai model AI, bukan pemain catur.

[Pembaruan Arena]

70 ribu+ suara Arena baru?? berada dalam!

Claude-3 Haiku telah mengesankan semua orang, bahkan mencapai level GPT-4 berdasarkan preferensi pengguna kami! Kecepatan, kemampuan & panjang konteksnya kini tak tertandingi di pasaran?

Congrats @Bayu_joo pada peluncuran Claude-3 yang luar biasa!

Lebih menarik… pic.twitter.com/p1Guuf0B3K
— lmsys.org (@lmsysorg) 26 Maret, 2024

Namun, LYMSYS Chatbot Arena tidaklah sempurna. Hasil benchmarking yang ditunjukkannya berdasarkan voting masyarakat. Dengan demikian, skor diperbarui setelah 70 ribu suara baru. Jadi, secara teori, skor yang lebih baik seharusnya menunjukkan bahwa keluaran model AI secara keseluruhan lebih baik. Namun seringkali, seberapa bagus hasilnya bergantung pada siapa yang melihatnya. Pengguna juga mengeluh bahwa GPT-4 tidak dimuat dengan benar di Chatbot Arena (via Panduan Tom). Meskipun demikian, OpenAI memegang posisi pertama selama bertahun-tahun hingga digulingkan oleh Claude 3 Opus beberapa jam yang lalu.

Meskipun peringkat Arena yang diperbarui kemungkinan akan menghasilkan lebih banyak minat terhadap model AI Anthropic, OpenAI memiliki rencana untuk melakukannya meluncurkan GPT-5 musim panas ini, yang dikatakan “lebih baik secara materi”. Jika hal tersebut terjadi, OpenAI kemungkinan akan mendapatkan kembali posisi teratasnya di papan peringkat Arena.

Lebih lanjut tentang topik: Antropik, Karya Claude 3, GPT-4

Rahul

Jurnalis Teknologi

Rahul adalah Jurnalis teknologi, dengan pengalaman bertahun-tahun dalam meliput perangkat lunak, terutama Windows dan Android. Dia juga suka berbagi pendapatnya tentang beragam topik teknologi.