Claude 3 Opus mengalahkan GPT-4 OpenAI dalam peringkat chatbot penting

Ikon waktu membaca 2 menit Baca


Pembaca membantu dukungan MSpoweruser. Kami mungkin mendapat komisi jika Anda membeli melalui tautan kami. Ikon Keterangan Alat

Baca halaman pengungkapan kami untuk mengetahui bagaimana Anda dapat membantu MSPoweruser mempertahankan tim editorial Baca lebih lanjut

Catatan kunci

  • Claude 3 Opus telah mengalahkan GPT-4 OpenAI untuk menjadi nomor satu di peringkat Arena.
  • Claude 3 Opus memiliki Elo Score 1253, sedikit lebih tinggi dari GPT-4.
  • Hasilnya didasarkan pada seberapa puas pengguna dengan keluaran beberapa model AI.

Antropik mengumumkan keluarga model Claude 3 awal bulan ini, mengklaim bahwa ia dapat mengungguli GPT-4 OpenAI. Perusahaan menunjukkan berbagai metrik kinerja model dan membandingkannya dengan chatbot pesaing untuk menarik kesimpulan tersebut. Kini, supremasi Claude 3 juga terlihat di papan peringkat Arena.

Claude 3 Opus mengalahkan GPT-4 untuk menjadi yang nomor satu

Claude 3 Opus menduduki peringkat teratas LYMSYS Chatbot Arena untuk mendorong model GPT-4 ke posisi kedua. Claude 3 Opus memperoleh skor Elo 1253, sedikit lebih tinggi dari 1251 GPT-4. Itu adalah skor yang sama yang menilai seberapa terampil seorang pecatur. Namun dalam kasus ini, skor benchmark menilai berbagai model AI, bukan pemain catur.

Namun, LYMSYS Chatbot Arena tidaklah sempurna. Hasil benchmarking yang ditunjukkannya berdasarkan voting masyarakat. Dengan demikian, skor diperbarui setelah 70 ribu suara baru. Jadi, secara teori, skor yang lebih baik seharusnya menunjukkan bahwa keluaran model AI secara keseluruhan lebih baik. Namun seringkali, seberapa bagus hasilnya bergantung pada siapa yang melihatnya. Pengguna juga mengeluh bahwa GPT-4 tidak dimuat dengan benar di Chatbot Arena (via Panduan Tom). Meskipun demikian, OpenAI memegang posisi pertama selama bertahun-tahun hingga digulingkan oleh Claude 3 Opus beberapa jam yang lalu.

Meskipun peringkat Arena yang diperbarui kemungkinan akan menghasilkan lebih banyak minat terhadap model AI Anthropic, OpenAI memiliki rencana untuk melakukannya meluncurkan GPT-5 musim panas ini, yang dikatakan “lebih baik secara materi”. Jika hal tersebut terjadi, OpenAI kemungkinan akan mendapatkan kembali posisi teratasnya di papan peringkat Arena.

Lebih lanjut tentang topik: Antropik, Karya Claude 3, GPT-4