Apakah Claude 3 lebih baik dari GPT-4? Pembandingan Promptbase mengatakan berbeda

Tes head-to-head menunjukkan GPT-4 Turbo mengungguli Claude 3 di semua kategori.

Ikon waktu membaca 2 menit Baca


Pembaca membantu dukungan MSpoweruser. Kami mungkin mendapat komisi jika Anda membeli melalui tautan kami. Ikon Keterangan Alat

Baca halaman pengungkapan kami untuk mengetahui bagaimana Anda dapat membantu MSPoweruser mempertahankan tim editorial Baca lebih lanjut

Catatan kunci

  • Anthropic baru-baru ini meluncurkan Claude 3, disebut-sebut mengungguli GPT-4 dan Google Gemini 1.0 Ultra.
  • Skor benchmark yang diposting menunjukkan Claude 3 Opus unggul di berbagai bidang dibandingkan rekan-rekannya.
  • Namun, analisis lebih lanjut menunjukkan bahwa GPT-4 Turbo mengungguli Claude 3 dalam perbandingan langsung, yang menyiratkan potensi bias dalam hasil yang dilaporkan.

Antropik baru saja meluncurkan Claude 3 belum lama ini, model AI-nya dikatakan mampu mengalahkan OpenAI GPT-4 dan Google Gemini 1.0 Ultra. Muncul dengan tiga varian: Claude 3 Haiku, Soneta, dan Opus, semuanya untuk kegunaan berbeda.

Dalam nya pengumuman awal, perusahaan AI mengatakan bahwa Claude 3 sedikit lebih unggul dari dua model yang baru diluncurkan ini. 

Menurut skor benchmark yang diposting, Claude 3 Opus lebih baik dalam pengetahuan tingkat sarjana (MMLU), penalaran tingkat pascasarjana (GPQA), matematika sekolah dasar dan pemecahan masalah matematika, matematika multibahasa, coding, penalaran melalui teks, dan lain-lain. daripada GPT-4 dan Gemini 1.0 Ultra dan Pro.

Namun, hal itu tidak sepenuhnya menggambarkan keseluruhan gambaran yang sebenarnya. Skor benchmark yang diposting pada pengumuman tersebut (khusus untuk GPT-4) ternyata diambil dari GPT-4 pada versi rilis Maret 2023 tahun lalu (kredit untuk penggila AI @TolgaBilge_ di X)

Alat yang menganalisis kinerja (benchmark analisa) disebut basis cepat menunjukkan bahwa GPT-4 Turbo benar-benar mengalahkan Claude 3 di semua pengujian yang dapat mereka bandingkan secara langsung. Tes ini mencakup hal-hal seperti keterampilan matematika dasar (GSM8K & MATH), menulis kode (HumanEval), penalaran melalui teks (DROP), dan berbagai tantangan lainnya.

Saat mengumumkan hasilnya, Anthropic juga disebutkan dalam catatan kaki bahwa teknisi mereka dapat meningkatkan kinerja GPT-4T lebih lanjut dengan menyempurnakannya secara khusus untuk pengujian. Hal ini menunjukkan bahwa hasil yang dilaporkan mungkin tidak mencerminkan kemampuan sebenarnya dari model dasar.

Aduh.