Claude 3 Opus, önemli chatbot sıralamasında OpenAI'nin GPT-4'ünü geride bırakıyor

Okuma zamanı simgesi 2 dk. okuman


Okuyucular MSpoweruser'ı desteklemeye yardımcı olur. Bağlantılarımız aracılığıyla satın alırsanız komisyon alabiliriz. Araç İpucu Simgesi

MSPoweruser'ın editör ekibini ayakta tutmasına nasıl yardımcı olabileceğinizi öğrenmek için açıklama sayfamızı okuyun. Daha fazla

Önemli notlar

  • Claude 3 Opus, OpenAI'nin GPT-4'ünü yenerek Arena sıralamasında bir numara oldu.
  • Claude 3 Opus'un Elo Skoru 1253'tür, bu da GPT-4'ten biraz daha yüksektir.
  • Sonuçlar, kullanıcıların çeşitli yapay zeka modellerinin çıktılarından ne kadar memnun olduklarına dayanıyor.

Antropik Claude 3 model ailesini duyurdu bu ayın başlarında OpenAI'nin GPT-4'ünü geride bırakabileceğini iddia etti. Şirket, modelin çeşitli performans ölçümlerini gösterdi ve bu sonuca varmak için bunları rakip sohbet robotlarınınkilerle karşılaştırdı. Artık Claude 3'ün üstünlüğü Arena skor tablosuna da yansıyor.

Claude 3 Opus GPT-4'ü yenerek bir numara oldu

Claude 3 Opus, LYMSYS Chatbot Arena sıralamasında zirveye çıkarak GPT-4 modelini ikinci sıraya taşıdı. Claude 3 Opus, GPT-1253'ün 1251'inden biraz daha yüksek olan 4 Elo puanı kazandı. Satranç oyuncularının ne kadar yetenekli olduğunu belirleyen de aynı puandır. Ancak bu durumda kıyaslama puanları satranç oyuncularını değil, çeşitli yapay zeka modellerini değerlendiriyor.

Ancak LYMSYS Chatbot Arena mükemmel değil. Gösterdiği kıyaslama sonuçları insanların oylarına dayanmaktadır. Hal böyle olunca 70 bin yeni oy sonrasında puanlar güncellendi. Dolayısıyla teorik olarak daha iyi bir puan, yapay zeka modelinin genel çıktısının daha iyi olduğunu göstermelidir. Ancak çoğu zaman çıktının ne kadar iyi olduğu onu kimin izlediğine bağlıdır. Kullanıcılar ayrıca GPT-4'ün Chatbot Arena'da düzgün şekilde yüklenmediğinden de şikayetçidir (üzerinden Tom'un rehberi). Buna rağmen OpenAI, birkaç saat önce Claude 3 Opus tarafından devrilene kadar tüm bu yıllar boyunca ilk sırada yer aldı.

Güncellenmiş bir Arena sıralaması muhtemelen Anthropic'in yapay zeka modellerine daha fazla ilgi uyandıracak olsa da, OpenAI'nin bunu yapmayı planları var. GPT-5'i bu yaz başlat"maddi olarak daha iyi" olduğu söyleniyor. Durumun böyle olduğu ortaya çıkarsa, OpenAI'nin Arena liderlik tablosundaki en üst sıradaki konumunu yeniden kazanması muhtemeldir.

Konular hakkında daha fazla bilgi: Antropik, Claude 3 Eser, GPT 4