Claude 3 Opus pokonuje GPT-4 OpenAI w ważnym rankingu chatbotów

Ikona czasu czytania 2 minuta. czytać

Ikona kalendarza Opublikowany 28 marca 2024 r.

opublikowane w dniu 28 marca 2024 r.

Czytelnicy pomagają wspierać MSpoweruser. Możemy otrzymać prowizję, jeśli dokonasz zakupu za pośrednictwem naszych linków.

Kluczowe uwagi

Claude 3 Opus pokonał GPT-4 OpenAI i zajął pierwsze miejsce w rankingu Areny.
Claude 3 Opus ma wynik Elo 1253, nieco więcej niż GPT-4.
Wyniki opierają się na zadowoleniu użytkowników z wyników kilku modeli sztucznej inteligencji.

Antropiczny ogłosił rodzinę modeli Claude 3 na początku tego miesiąca, twierdząc, że może zdeklasować GPT-4 OpenAI. Aby wyciągnąć taki wniosek, firma pokazała różne wskaźniki wydajności modelu i porównała je z wynikami konkurencyjnych chatbotów. Teraz dominacja Claude'a 3 odbija się również na tabeli liderów Areny.

Claude 3 Opus pokonuje GPT-4 i staje się numerem jeden

Claude 3 Opus zajął pierwsze miejsce w rankingu LYMSYS Chatbot Arena, spychając model GPT-4 na drugą pozycję. Claude 3 Opus uzyskał wynik Elo 1253, nieco więcej niż 1251 w GPT-4. Ten sam wynik ocenia, jak zręczni są szachiści. Ale w tym przypadku wyniki testów porównawczych oceniają różne modele sztucznej inteligencji, a nie szachistów.

[Aktualizacja areny]

Ponad 70 tys. nowych głosów na Arenie? są w!

Claude-3 Haiku zaimponowało wszystkim, nawet osiągając poziom GPT-4 według naszych preferencji użytkownika! Jego szybkość, możliwości i długość kontekstu nie mają sobie równych na rynku?

gratulacje pic podczas niesamowitego startu Claude-3!

Bardziej ekscytujący… pic.twitter.com/p1Guuf0B3K
— lmsys.org (@lmsysorg) 26 marca 2024 r.

Jednak LYMSYS Chatbot Arena nie jest idealna. Wyniki benchmarkingu, które pokazuje, opierają się na głosowaniu ludzi. W związku z tym po zdobyciu 70 tys. nowych głosów wyniki zostały zaktualizowane. Zatem teoretycznie lepszy wynik powinien wskazywać, że ogólny wynik modelu AI był lepszy. Jednak w większości przypadków jakość wyniku zależy od tego, kto go ogląda. Użytkownicy skarżą się również, że GPT-4 nie ładuje się poprawnie w Chatbot Arena (via Przewodnik Toma). Mimo to OpenAI utrzymywał się na pierwszym miejscu przez te wszystkie lata, aż kilka godzin temu został wyparty przez Claude 3 Opus.

Chociaż zaktualizowany ranking Areny prawdopodobnie wzbudzi większe zainteresowanie modelami sztucznej inteligencji Anthropic, OpenAI ma takie plany wystartuje GPT-5 tego lata, o którym mówi się, że jest „istotnie lepszy”. Jeśli tak się stanie, OpenAI prawdopodobnie odzyska czołową pozycję w tabeli liderów Areny.

Więcej na tematy: Antropiczny, Klaudiusz 3 Op, GPT-4

Rahul

Dziennikarz techniczny

Rahul jest dziennikarzem technicznym z wieloletnim doświadczeniem w opracowywaniu oprogramowania, głównie Windows i Android. Uwielbia także dzielić się swoimi opiniami na różne tematy technologiczne.

Claude 3 Opus pokonuje GPT-4 i staje się numerem jeden

Dodaj komentarz