Claude 3 Opus pokonuje GPT-4 OpenAI w ważnym rankingu chatbotów
2 minuta. czytać
Opublikowany
Przeczytaj naszą stronę z informacjami, aby dowiedzieć się, jak możesz pomóc MSPoweruser w utrzymaniu zespołu redakcyjnego Czytaj więcej
Kluczowe uwagi
- Claude 3 Opus pokonał GPT-4 OpenAI i zajął pierwsze miejsce w rankingu Areny.
- Claude 3 Opus ma wynik Elo 1253, nieco więcej niż GPT-4.
- Wyniki opierają się na zadowoleniu użytkowników z wyników kilku modeli sztucznej inteligencji.
Antropiczny ogłosił rodzinę modeli Claude 3 na początku tego miesiąca, twierdząc, że może zdeklasować GPT-4 OpenAI. Aby wyciągnąć taki wniosek, firma pokazała różne wskaźniki wydajności modelu i porównała je z wynikami konkurencyjnych chatbotów. Teraz dominacja Claude'a 3 odbija się również na tabeli liderów Areny.
Claude 3 Opus pokonuje GPT-4 i staje się numerem jeden
Claude 3 Opus zajął pierwsze miejsce w rankingu LYMSYS Chatbot Arena, spychając model GPT-4 na drugą pozycję. Claude 3 Opus uzyskał wynik Elo 1253, nieco więcej niż 1251 w GPT-4. Ten sam wynik ocenia, jak zręczni są szachiści. Ale w tym przypadku wyniki testów porównawczych oceniają różne modele sztucznej inteligencji, a nie szachistów.
Jednak LYMSYS Chatbot Arena nie jest idealna. Wyniki benchmarkingu, które pokazuje, opierają się na głosowaniu ludzi. W związku z tym po zdobyciu 70 tys. nowych głosów wyniki zostały zaktualizowane. Zatem teoretycznie lepszy wynik powinien wskazywać, że ogólny wynik modelu AI był lepszy. Jednak w większości przypadków jakość wyniku zależy od tego, kto go ogląda. Użytkownicy skarżą się również, że GPT-4 nie ładuje się poprawnie w Chatbot Arena (via Przewodnik Toma). Mimo to OpenAI utrzymywał się na pierwszym miejscu przez te wszystkie lata, aż kilka godzin temu został wyparty przez Claude 3 Opus.
Chociaż zaktualizowany ranking Areny prawdopodobnie wzbudzi większe zainteresowanie modelami sztucznej inteligencji Anthropic, OpenAI ma takie plany wystartuje GPT-5 tego lata, o którym mówi się, że jest „istotnie lepszy”. Jeśli tak się stanie, OpenAI prawdopodobnie odzyska czołową pozycję w tabeli liderów Areny.