Nadchodzący model Meta Llama-3 400B może potencjalnie pokonać GPT-4 Turbo i Claude 3 Opus

Nie przewyższa ich, ale ma potencjał

Ikona czasu czytania 2 minuta. czytać


Czytelnicy pomagają wspierać MSpoweruser. Możemy otrzymać prowizję, jeśli dokonasz zakupu za pośrednictwem naszych linków. Ikona podpowiedzi

Przeczytaj naszą stronę z informacjami, aby dowiedzieć się, jak możesz pomóc MSPoweruser w utrzymaniu zespołu redakcyjnego Czytaj więcej

Kluczowe uwagi

  • Meta przedstawia Llamę-3, swój najpotężniejszy model o parametrach 700B
  • Lama-3 wykazuje potencjał do poprawy pomimo bycia w fazie szkolenia
  • Ostatnie liczby sugerują, że w benchmarkach jest blisko Claude 3 Opus i GPT-4 Turbo
Firma Meta

Meta ma zamiar wprowadzić na rynek swój najpotężniejszy model sztucznej inteligencji, tzw Lama-3 o parametrach 400B. W swoim zapowiedź w czwartek model open source wkrótce będzie obsługiwał narzędzie asystenta Meta AI, które będzie dostępne w WhatsApp i Instagramie. 

Prawda jest jednak taka, że ​​obecnie na rynku dostępnych jest wiele potężnych modeli sztucznej inteligencji. GPT-4 Turbo z oknem kontekstowym 128k z OpenAI istnieje już od dłuższego czasu, a Claude 3 Opus z Anthropic jest teraz dostępny na Amazon Bedrock.

Jak zatem te modele wypadają względem siebie na podstawie kilku testów porównawczych? Oto porównanie jak te potężne modele testowały w kilku wariantach. Liczby te pochodzą z publicznie dostępne informacje i Meta zapowiedź.

BenchmarkLama 3 400BKlaudiusz 3 OpGPT-4 TurboBliźnięta Ultra 1.0Bliźnięta Pro 1.5
MMLU86.186.886.583.781.9
GPQA4850.449.1--
HumanEval84.184.987.674.471.9
MATH57.860.172.253.258.5

Jak widać, Llama-3 400B wypada nieco gorzej w tych testach, uzyskując 86.1 w MMLU, 48 w GPQA, 84.1 w HumanEval i 57.8 w MATH. 

Biorąc jednak pod uwagę, że znajduje się on wciąż w fazie szkolenia, istnieje duża szansa na wprowadzenie znacznych ulepszeń po jego pełnym wdrożeniu. A w przypadku modelu open source jest to znacznie więcej niż imponujące. 

MMLU sprawdza, jak dobrze modele rozumieją różne przedmioty bez bezpośredniego ich nauczania, obejmującego szeroki zakres tematów. Z drugiej strony GPQA sortuje modele na podstawie tego, jak dobrze radzą sobie z biologią, fizyką i chemią, podczas gdy HumanEval skupia się na tym, jak kodują. 

Forum użytkowników

Wiadomości 0