Nadchodzący model Meta Llama-3 400B może potencjalnie pokonać GPT-4 Turbo i Claude 3 Opus

Nie przewyższa ich, ale ma potencjał

Ikona czasu czytania 2 minuta. czytać

Ikona kalendarza Opublikowany 19 kwietnia 2024 r.

opublikowane w dniu 19 kwietnia 2024 r.

Czytelnicy pomagają wspierać MSpoweruser. Możemy otrzymać prowizję, jeśli dokonasz zakupu za pośrednictwem naszych linków.

Kluczowe uwagi

Meta przedstawia Llamę-3, swój najpotężniejszy model o parametrach 700B
Lama-3 wykazuje potencjał do poprawy pomimo bycia w fazie szkolenia
Ostatnie liczby sugerują, że w benchmarkach jest blisko Claude 3 Opus i GPT-4 Turbo

Meta ma zamiar wprowadzić na rynek swój najpotężniejszy model sztucznej inteligencji, tzw Lama-3 o parametrach 400B. W swoim zapowiedź w czwartek model open source wkrótce będzie obsługiwał narzędzie asystenta Meta AI, które będzie dostępne w WhatsApp i Instagramie.

Prawda jest jednak taka, że obecnie na rynku dostępnych jest wiele potężnych modeli sztucznej inteligencji. GPT-4 Turbo z oknem kontekstowym 128k z OpenAI istnieje już od dłuższego czasu, a Claude 3 Opus z Anthropic jest teraz dostępny na Amazon Bedrock.

Jak zatem te modele wypadają względem siebie na podstawie kilku testów porównawczych? Oto porównanie jak te potężne modele testowały w kilku wariantach. Liczby te pochodzą z publicznie dostępne informacje i Meta zapowiedź.

Benchmark	Lama 3 400B	Klaudiusz 3 Op	GPT-4 Turbo	Bliźnięta Ultra 1.0	Bliźnięta Pro 1.5
MMLU	86.1	86.8	86.5	83.7	81.9
GPQA	48	50.4	49.1	-	-
HumanEval	84.1	84.9	87.6	74.4	71.9
MATH	57.8	60.1	72.2	53.2	58.5

Jak widać, Llama-3 400B wypada nieco gorzej w tych testach, uzyskując 86.1 w MMLU, 48 w GPQA, 84.1 w HumanEval i 57.8 w MATH.

Biorąc jednak pod uwagę, że znajduje się on wciąż w fazie szkolenia, istnieje duża szansa na wprowadzenie znacznych ulepszeń po jego pełnym wdrożeniu. A w przypadku modelu open source jest to znacznie więcej niż imponujące.

MMLU sprawdza, jak dobrze modele rozumieją różne przedmioty bez bezpośredniego ich nauczania, obejmującego szeroki zakres tematów. Z drugiej strony GPQA sortuje modele na podstawie tego, jak dobrze radzą sobie z biologią, fizyką i chemią, podczas gdy HumanEval skupia się na tym, jak kodują.

Rafly'ego Gilanga

Reporter techniczny

Rafly jest reporterem z wieloletnim doświadczeniem dziennikarskim, począwszy od technologii, biznesu, społeczności i kultury. Obecnie raportujemy wiadomości na temat produktów, technologii i sztucznej inteligencji związanych z Microsoft w raportach Windows i MSPowerUser. Masz wskazówkę? Wyślij to do [email chroniony].

Dodaj komentarz