Il prossimo modello Llama-3 400B di Meta potrebbe potenzialmente battere GPT-4 Turbo e Claude 3 Opus

Non li supera, ma ha un potenziale

Casa » Notizie

Icona del tempo di lettura 2 minuto. leggere

Icona del calendario Edizione del 19 aprile 2024

by Rafly Gilang

pubblicato su 19 aprile 2024

I lettori aiutano a supportare MSpoweruser. Potremmo ricevere una commissione se acquisti tramite i nostri link.

Note chiave

Meta svela Llama-3, il suo modello più potente con parametri 700B
Llama-3 mostra potenziale di miglioramento nonostante sia in fase di addestramento
I numeri recenti suggeriscono che è vicino a Claude 3 Opus e GPT-4 Turbo nei benchmark

Meta è pronta a lanciare il suo modello di intelligenza artificiale ancora più potente, il Lama-3 con parametri 400B. Nel suo annuncio giovedì, il modello open source alimenterà presto lo strumento di assistente Meta AI che arriverà su WhatsApp e Instagram.

Ma la verità è che al momento sul mercato ci sono moltissimi modelli di intelligenza artificiale potenti. GPT-4 Turbo con una finestra di contesto da 128k di OpenAI è in circolazione da un po' di tempo, e Claude 3 Opus di Anthropic è ora disponibile su Amazon Bedrock.

Quindi, come si confrontano questi modelli tra loro, sulla base di diversi benchmark? Ecco un confronto di come questi potenti modelli sono stati testati in diverse opzioni. Queste cifre sono tratte da informazioni disponibili al pubblico e di Meta annuncio.

Segno di riferimento	Lama 3 400B	Claude 3 Opus	GPT-4 Turbo	Gemelli Ultra 1.0	Gemelli Pro 1.5
MMLU	86.1	86.8	86.5	83.7	81.9
GPQA	48	50.4	49.1	-	-
Valutazione umana	84.1	84.9	87.6	74.4	71.9
MATEMATICA	57.8	60.1	72.2	53.2	58.5

Come puoi vedere, Llama-3 400B in realtà non è all'altezza di questi benchmark, segnando 86.1 in MMLU, 48 in GPQA, 84.1 in HumanEval e 57.8 in MATH.

Ma, dato che è ancora in fase di addestramento, ci sono buone possibilità di grandi miglioramenti una volta che sarà completamente operativo. E per un modello open source, è molto più che impressionante.

MMLU verifica la capacità dei modelli di comprendere diverse materie senza insegnarle direttamente, coprendo una vasta gamma di argomenti. GPQA, d'altra parte, ordina i modelli in base al loro rendimento in biologia, fisica e chimica, mentre HumanEval si concentra su come codificano.

Rafly Gilang

Giornalista tecnico

Rafly è un reporter con anni di esperienza giornalistica, che spazia dalla tecnologia, agli affari, al sociale e alla cultura. Attualmente riporta notizie su prodotti, tecnologia e intelligenza artificiale relativi a Microsoft su Windows Report e MSPowerUser. Hai un consiglio? Mandalo a [email protected].

Lascia un Commento