Το επερχόμενο μοντέλο Llama-3 400B της Meta θα μπορούσε ενδεχομένως να νικήσει το GPT-4 Turbo και το Claude 3 Opus

Δεν τα ξεπερνά, αλλά έχει δυνατότητες

HOME » Νέα

2 λεπτό. ανάγνωση

Δημοσιεύθηκε στις Απρίλιος 19, 2024

by Rafly Gilang

Δημοσιεύθηκε στις Απρίλιος 19, 2024

Μοιραστείτε αυτό το άρθρο

Βελτιώστε αυτόν τον οδηγό

Οι αναγνώστες βοηθούν στην υποστήριξη του MSpoweruser. Ενδέχεται να λάβουμε προμήθεια εάν αγοράσετε μέσω των συνδέσμων μας.

Βασικές σημειώσεις

Η Meta αποκαλύπτει το Llama-3, το πιο ισχυρό μοντέλο της με παραμέτρους 700B
Το Llama-3 δείχνει δυνατότητες βελτίωσης παρά το γεγονός ότι βρίσκεται σε προπονητική φάση
Πρόσφατοι αριθμοί υποδηλώνουν ότι είναι κοντά στο Claude 3 Opus και το GPT-4 Turbo στα σημεία αναφοράς

Η Meta πρόκειται να κυκλοφορήσει το πιο ισχυρό της μοντέλο AI, το Λάμα-3 με παραμέτρους 400Β. Μέσα στο ανακοίνωση Την Πέμπτη, το μοντέλο ανοιχτού κώδικα θα τροφοδοτήσει σύντομα το βοηθητικό εργαλείο Meta AI που έρχεται στο WhatsApp και το Instagram.

Αλλά η αλήθεια είναι ότι υπάρχουν πολλά ισχυρά μοντέλα AI στην αγορά αυτή τη στιγμή. GPT-4 Turbo με ένα παράθυρο περιβάλλοντος 128k από το OpenAI υπάρχει εδώ και αρκετό καιρό και το Claude 3 Opus από το Anthropic είναι τώρα διαθέσιμο στο Amazon Bedrock.

Λοιπόν, πώς συγκρίνονται αυτά τα μοντέλα μεταξύ τους, βάσει πολλών σημείων αναφοράς; Ακολουθεί μια σύγκριση του τρόπου δοκιμής αυτών των ισχυρών μοντέλων σε διάφορες επιλογές. Αυτά τα στοιχεία προέρχονται από πληροφορίες που είναι διαθέσιμες στο κοινό και του Meta ανακοίνωση.

αναφοράς	Λάμα 3 400Β	Claude 3 Opus	GPT-4 Turbo	Gemini Ultra 1.0	Gemini Pro 1.5
MMLU	86.1	86.8	86.5	83.7	81.9
GPQA	48	50.4	49.1	-	-
HumanEval	84.1	84.9	87.6	74.4	71.9
ΜΑΘΗΜΑΤΙΚΑ	57.8	60.1	72.2	53.2	58.5

Όπως μπορείτε να δείτε, το Llama-3 400B όντως υπολείπεται σε αυτά τα σημεία αναφοράς, σημειώνοντας 86.1 στο MMLU, 48 στο GPQA, 84.1 στο HumanEval και 57.8 στα MATH.

Όμως, δεδομένου ότι βρίσκεται ακόμη στη φάση της εκπαίδευσης, υπάρχει καλή πιθανότητα για μεγάλες βελτιώσεις μόλις αναπτυχθεί πλήρως. Και για ένα μοντέλο ανοιχτού κώδικα, αυτό είναι πολύ πιο εντυπωσιακό.

Το MMLU ελέγχει πόσο καλά τα μοντέλα κατανοούν διαφορετικά θέματα χωρίς να τα διδάσκουν άμεσα, καλύπτοντας ένα ευρύ φάσμα θεμάτων. Το GPQA, από την άλλη πλευρά, ταξινομεί μοντέλα σχετικά με το πόσο καλά τα πάνε στη βιολογία, τη φυσική και τη χημεία, ενώ το HumanEval εστιάζει στον τρόπο κωδικοποίησης.

Rafly Gilang

Τεχνικός Ρεπόρτερ

Ο Rafly είναι ένας ρεπόρτερ με πολυετή δημοσιογραφική εμπειρία, από τεχνολογία, επιχειρηματικό, κοινωνικό και πολιτισμικό. Αυτήν τη στιγμή αναφέρονται ειδήσεις για προϊόντα, τεχνολογία και τεχνητή νοημοσύνη που σχετίζονται με τη Microsoft στο MSPowerUser. Έχετε μια συμβουλή; Στείλτε το στο [προστασία μέσω email]

φόρουμ χρηστών

μηνύματα 0

Ταξινόμηση κατά:

Αφήστε μια απάντηση Ακύρωση απάντησης