Το επερχόμενο μοντέλο Llama-3 400B της Meta θα μπορούσε ενδεχομένως να νικήσει το GPT-4 Turbo και το Claude 3 Opus
Δεν τα ξεπερνά, αλλά έχει δυνατότητες
2 λεπτό. ανάγνωση
Δημοσιεύθηκε στις
Διαβάστε τη σελίδα αποκάλυψης για να μάθετε πώς μπορείτε να βοηθήσετε το MSPoweruser να διατηρήσει τη συντακτική ομάδα Διάβασε περισσότερα
Βασικές σημειώσεις
- Η Meta αποκαλύπτει το Llama-3, το πιο ισχυρό μοντέλο της με παραμέτρους 700B
- Το Llama-3 δείχνει δυνατότητες βελτίωσης παρά το γεγονός ότι βρίσκεται σε προπονητική φάση
- Πρόσφατοι αριθμοί υποδηλώνουν ότι είναι κοντά στο Claude 3 Opus και το GPT-4 Turbo στα σημεία αναφοράς
Η Meta πρόκειται να κυκλοφορήσει το πιο ισχυρό της μοντέλο AI, το Λάμα-3 με παραμέτρους 400Β. Μέσα στο ανακοίνωση Την Πέμπτη, το μοντέλο ανοιχτού κώδικα θα τροφοδοτήσει σύντομα το βοηθητικό εργαλείο Meta AI που έρχεται στο WhatsApp και το Instagram.
Αλλά η αλήθεια είναι ότι υπάρχουν πολλά ισχυρά μοντέλα AI στην αγορά αυτή τη στιγμή. GPT-4 Turbo με ένα παράθυρο περιβάλλοντος 128k από το OpenAI υπάρχει εδώ και αρκετό καιρό και το Claude 3 Opus από το Anthropic είναι τώρα διαθέσιμο στο Amazon Bedrock.
Λοιπόν, πώς συγκρίνονται αυτά τα μοντέλα μεταξύ τους, βάσει πολλών σημείων αναφοράς; Ακολουθεί μια σύγκριση του τρόπου δοκιμής αυτών των ισχυρών μοντέλων σε διάφορες επιλογές. Αυτά τα στοιχεία προέρχονται από πληροφορίες που είναι διαθέσιμες στο κοινό και του Meta ανακοίνωση.
αναφοράς | Λάμα 3 400Β | Claude 3 Opus | GPT-4 Turbo | Gemini Ultra 1.0 | Gemini Pro 1.5 |
MMLU | 86.1 | 86.8 | 86.5 | 83.7 | 81.9 |
GPQA | 48 | 50.4 | 49.1 | - | - |
HumanEval | 84.1 | 84.9 | 87.6 | 74.4 | 71.9 |
ΜΑΘΗΜΑΤΙΚΑ | 57.8 | 60.1 | 72.2 | 53.2 | 58.5 |
Όπως μπορείτε να δείτε, το Llama-3 400B όντως υπολείπεται σε αυτά τα σημεία αναφοράς, σημειώνοντας 86.1 στο MMLU, 48 στο GPQA, 84.1 στο HumanEval και 57.8 στα MATH.
Όμως, δεδομένου ότι βρίσκεται ακόμη στη φάση της εκπαίδευσης, υπάρχει καλή πιθανότητα για μεγάλες βελτιώσεις μόλις αναπτυχθεί πλήρως. Και για ένα μοντέλο ανοιχτού κώδικα, αυτό είναι πολύ πιο εντυπωσιακό.
Το MMLU ελέγχει πόσο καλά τα μοντέλα κατανοούν διαφορετικά θέματα χωρίς να τα διδάσκουν άμεσα, καλύπτοντας ένα ευρύ φάσμα θεμάτων. Το GPQA, από την άλλη πλευρά, ταξινομεί μοντέλα σχετικά με το πόσο καλά τα πάνε στη βιολογία, τη φυσική και τη χημεία, ενώ το HumanEval εστιάζει στον τρόπο κωδικοποίησης.
φόρουμ χρηστών
μηνύματα 0