Πώς συγκρίνεται το μοντέλο ανοιχτού κώδικα OpenELM της Apple με το Phi-3 της Microsoft, όσον αφορά τις παραμέτρους;

Σύμπτωση?

Εικονίδιο ώρας ανάγνωσης 2 λεπτό. ανάγνωση


Οι αναγνώστες βοηθούν στην υποστήριξη του MSpoweruser. Ενδέχεται να λάβουμε προμήθεια εάν αγοράσετε μέσω των συνδέσμων μας. Εικονίδιο επεξήγησης εργαλείου

Διαβάστε τη σελίδα αποκάλυψης για να μάθετε πώς μπορείτε να βοηθήσετε το MSPoweruser να διατηρήσει τη συντακτική ομάδα Διάβασε περισσότερα

Βασικές σημειώσεις

  • Η Apple κυκλοφόρησε το OpenELM στο HuggingFace με οκτώ παραλλαγές.
  • Κάθε μοντέλο έρχεται με διαφορετικές παραμέτρους: 270 εκατομμύρια, 450 εκατομμύρια, 1.1 δισεκατομμύρια και 3 δισεκατομμύρια.
  • Το μοντέλο Phi-3 της Microsoft, από την άλλη, περιλαμβάνει εκδόσεις με 3.8 δισεκατομμύρια, 7 δισεκατομμύρια και 14 δισεκατομμύρια παραμέτρους.
Apple

Λίγο μετά την κυκλοφορία της Microsoft Οικογένεια Phi-3, ένα σύνολο μικρών μοντέλων ανοιχτού κώδικα σχεδιασμένα για πιο ελαφριά χρήση, η Apple εντάχθηκε στο τρένο. Οι κατασκευαστές iPhone κυκλοφόρησαν (αθόρυβα) το OpenELM, το τελευταίο μοντέλο ανοιχτού κώδικα AI. 

Το OpenELM, συντομογραφία για Αποτελεσματικά γλωσσικά μοντέλα ανοιχτού κώδικα, διατίθεται σε οκτώ παραλλαγές, η καθεμία προ-εκπαιδευμένο και  συντονισμένες οδηγίες παίρνει τέσσερα. Οι ερευνητές της Apple είπε ότι το μοντέλο χρησιμοποιεί μια στρατηγική κλιμάκωσης βάσει επιπέδου για την αποτελεσματική κατανομή των παραμέτρων σε κάθε επίπεδο του μοντέλου μετασχηματιστή και μπορείτε να χρησιμοποιήσετε αυτά τα μοντέλα σε Πρόσωπο αγκαλιάς.

«Για παράδειγμα, με προϋπολογισμό παραμέτρων περίπου ενός δισεκατομμυρίου παραμέτρων, το OpenELM παρουσιάζει βελτίωση 2.36% στην ακρίβεια σε σύγκριση με το OLMo ενώ απαιτεί 2× λιγότερα κουπόνια προ-εκπαίδευσης», αναφέρει η τεκμηρίωση.

Όσον αφορά τα μεγέθη του, κάθε μοντέλο έρχεται με διαφορετικές παραμέτρους: 270 εκατομμύρια, 450 εκατομμύρια, 1.1 δισεκατομμύρια και 3 δισεκατομμύρια. Και ενώ δεν είναι πάντα το καλύτερο πρότυπο μέτρησης, οι παράμετροι στα μοντέλα τεχνητής νοημοσύνης είναι πάντα η αρχή για τη σύγκριση τους.

Ειλικρινά, το OpenELM δεν είναι τόσο εντυπωσιακό (από άποψη παραμέτρων) όσο άλλα μοντέλα ανοιχτού κώδικα: Λάμα 3, που τροφοδοτεί το Meta AI, έρχεται με μέγιστο αριθμό παραμέτρων 70 δισεκατομμυρίων και το Mixtral που υποστηρίζεται από τη Microsoft κυκλοφόρησε Μοντέλο 8x22B με 176Β παραμέτρους.

Το Phi-3-mini, η μικρότερη έκδοση του μοντέλου Phi-3 της Microsoft, έχει 3.8 δισεκατομμύρια παραμέτρους και ήταν εκπαιδεύτηκε για μια εβδομάδα χρησιμοποιώντας τις GPU H100 της Nvidia. Συγκριτικά, η μεσαία έκδοση έχει 14 δισεκατομμύρια παραμέτρους και η μικρή έκδοση έχει 7 δισεκατομμύρια παραμέτρους.