Η Microsoft Research εισάγει το Splitwise, μια νέα τεχνική για την ενίσχυση της αποδοτικότητας της GPU για μοντέλα μεγάλων γλωσσών

Εικονίδιο ώρας ανάγνωσης 2 λεπτό. ανάγνωση

Εικονίδιο ημερολογίου Δημοσιεύθηκε στις Ιανουάριος 5, 2024

Δημοσιεύθηκε στις Ιανουάριος 5, 2024

Οι αναγνώστες βοηθούν στην υποστήριξη του MSpoweruser. Ενδέχεται να λάβουμε προμήθεια εάν αγοράσετε μέσω των συνδέσμων μας.

Βασικές σημειώσεις

Το Splitwise είναι μια σημαντική ανακάλυψη στην αποτελεσματικότητα και τη βιωσιμότητα των συμπερασμάτων LLM.
Διαχωρίζοντας τις φάσεις προτροπής και διακριτικού, το Splitwise ξεκλειδώνει νέες δυνατότητες στη χρήση της GPU και επιτρέπει στους παρόχους cloud να εξυπηρετούν περισσότερα ερωτήματα πιο γρήγορα με τον ίδιο προϋπολογισμό ενέργειας.

Τα μεγάλα γλωσσικά μοντέλα (LLM) μεταμορφώνουν τα πεδία της επεξεργασίας φυσικής γλώσσας και της τεχνητής νοημοσύνης, επιτρέποντας εφαρμογές όπως η δημιουργία κώδικα, οι συνομιλητές και η σύνοψη κειμένου. Ωστόσο, αυτά τα μοντέλα θέτουν επίσης σημαντικές προκλήσεις για τους παρόχους cloud, οι οποίοι πρέπει να αναπτύσσουν όλο και περισσότερες μονάδες επεξεργασίας γραφικών (GPU) για να ανταποκριθούν στην αυξανόμενη ζήτηση για συμπέρασμα LLM.

Το πρόβλημα είναι ότι οι GPU δεν είναι μόνο ακριβές, αλλά και απαιτούν ενέργεια, και η ικανότητα παροχής της ηλεκτρικής ενέργειας που απαιτείται για τη λειτουργία τους είναι περιορισμένη. Ως αποτέλεσμα, οι πάροχοι cloud συχνά αντιμετωπίζουν το δίλημμα είτε να απορρίψουν τα ερωτήματα των χρηστών είτε να αυξήσουν το λειτουργικό κόστος και τις περιβαλλοντικές επιπτώσεις τους.

Για να αντιμετωπίσουν αυτό το ζήτημα, ερευνητές στο Microsoft Azure ανέπτυξαν μια νέα τεχνική που ονομάζεται Διαχωρισμένα, το οποίο στοχεύει να κάνει το συμπέρασμα LLM πιο αποτελεσματικό και βιώσιμο, χωρίζοντας τον υπολογισμό σε δύο διακριτές φάσεις και κατανείμοντάς τες σε διαφορετικές μηχανές. Μπορείτε να διαβάσετε αναλυτικά για αυτήν την τεχνική στο "Splitwise: Αποτελεσματικό Generative LLM Inference με χρήση Phase Splitting" ερευνητική εργασία.

Το Splitwise βασίζεται στην παρατήρηση ότι το συμπέρασμα LLM αποτελείται από δύο φάσεις με διαφορετικά χαρακτηριστικά: τη φάση άμεσης και τη φάση δημιουργίας διακριτικών. Στη φάση προτροπής, το μοντέλο επεξεργάζεται την είσοδο του χρήστη ή την προτροπή, παράλληλα, χρησιμοποιώντας πολύ υπολογισμό GPU. Στη φάση δημιουργίας διακριτικών, το μοντέλο δημιουργεί κάθε διακριτικό εξόδου διαδοχικά, χρησιμοποιώντας μεγάλο εύρος ζώνης μνήμης GPU. Εκτός από το διαχωρισμό των δύο φάσεων συμπερασμάτων LLM σε δύο διακριτές ομάδες μηχανών, η Microsoft χρησιμοποίησε μια τρίτη ομάδα μηχανημάτων για μικτές παρτίδες στις φάσεις προτροπής και διακριτικών, με δυναμικό μέγεθος με βάση τις υπολογιστικές απαιτήσεις σε πραγματικό χρόνο.

Χρησιμοποιώντας το Splitwise, η Microsoft κατάφερε να επιτύχει τα εξής:

1.4 φορές υψηλότερη απόδοση με 20% χαμηλότερο κόστος από τα τρέχοντα σχέδια.
2.35 φορές μεγαλύτερη απόδοση με τον ίδιο προϋπολογισμό κόστους και ισχύος.

Το Splitwise είναι μια σημαντική ανακάλυψη στην αποτελεσματικότητα και τη βιωσιμότητα των συμπερασμάτων LLM. Διαχωρίζοντας τις φάσεις προτροπής και διακριτικού, το Splitwise ξεκλειδώνει νέες δυνατότητες στη χρήση της GPU και επιτρέπει στους παρόχους cloud να εξυπηρετούν περισσότερα ερωτήματα πιο γρήγορα με τον ίδιο προϋπολογισμό ενέργειας. Το Splitwise είναι πλέον μέρος του vLLM και μπορεί επίσης να υλοποιηθεί με άλλα πλαίσια. Οι ερευνητές στο Microsoft Azure σχεδιάζουν να συνεχίσουν την εργασία τους για να κάνουν τα συμπεράσματα LLM πιο αποτελεσματικά και βιώσιμα, και οραματίζονται προσαρμοσμένες ομάδες μηχανών που εξασφαλίζουν μέγιστη απόδοση, μειωμένο κόστος και απόδοση ισχύος.

Περισσότερα για τα θέματα: LLMs, microsoft, έρευνα microsoft, Διαχωρισμένα

Pradeep Viswav

Ειδικός Λογισμικού και Υπηρεσιών

Ο Pradeep είναι Πτυχιούχος Επιστήμης Υπολογιστών και Μηχανικών Υπολογιστών. Ήταν επίσης φοιτητής της Microsoft. Αυτή τη στιγμή εργάζεται σε κορυφαία εταιρεία πληροφορικής.