Jak model open source OpenELM firmy Apple wypada w porównaniu z modelem Phi-3 firmy Microsoft pod względem parametrów?

Zbieg okoliczności?

Ikona czasu czytania 2 minuta. czytać


Czytelnicy pomagają wspierać MSpoweruser. Możemy otrzymać prowizję, jeśli dokonasz zakupu za pośrednictwem naszych linków. Ikona podpowiedzi

Przeczytaj naszą stronę z informacjami, aby dowiedzieć się, jak możesz pomóc MSPoweruser w utrzymaniu zespołu redakcyjnego Czytaj więcej

Kluczowe uwagi

  • Apple wypuściło OpenELM na HuggingFace z ośmioma wariantami.
  • Każdy model ma inne parametry: 270 milionów, 450 milionów, 1.1 miliarda i 3 miliardy.
  • Z kolei model Phi-3 firmy Microsoft zawiera wersje z 3.8 miliarda, 7 miliardów i 14 miliardów parametrów.
Apple

Krótko po tym, jak Microsoft uruchomił Rodzina Phi-3, zestawu małych modeli typu open source zaprojektowanych z myślą o lżejszych zastosowaniach, do pociągu dołączył Apple. Twórcy iPhone'a (po cichu) wprowadzili na rynek OpenELM, najnowszy model sztucznej inteligencji o otwartym kodzie źródłowym. 

OpenELM, skrót od Open-source Efficient Language Models, jest dostępny w ośmiu wariantach, każdy wstępnie przeszkolony i dostosowany do instrukcji dostaje cztery. Naukowcy Apple’a powiedziany że model wykorzystuje strategię skalowania warstwowego w celu efektywnego rozłożenia parametrów w każdej warstwie modelu transformatora oraz że modeli tych można używać na Przytulanie twarzy.

„Na przykład przy budżecie parametrów wynoszącym około miliarda parametrów OpenELM wykazuje poprawę dokładności o 2.36% w porównaniu z OLMo, wymagając jednocześnie 2 razy mniej tokenów przedtreningowych” – czytamy w dokumentacji.

Jeśli chodzi o rozmiary, każdy model ma inne parametry: 270 milionów, 450 milionów, 1.1 miliarda i 3 miliardy. I chociaż nie zawsze jest to najlepszy standard pomiaru, parametry w modelach AI zawsze stanowią początek ich porównania.

Szczerze mówiąc, OpenELM nie jest tak imponujący (pod względem parametrów) jak inne modele open source: Lama 3, który napędza Meta AI, ma maksymalną liczbę parametrów wynoszącą 70 miliardów, a wspierany przez Microsoft Mixtral uruchomił Model 8x22B o parametrach 176B.

Phi-3-mini, najmniejsza wersja modelu Phi-3 Microsoftu, ma 3.8 miliarda parametrów i została trenował przez tydzień przy użyciu procesorów graficznych Nvidia H100. Dla porównania, średnia wersja ma 14 miliardów parametrów, a mała wersja ma 7 miliardów parametrów.