Jak model open source OpenELM firmy Apple wypada w porównaniu z modelem Phi-3 firmy Microsoft pod względem parametrów?

Zbieg okoliczności?

Ikona czasu czytania 2 minuta. czytać

Ikona kalendarza Opublikowany 24 kwietnia 2024 r.

opublikowane w dniu 24 kwietnia 2024 r.

Czytelnicy pomagają wspierać MSpoweruser. Możemy otrzymać prowizję, jeśli dokonasz zakupu za pośrednictwem naszych linków.

Kluczowe uwagi

Apple wypuściło OpenELM na HuggingFace z ośmioma wariantami.
Każdy model ma inne parametry: 270 milionów, 450 milionów, 1.1 miliarda i 3 miliardy.
Z kolei model Phi-3 firmy Microsoft zawiera wersje z 3.8 miliarda, 7 miliardów i 14 miliardów parametrów.

Krótko po tym, jak Microsoft uruchomił Rodzina Phi-3, zestawu małych modeli typu open source zaprojektowanych z myślą o lżejszych zastosowaniach, do pociągu dołączył Apple. Twórcy iPhone'a (po cichu) wprowadzili na rynek OpenELM, najnowszy model sztucznej inteligencji o otwartym kodzie źródłowym.

OpenELM, skrót od Open-source Efficient Language Models, jest dostępny w ośmiu wariantach, każdy wstępnie przeszkolony i dostosowany do instrukcji dostaje cztery. Naukowcy Apple’a powiedziany że model wykorzystuje strategię skalowania warstwowego w celu efektywnego rozłożenia parametrów w każdej warstwie modelu transformatora oraz że modeli tych można używać na Przytulanie twarzy.

„Na przykład przy budżecie parametrów wynoszącym około miliarda parametrów OpenELM wykazuje poprawę dokładności o 2.36% w porównaniu z OLMo, wymagając jednocześnie 2 razy mniej tokenów przedtreningowych” – czytamy w dokumentacji.

Jeśli chodzi o rozmiary, każdy model ma inne parametry: 270 milionów, 450 milionów, 1.1 miliarda i 3 miliardy. I chociaż nie zawsze jest to najlepszy standard pomiaru, parametry w modelach AI zawsze stanowią początek ich porównania.

Szczerze mówiąc, OpenELM nie jest tak imponujący (pod względem parametrów) jak inne modele open source: Lama 3, który napędza Meta AI, ma maksymalną liczbę parametrów wynoszącą 70 miliardów, a wspierany przez Microsoft Mixtral uruchomił Model 8x22B o parametrach 176B.

Phi-3-mini, najmniejsza wersja modelu Phi-3 Microsoftu, ma 3.8 miliarda parametrów i została trenował przez tydzień przy użyciu procesorów graficznych Nvidia H100. Dla porównania, średnia wersja ma 14 miliardów parametrów, a mała wersja ma 7 miliardów parametrów.

Rafly'ego Gilanga

Reporter techniczny

Rafly jest reporterem z wieloletnim doświadczeniem dziennikarskim, począwszy od technologii, biznesu, społeczności i kultury. Obecnie raportujemy wiadomości na temat produktów, technologii i sztucznej inteligencji związanych z Microsoft w raportach Windows i MSPowerUser. Masz wskazówkę? Wyślij to do [email chroniony].