Microsoft predstavlja Phi-3 obitelj modela koji nadmašuju ostale modele svoje klase

Ikona vremena čitanja 2 min. čitati

Ikona kalendara Objavljeno na Travnja 23, 2024

objavljeno Travnja 23, 2024

Čitatelji pomažu pri podršci MSpoweruser. Možda ćemo dobiti proviziju ako kupujete putem naših veza.

Još u prosincu 2023. Microsoft je objavio Phi-2 model s 2.7 milijardi parametara koji je pružio najsuvremeniju izvedbu među modelima osnovnog jezika s manje od 13 milijardi parametara. U posljednja četiri mjeseca, nekoliko drugih modela koji su pušteni nadmašili su Phi-2. Nedavno je Meta izdala Llama-3 obitelj modela koji su nadmašili sve prethodno objavljene open-source modele.

Sinoć je Microsoft Research najavio Phi-3 obitelj modela putem tehničko izvješće. U obitelji Phi-3 postoje tri modela:

phi-3-mini (3.8B)
fi-3-mali (7B)
fi-3-srednji (14B)

Phi-3-mini s jezičnim modelom od 3.8 milijardi parametara trenira se na 3.3 trilijuna tokena. Prema mjerilima, phi-3-mini pobjeđuje Mixtral 8x7B i GPT-3.5. Microsoft tvrdi da je ovaj model dovoljno malen da se postavi na telefon. Microsoft je koristio smanjenu verziju skupa podataka koji je korišten za phi-2, sastavljen od jako filtriranih web podataka i sintetičkih podataka. Prema Microsoftovim referentnim rezultatima u Tehničkom dokumentu, phi-3-small i phi-3-medium postižu impresivan MMLU rezultat od 75.3 odnosno 78.2.

Što se tiče mogućnosti LLM-a, iako model Phi-3-mini postiže sličnu razinu razumijevanja jezika i sposobnosti zaključivanja kao i mnogo veći modeli, još uvijek je fundamentalno ograničen svojom veličinom za određene zadatke. Model jednostavno nema kapacitet za pohranu opsežnog činjeničnog znanja, što se može vidjeti, na primjer, u niskim performansama na TriviaQA. Međutim, vjerujemo da se ova slabost može riješiti proširenjem pomoću tražilice.

Pradeep Viswav

Stručnjak za softver i usluge

Pradeep je diplomirao računarstvo i inženjerstvo. Bio je i Microsoftov studentski partner. Trenutno radi u vodećoj IT tvrtki.