Microsoft predstavlja Phi-3 obitelj modela koji nadmašuju ostale modele svoje klase

Ikona vremena čitanja 2 min. čitati


Čitatelji pomažu pri podršci MSpoweruser. Možda ćemo dobiti proviziju ako kupujete putem naših veza. Ikona opisa alata

Pročitajte našu stranicu za otkrivanje kako biste saznali kako možete pomoći MSPoweruseru da održi urednički tim Čitaj više

Microsoft Phi-3

Još u prosincu 2023. Microsoft je objavio Phi-2 model s 2.7 milijardi parametara koji je pružio najsuvremeniju izvedbu među modelima osnovnog jezika s manje od 13 milijardi parametara. U posljednja četiri mjeseca, nekoliko drugih modela koji su pušteni nadmašili su Phi-2. Nedavno je Meta izdala Llama-3 obitelj modela koji su nadmašili sve prethodno objavljene open-source modele.

Sinoć je Microsoft Research najavio Phi-3 obitelj modela putem tehničko izvješće. U obitelji Phi-3 postoje tri modela:

  • phi-3-mini (3.8B)
  • fi-3-mali (7B)
  • fi-3-srednji (14B)

Phi-3-mini s jezičnim modelom od 3.8 milijardi parametara trenira se na 3.3 trilijuna tokena. Prema mjerilima, phi-3-mini pobjeđuje Mixtral 8x7B i GPT-3.5. Microsoft tvrdi da je ovaj model dovoljno malen da se postavi na telefon. Microsoft je koristio smanjenu verziju skupa podataka koji je korišten za phi-2, sastavljen od jako filtriranih web podataka i sintetičkih podataka. Prema Microsoftovim referentnim rezultatima u Tehničkom dokumentu, phi-3-small i phi-3-medium postižu impresivan MMLU rezultat od 75.3 odnosno 78.2.

Što se tiče mogućnosti LLM-a, iako model Phi-3-mini postiže sličnu razinu razumijevanja jezika i sposobnosti zaključivanja kao i mnogo veći modeli, još uvijek je fundamentalno ograničen svojom veličinom za određene zadatke. Model jednostavno nema kapacitet za pohranu opsežnog činjeničnog znanja, što se može vidjeti, na primjer, u niskim performansama na TriviaQA. Međutim, vjerujemo da se ova slabost može riješiti proširenjem pomoću tražilice.