Microsoft predstavuje rodinu modelov Phi-3, ktoré prekonávajú ostatné modely svojej triedy

Ikona času čítania 2 min. čítať

Ikona kalendára Publikované dňa Apríla 23, 2024

publikované dňa Apríla 23, 2024

Čítačky pomáhajú podporovať MSpoweruser. Ak nakupujete prostredníctvom našich odkazov, môžeme získať províziu.

V decembri 2023 spoločnosť Microsoft vydala Phi-2 model s 2.7 miliardami parametrov, ktorý priniesol špičkový výkon medzi modelmi základného jazyka s menej ako 13 miliardami parametrov. Za posledné štyri mesiace niekoľko ďalších modelov, ktoré boli vydané, prekonalo Phi-2. Nedávno spoločnosť Meta vydala rodinu modelov Llama-3, ktorá prekonala všetky predtým vydané modely s otvoreným zdrojovým kódom.

Včera večer spoločnosť Microsoft Research oznámila rodinu modelov Phi-3 prostredníctvom technická správa. V rodine Phi-3 sú tri modely:

phi-3-mini (3.8B)
phi-3-small (7B)
phi-3-medium (14B)

phi-3-mini s jazykovým modelom s 3.8 miliardami parametrov je trénovaný na 3.3 biliónoch tokenov. Podľa benchmarkov phi-3-mini poráža Mixtral 8x7B a GPT-3.5. Microsoft tvrdí, že tento model je dostatočne malý na to, aby sa dal nasadiť do telefónu. Microsoft použil zväčšenú verziu súboru údajov, ktorý sa používal pre phi-2, zložený zo silne filtrovaných webových údajov a syntetických údajov. Podľa výsledkov benchmarku spoločnosti Microsoft v technickom dokumente dosahujú phi-3-small a phi-3-medium pôsobivé skóre MMLU 75.3 a 78.2.

Pokiaľ ide o schopnosti LLM, zatiaľ čo model Phi-3-mini dosahuje podobnú úroveň jazykového porozumenia a schopnosti uvažovania ako oveľa väčšie modely, stále je zásadne obmedzený svojou veľkosťou pre určité úlohy. Model jednoducho nemá kapacitu na ukladanie rozsiahlych faktografických znalostí, čo je vidieť napríklad na nízkom výkone na TriviaQA. Veríme však, že túto slabinu možno vyriešiť rozšírením pomocou vyhľadávacieho nástroja.

Pradeep Viswav

Expert na softvér a služby

Pradeep je absolventom informatiky a inžinierstva. Bol tiež študentským partnerom spoločnosti Microsoft. V súčasnosti pracuje v poprednej IT spoločnosti.

Nechaj odpoveď