Microsoft představuje řadu modelů Phi-3, které překonávají ostatní modely své třídy

Ikona času čtení 2 min. číst

Ikona kalendáře Publikované dne 23. dubna 2024

publikováno dne 23. dubna 2024

Čtenáři pomáhají podporovat MSpoweruser. Pokud nakoupíte prostřednictvím našich odkazů, můžeme získat provizi.

V prosinci 2023 vydal Microsoft Phi-2 model s 2.7 miliardami parametrů, který poskytoval špičkový výkon mezi modely základních jazyků s méně než 13 miliardami parametrů. V posledních čtyřech měsících několik dalších modelů, které byly vydány, překonalo Phi-2. Nedávno Meta vydala rodinu modelů Llama-3, které překonaly všechny dříve vydané open-source modely.

Včera v noci společnost Microsoft Research oznámila řadu modelů Phi-3 prostřednictvím technickou zprávu. V rodině Phi-3 jsou tři modely:

phi-3-mini (3.8B)
phi-3-small (7B)
phi-3-medium (14B)

phi-3-mini s jazykovým modelem s 3.8 miliardami parametrů je trénováno na 3.3 bilionu tokenů. Podle benchmarků phi-3-mini poráží Mixtral 8x7B a GPT-3.5. Microsoft tvrdí, že tento model je dostatečně malý na to, aby mohl být nasazen na telefonu. Microsoft použil zvětšenou verzi datové sady, která byla použita pro phi-2, složenou ze silně filtrovaných webových dat a syntetických dat. Podle výsledků benchmarku společnosti Microsoft v technickém dokumentu dosahují phi-3-small a phi-3-medium působivého skóre MMLU 75.3 a 78.2.

Pokud jde o schopnosti LLM, model Phi-3-mini sice dosahuje podobné úrovně jazykového porozumění a schopnosti uvažování jako u mnohem větších modelů, stále je však pro určité úkoly zásadně omezen svou velikostí. Model prostě nemá kapacitu na uložení rozsáhlých faktických znalostí, což je vidět například na nízkém výkonu na TriviaQA. Věříme však, že tuto slabinu lze vyřešit rozšířením pomocí vyhledávače.

Pradeep Viswav

Expert na software a služby

Pradeep je absolventem informatiky a inženýrství. Byl také studentským partnerem společnosti Microsoft. V současné době pracuje v přední IT společnosti.

Napsat komentář