Microsoft představuje řadu modelů Phi-3, které překonávají ostatní modely své třídy
2 min. číst
Publikované dne
Přečtěte si naši informační stránku a zjistěte, jak můžete pomoci MSPoweruser udržet redakční tým Dozvědět se více
V prosinci 2023 vydal Microsoft Phi-2 model s 2.7 miliardami parametrů, který poskytoval špičkový výkon mezi modely základních jazyků s méně než 13 miliardami parametrů. V posledních čtyřech měsících několik dalších modelů, které byly vydány, překonalo Phi-2. Nedávno Meta vydala rodinu modelů Llama-3, které překonaly všechny dříve vydané open-source modely.
Včera v noci společnost Microsoft Research oznámila řadu modelů Phi-3 prostřednictvím technickou zprávu. V rodině Phi-3 jsou tři modely:
- phi-3-mini (3.8B)
- phi-3-small (7B)
- phi-3-medium (14B)
phi-3-mini s jazykovým modelem s 3.8 miliardami parametrů je trénováno na 3.3 bilionu tokenů. Podle benchmarků phi-3-mini poráží Mixtral 8x7B a GPT-3.5. Microsoft tvrdí, že tento model je dostatečně malý na to, aby mohl být nasazen na telefonu. Microsoft použil zvětšenou verzi datové sady, která byla použita pro phi-2, složenou ze silně filtrovaných webových dat a syntetických dat. Podle výsledků benchmarku společnosti Microsoft v technickém dokumentu dosahují phi-3-small a phi-3-medium působivého skóre MMLU 75.3 a 78.2.
Pokud jde o schopnosti LLM, model Phi-3-mini sice dosahuje podobné úrovně jazykového porozumění a schopnosti uvažování jako u mnohem větších modelů, stále je však pro určité úkoly zásadně omezen svou velikostí. Model prostě nemá kapacitu na uložení rozsáhlých faktických znalostí, což je vidět například na nízkém výkonu na TriviaQA. Věříme však, že tuto slabinu lze vyřešit rozšířením pomocí vyhledávače.