Microsoft představuje řadu modelů Phi-3, které překonávají ostatní modely své třídy

Ikona času čtení 2 min. číst


Čtenáři pomáhají podporovat MSpoweruser. Pokud nakoupíte prostřednictvím našich odkazů, můžeme získat provizi. Ikona popisku

Přečtěte si naši informační stránku a zjistěte, jak můžete pomoci MSPoweruser udržet redakční tým Dozvědět se více

Microsoft Phi-3

V prosinci 2023 vydal Microsoft Phi-2 model s 2.7 miliardami parametrů, který poskytoval špičkový výkon mezi modely základních jazyků s méně než 13 miliardami parametrů. V posledních čtyřech měsících několik dalších modelů, které byly vydány, překonalo Phi-2. Nedávno Meta vydala rodinu modelů Llama-3, které překonaly všechny dříve vydané open-source modely.

Včera v noci společnost Microsoft Research oznámila řadu modelů Phi-3 prostřednictvím technickou zprávu. V rodině Phi-3 jsou tři modely:

  • phi-3-mini (3.8B)
  • phi-3-small (7B)
  • phi-3-medium (14B)

phi-3-mini s jazykovým modelem s 3.8 miliardami parametrů je trénováno na 3.3 bilionu tokenů. Podle benchmarků phi-3-mini poráží Mixtral 8x7B a GPT-3.5. Microsoft tvrdí, že tento model je dostatečně malý na to, aby mohl být nasazen na telefonu. Microsoft použil zvětšenou verzi datové sady, která byla použita pro phi-2, složenou ze silně filtrovaných webových dat a syntetických dat. Podle výsledků benchmarku společnosti Microsoft v technickém dokumentu dosahují phi-3-small a phi-3-medium působivého skóre MMLU 75.3 a 78.2.

Pokud jde o schopnosti LLM, model Phi-3-mini sice dosahuje podobné úrovně jazykového porozumění a schopnosti uvažování jako u mnohem větších modelů, stále je však pro určité úkoly zásadně omezen svou velikostí. Model prostě nemá kapacitu na uložení rozsáhlých faktických znalostí, což je vidět například na nízkém výkonu na TriviaQA. Věříme však, že tuto slabinu lze vyřešit rozšířením pomocí vyhledávače.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Povinné položky jsou označeny *