A Microsoft bemutatja a Phi-3 modellcsaládot, amely felülmúlja osztálya többi modelljét

Olvasási idő ikonra 2 perc olvas


Az olvasók segítenek az MSpoweruser támogatásában. Kaphatunk jutalékot, ha a linkjeinken keresztül vásárol. Eszköztipp ikon

Olvassa el közzétételi oldalunkat, hogy megtudja, hogyan segítheti az MSPowerusert a szerkesztői csapat fenntartásában Tovább

Microsoft Phi-3

2023 decemberében a Microsoft kiadta Phi-2 2.7 milliárd paraméterrel rendelkező modell, amely a 13 milliárdnál kevesebb paramétert tartalmazó alapnyelvi modellek között a legkorszerűbb teljesítményt nyújtotta. Az elmúlt négy hónapban számos más modell, amely megjelent, felülmúlta a Phi-2-t. Nemrég a Meta kiadta a Llama-3 modellcsaládot, amely felülmúlta az összes korábban kiadott nyílt forráskódú modellt.

Tegnap este a Microsoft Research bejelentette a Phi-3 modellcsaládot keresztül műszaki jelentést. Három modell található a Phi-3 családban:

  • phi-3-mini (3.8B)
  • phi-3-small (7B)
  • phi-3-medium (14B)

A 3 milliárd paraméteres nyelvi modellel rendelkező phi-3.8-mini 3.3 billió tokenre van kiképezve. A benchmarkok szerint a phi-3-mini legyőzi a Mixtral 8x7B-t és a GPT-3.5-öt. A Microsoft azt állítja, hogy ez a modell elég kicsi ahhoz, hogy telefonon is telepíthető legyen. A Microsoft a phi-2-höz használt adatkészlet felnagyított változatát használta, amely erősen szűrt webadatokból és szintetikus adatokból állt. A Microsoft műszaki dokumentumban szereplő benchmark eredményei szerint a phi-3-small és a phi-3-medium lenyűgöző, 75.3-as, illetve 78.2-es MMLU-pontszámot ér el.

Ami az LLM-képességeket illeti, míg a Phi-3-mini modell hasonló szintű nyelvértést és érvelési képességet ér el, mint a jóval nagyobb modellek esetében, bizonyos feladatoknál mégis alapvetően korlátozza a mérete. A modell egyszerűen nem képes kiterjedt tényszerű ismereteket tárolni, ami például a TriviaQA alacsony teljesítménye mellett is látható. Úgy gondoljuk azonban, hogy ez a gyengeség megoldható egy keresőmotorral történő kiegészítéssel.