Microsoft introduceert de Phi-3-familie van modellen die beter presteren dan andere modellen in zijn klasse

Pictogram voor leestijd 2 minuut. lezen


Lezers helpen MSpoweruser ondersteunen. We kunnen een commissie krijgen als u via onze links koopt. Tooltip-pictogram

Lees onze openbaarmakingspagina om erachter te komen hoe u MSPoweruser kunt helpen het redactieteam te ondersteunen Lees meer

Microsoft Phi-3

In december 2023 bracht Microsoft het uit Phi-2 model met 2.7 miljard parameters dat state-of-the-art prestaties leverde onder basistaalmodellen met minder dan 13 miljard parameters. In de afgelopen vier maanden presteerden verschillende andere modellen die op de markt kwamen beter dan Phi-2. Onlangs heeft Meta de Llama-3-familie van modellen uitgebracht die beter presteerden dan alle eerder uitgebrachte open-sourcemodellen.

Gisteravond heeft Microsoft Research de Phi-3-familie van modellen aangekondigd via een technisch rapport. Er zijn drie modellen in de Phi-3-familie:

  • phi-3-mini (3.8B)
  • phi-3-klein (7B)
  • phi-3-medium (14B)

De phi-3-mini met een taalmodel met 3.8 miljard parameters is getraind op 3.3 biljoen tokens. Volgens benchmarks verslaat phi-3-mini Mixtral 8x7B en GPT-3.5. Microsoft beweert dat dit model klein genoeg is om op een telefoon te worden ingezet. Microsoft gebruikte een opgeschaalde versie van de dataset die werd gebruikt voor phi-2, bestaande uit zwaar gefilterde webdata en synthetische data. Volgens de benchmarkresultaten van Microsoft op het technische document behalen phi-3-small en phi-3-medium een ​​indrukwekkende MMLU-score van respectievelijk 75.3 en 78.2.

In termen van LLM-mogelijkheden wordt het Phi-3-mini-model, hoewel het een vergelijkbaar niveau van taalbegrip en redeneervermogen bereikt als die van veel grotere modellen, nog steeds fundamenteel beperkt door zijn omvang voor bepaalde taken. Het model heeft simpelweg niet de capaciteit om uitgebreide feitelijke kennis op te slaan, wat bijvoorbeeld te zien is aan de lage prestaties op TriviaQA. Wij zijn echter van mening dat deze zwakte kan worden opgelost door uitbreiding met een zoekmachine.