Microsoft esittelee Phi-3-malliperheen, joka ylittää muut luokkansa mallit

2 min. lukea

Päivitetty Heinäkuu 29, 2024

päivitetty Heinäkuu 29, 2024

Lukijat auttavat tukemaan MSpoweruseria. Saatamme saada palkkion, jos ostat linkkien kautta.

Joulukuussa 2023 Microsoft julkaisi Phi-2 2.7 miljardin parametrin malli, joka tarjosi huippuluokan suorituskyvyn peruskielimalleissa, joissa on alle 13 miljardia parametria. Viimeisen neljän kuukauden aikana useat muut julkaistut mallit suorittivat Phi-2:n paremmin. Hiljattain Meta julkaisi Llama-3-malliperheen, joka ylitti kaikki aiemmin julkaistut avoimen lähdekoodin mallit.

Viime yönä Microsoft Research julkisti Phi-3-malliperheen kautta tekninen raportti. Phi-3-perheessä on kolme mallia:

phi-3-mini (3.8B)
phi-3-small (7B)
phi-3-medium (14B)

phi-3-mini, jossa on 3.8 miljardin parametrin kielimalli, on koulutettu 3.3 biljoonalla tunnuksella. Vertailuarvojen mukaan phi-3-mini voittaa Mixtral 8x7B:n ja GPT-3.5:n. Microsoft väittää, että tämä malli on tarpeeksi pieni käytettäväksi puhelimessa. Microsoft käytti phi-2:ssa käytetyn tietojoukon skaalattua versiota, joka koostui voimakkaasti suodatetuista verkkotiedoista ja synteettisistä tiedoista. Microsoftin Technical Paperin vertailutulosten mukaan phi-3-small ja phi-3-medium saavuttavat vaikuttavat MMLU-pisteet 75.3 ja 78.2.

Mitä tulee LLM-ominaisuuksiin, vaikka Phi-3-mini-malli saavuttaa saman tason kielen ymmärtämisessä ja päättelykyvyssä kuin paljon suuremmissa malleissa, sitä rajoittaa silti sen koko tietyissä tehtävissä. Mallilla ei yksinkertaisesti ole kykyä tallentaa laajaa faktatietoa, mikä näkyy esimerkiksi TriviaQA:n heikon suorituskyvyn yhteydessä. Uskomme kuitenkin, että tämä heikkous voidaan korjata lisäämällä hakukoneeseen.

Pradeep Viswav

Ohjelmisto- ja palveluasiantuntija

Pradeep on tietojenkäsittelytieteen ja tekniikan tutkinnon suorittanut. Hän oli myös Microsoft Student Partner. Tällä hetkellä hän työskentelee johtavassa IT-yrityksessä.

Käyttäjäfoorumi

0-viestit

Järjestä:

Jätä vastaus