Microsoft Orca-Math on pieni kielimalli, joka voi ylittää GPT-3.5:n ja Gemini Pron matemaattisten ongelmien ratkaisemisessa

Lukuajan kuvake 2 min. lukea


Lukijat auttavat tukemaan MSpoweruseria. Saatamme saada palkkion, jos ostat linkkien kautta. Työkaluvihje-kuvake

Lue ilmoitussivumme saadaksesi selville, kuinka voit auttaa MSPoweruseria ylläpitämään toimitustiimiä Lue lisää

Keskeiset huomautukset

  • Vertailuarvojen mukaan Orca-Math saavutti 86.81 % GSM8k pass@1:ssä.
  • Tämä luku päihittää Metan LLAMA-2-70:n, Googlen Gemini Pron, OpenAI:n GPT-3.5:n ja jopa matemaattiset mallit, kuten MetaMath-70B ja WizardMa8th-70B.
Microsoft Orca Math

Microsoft Research tänään ilmoitti Orca-Math, pieni kielimalli (SLM), joka voi ratkaista paljon suurempia malleja, kuten Gemini Pro ja GPT-3.5, matemaattisten ongelmien ratkaisemisessa. Orca-Math on esimerkki siitä, kuinka erikoistuneet SLM:t voivat menestyä tietyillä aloilla, jopa suurempia malleja paremmin. On tärkeää huomata, että Microsoft ei luonut tätä mallia tyhjästä, vaan tämä malli luotiin hienosäätämällä Mistral 7B -mallia.

Vertailuarvojen mukaan Orca-Math saavutti 86.81 % GSM8k pass@1:ssä. Tämä luku päihittää Metan LLAMA-2-70:n, Googlen Gemini Pron, OpenAI:n GPT-3.5:n ja jopa matemaattiset mallit, kuten MetaMath-70B ja WizardMa8th-70B. On tärkeää huomata, että perusmalli Mistral-7B, jonka pohjalta Orca-Math rakennettiin, saavutti vain 37.83 % GSM8K:ssa.

Microsoft Research pystyi saavuttamaan tämän vaikuttavan suorituskyvyn seuraamalla alla olevia tekniikoita:

  • Korkealaatuinen synteettinen data: Orca-Math on koulutettu tietojoukosta 200,000 XNUMX matemaattista tehtävää, joka on valmistettu huolellisesti moniagenttien avulla (AutoGen). Vaikka tämä tietojoukko on pienempi kuin jotkut muut matemaattiset tietojoukot, se mahdollisti nopeamman ja kustannustehokkaamman koulutuksen.
  • Iteratiivinen oppimisprosessi: Perinteisen ohjatun hienosäädön lisäksi Orca-Math kävi läpi iteratiivisen oppimisprosessin. Se harjoitteli ongelmien ratkaisemista ja kehittyi jatkuvasti ”opettaja”-signaalin palautteen perusteella

”Tuloksemme osoittavat, että pienemmät mallit ovat arvokkaita erikoisasetuksissa, joissa ne voivat vastata paljon suurempien mallien suorituskykyä, mutta rajallinen laajuus. Harjoittelemalla Orca-Mathia pienessä 200,000 XNUMX matemaattisen tehtävän tietojoukossa olemme saavuttaneet suorituskykytasoja, jotka kilpailevat tai ylittävät paljon suurempien mallien tasot", Microsoftin tutkimustiimi kirjoitti.

Lisää aiheista: microsoft, Orca-Math, tutkimus, SLM