Microsoft Orca-Math er en liten språkmodell som kan overgå GPT-3.5 og Gemini Pro når det gjelder å løse matematiske problemer

Hjemprodukt » Nyheter

Ikon for lesetid 2 min. lese

Kalenderikon Publisert på Mars 5, 2024

by Pradeep Viswav

publisert på Mars 5, 2024

Lesere hjelper til med å støtte MSpoweruser. Vi kan få provisjon hvis du kjøper gjennom lenkene våre.

Viktige merknader

I følge benchmarks oppnådde Orca-Math 86.81 % på GSM8k pass@1.
Dette tallet slår Metas LLAMA-2-70, Googles Gemini Pro, OpenAIs GPT-3.5 og til og med matematikkspesifikke modeller som MetaMath-70B og WizardMa8th-70B.

Microsoft Research i dag annonsert Orca-Math, en liten språkmodell (SLM) som kan utkonkurrere mye større modeller som Gemini Pro og GPT-3.5 når det gjelder å løse matematiske problemer. Orca-Math eksemplifiserer hvordan spesialiserte SLM-er kan utmerke seg på spesifikke domener, til og med overgå større modeller. Det er viktig å merke seg at denne modellen ikke ble laget fra bunnen av av Microsoft, i stedet ble denne modellen laget ved å finjustere Mistral 7B-modellen.

I følge benchmarks oppnådde Orca-Math 86.81 % på GSM8k pass@1. Dette tallet slår Metas LLAMA-2-70, Googles Gemini Pro, OpenAIs GPT-3.5 og til og med matematikkspesifikke modeller som MetaMath-70B og WizardMa8th-70B. Det er viktig å merke seg at grunnmodellen Mistral-7B basert på som Orca-Math ble bygget på, oppnådde kun 37.83 % på GSM8K.

Microsoft Research var i stand til å oppnå denne imponerende ytelsen ved å følge teknikkene nedenfor:

Syntetiske data av høy kvalitet: Orca-Math ble trent på et datasett av 200,000 XNUMX matematikkoppgaver, omhyggelig laget ved hjelp av multi-agenter (AutoGen). Selv om dette datasettet er mindre enn noen andre matematiske datasett, muliggjorde det raskere og mer kostnadseffektiv opplæring.
Iterativ læringsprosess: I tillegg til tradisjonell overvåket finjustering, gjennomgikk Orca-Math en iterativ læringsprosess. Den øvde på å løse problemer og ble kontinuerlig forbedret basert på tilbakemeldinger fra et "lærer"-signal

"Våre funn viser at mindre modeller er verdifulle i spesialiserte omgivelser der de kan matche ytelsen til mye større modeller, men med et begrenset omfang. Ved å trene Orca-Math på et lite datasett med 200,000 XNUMX matematiske problemer, har vi oppnådd ytelsesnivåer som konkurrerer med eller overgår mye større modeller,» skrev Microsoft Research-teamet.

Mer om temaene: microsoft, Orca-Math, Forskning, SLM

Pradeep Viswav

Ekspert på programvare og tjenester

Pradeep er utdannet informatikk og ingeniør. Han var også en Microsoft Student Partner. Han jobber for tiden i et ledende IT-selskap.