Microsoft Orca-Math je malý jazykový model, ktorý dokáže prekonať GPT-3.5 a Gemini Pro pri riešení matematických problémov.

Domov » Novinky

Ikona času čítania 2 min. čítať

Ikona kalendára Publikované dňa March 5, 2024

by Pradeep Viswav

publikované dňa March 5, 2024

Čítačky pomáhajú podporovať MSpoweruser. Ak nakupujete prostredníctvom našich odkazov, môžeme získať províziu.

Kľúčové poznámky

Podľa benchmarkov dosiahol Orca-Math 86.81 % na GSM8k pass@1.
Toto číslo prekonáva LLAMA-2-70 od Meta, Gemini Pro od Google, GPT-3.5 od OpenAI a dokonca aj modely špecifické pre matematiku ako MetaMath-70B a WizardMa8th-70B.

Výskum spoločnosti Microsoft dnes oznámila, Orca-Math, malý jazykový model (SLM), ktorý dokáže prekonať oveľa väčšie modely ako Gemini Pro a GPT-3.5 pri riešení matematických problémov. Orca-Math je príkladom toho, ako môžu špecializované SLM vynikať v špecifických doménach a dokonca prekonať väčšie modely. Je dôležité poznamenať, že tento model nebol vytvorený od nuly spoločnosťou Microsoft, ale tento model vznikol jemným doladením modelu Mistral 7B.

Podľa benchmarkov dosiahol Orca-Math 86.81 % na GSM8k pass@1. Toto číslo prekonáva LLAMA-2-70 od Meta, Gemini Pro od Google, GPT-3.5 od OpenAI a dokonca aj modely špecifické pre matematiku ako MetaMath-70B a WizardMa8th-70B. Je dôležité poznamenať, že základný model Mistral-7B, na základe ktorého bola postavená Orca-Math, dosiahol na GSM37.83K iba 8 %.

Výskumu spoločnosti Microsoft sa podarilo dosiahnuť tento pôsobivý výkon pomocou nasledujúcich techník:

Vysokokvalitné syntetické dáta: Orca-Math bol trénovaný na súbore údajov 200,000 XNUMX matematických úloh, precízne vytvorený pomocou multi-agentov (AutoGen). Aj keď je tento súbor údajov menší ako niektoré iné súbory matematických údajov, umožnil rýchlejšie a nákladovo efektívnejšie školenie.
Iteračný proces učenia: Okrem tradičného dolaďovania pod dohľadom prešiel Orca-Math iteračným procesom učenia. Precvičovalo riešenie problémov a neustále sa zlepšovalo na základe spätnej väzby od „učiteľského“ signálu

„Naše zistenia ukazujú, že menšie modely sú cenné v špecializovaných prostrediach, kde sa môžu vyrovnať výkonom oveľa väčších modelov, ale s obmedzeným rozsahom. Trénovaním Orca-Math na malom súbore údajov 200,000 XNUMX matematických problémov sme dosiahli úrovne výkonu, ktoré súperia alebo prevyšujú úrovne oveľa väčších modelov,“ napísal tím Microsoft Research.

Viac o témach: microsoft, Orca-Math, Výskum, SLM

Pradeep Viswav

Expert na softvér a služby

Pradeep je absolventom informatiky a inžinierstva. Bol tiež študentským partnerom spoločnosti Microsoft. V súčasnosti pracuje v poprednej IT spoločnosti.