Microsoft Orca-Math to mały model językowy, który może przewyższać GPT-3.5 i Gemini Pro w rozwiązywaniu problemów matematycznych
2 minuta. czytać
Opublikowany
Przeczytaj naszą stronę z informacjami, aby dowiedzieć się, jak możesz pomóc MSPoweruser w utrzymaniu zespołu redakcyjnego Czytaj więcej
Kluczowe uwagi
- Według testów porównawczych Orca-Math osiągnęła 86.81% na przepustce GSM8k@1.
- Liczba ta przewyższa LLAMA-2-70 firmy Meta, Gemini Pro firmy Google, GPT-3.5 OpenAI, a nawet modele matematyczne, takie jak MetaMath-70B i WizardMa8th-70B.
Microsoft Research dzisiaj ogłosił Orca-Math, mały model językowy (SLM), który może przewyższać znacznie większe modele, takie jak Gemini Pro i GPT-3.5, w rozwiązywaniu problemów matematycznych. Orca-Math jest przykładem tego, jak wyspecjalizowane SLM mogą wyróżniać się w określonych dziedzinach, a nawet przewyższać większe modele. Warto zaznaczyć, że model ten nie został stworzony od podstaw przez firmę Microsoft, lecz model ten powstał w wyniku dopracowania modelu Mistral 7B.
Według testów porównawczych Orca-Math osiągnęła 86.81% na przepustce GSM8k@1. Liczba ta przewyższa LLAMA-2-70 firmy Meta, Gemini Pro firmy Google, GPT-3.5 OpenAI, a nawet modele matematyczne, takie jak MetaMath-70B i WizardMa8th-70B. Warto zaznaczyć, że bazowy model Mistral-7B, na bazie którego zbudowano Orca-Math, uzyskał na GSM37.83K jedynie 8%.
Dział badawczy firmy Microsoft był w stanie osiągnąć tę imponującą wydajność, stosując poniższe techniki:
- Wysokiej jakości dane syntetyczne: Orca-Math został przeszkolony na zbiorze danych 200,000 XNUMX problemów matematycznych, skrupulatnie wykonane przy użyciu wielu agentów (AutoGen). Chociaż ten zbiór danych jest mniejszy niż inne zbiory danych matematycznych, umożliwił szybsze i bardziej opłacalne szkolenie.
- Iteracyjny proces uczenia się: Oprócz tradycyjnego nadzorowanego dostrajania, Orca-Math przeszedł iteracyjny proces uczenia się. Ćwiczono rozwiązywanie problemów i stale się doskonalono w oparciu o informacje zwrotne przekazywane przez sygnał „nauczyciela”.
„Nasze ustalenia pokazują, że mniejsze modele są cenne w wyspecjalizowanych zastosowaniach, gdzie mogą dorównać wydajnością znacznie większym modelom, ale w ograniczonym zakresie. Ucząc Orca-Math na małym zbiorze danych obejmującym 200,000 XNUMX problemów matematycznych, osiągnęliśmy poziom wydajności porównywalny lub przewyższający znacznie większe modele” – napisał zespół badawczy firmy Microsoft.