Microsoft Orca-Math — це невелика мовна модель, яка може перевершити GPT-3.5 і Gemini Pro у вирішенні математичних задач

Значок часу читання 2 хв. читати


Читачі допомагають підтримувати MSpoweruser. Ми можемо отримати комісію, якщо ви купуєте через наші посилання. Значок підказки

Прочитайте нашу сторінку розкриття інформації, щоб дізнатися, як ви можете допомогти MSPoweruser підтримувати редакційну команду Читати далі

Основні нотатки

  • Згідно з тестами, Orca-Math досяг 86.81% на GSM8k pass@1.
  • Це число перевершує LLAMA-2-70 від Meta, Gemini Pro від Google, GPT-3.5 від OpenAI і навіть спеціальні математичні моделі, такі як MetaMath-70B і WizardMa8th-70B.
Microsoft Orca Math

Microsoft Research сьогодні оголошений Orca-Math, мала мовна модель (SLM), яка може перевершити набагато більші моделі, такі як Gemini Pro та GPT-3.5, у розв’язанні математичних задач. Orca-Math є прикладом того, як спеціалізовані SLM можуть досягти успіху в певних областях, навіть перевершуючи більші моделі. Важливо відзначити, що ця модель не була створена Microsoft з нуля, натомість ця модель була створена шляхом тонкого налаштування моделі Mistral 7B.

Згідно з тестами, Orca-Math досяг 86.81% на GSM8k pass@1. Це число перевершує LLAMA-2-70 від Meta, Gemini Pro від Google, GPT-3.5 від OpenAI і навіть спеціальні математичні моделі, такі як MetaMath-70B і WizardMa8th-70B. Важливо відзначити, що базова модель Mistral-7B, на основі якої була побудована Orca-Math, досягла лише 37.83% на GSM8K.

Microsoft Research вдалося досягти цієї вражаючої продуктивності, дотримуючись наведених нижче методів.

  • Високоякісні синтетичні дані: Orca-Math навчався на наборі даних 200,000 XNUMX математичних завдань, ретельно створений за допомогою мультиагентів (AutoGen). Хоча цей набір даних менший, ніж деякі інші набори математичних даних, він дозволив швидше та економічніше навчатися.
  • Ітеративний процес навчання: На додаток до традиційного контрольованого тонкого налаштування, Orca-Math пройшов ітеративний процес навчання. Він практикувався у вирішенні проблем і постійно вдосконалювався на основі зворотного зв’язку від сигналу «вчителя».

«Наші результати показують, що менші моделі є цінними в спеціалізованих умовах, де вони можуть зрівнятися з продуктивністю набагато більших моделей, але з обмеженим обсягом. Навчаючись Orca-Math на невеликому наборі даних із 200,000 XNUMX математичних завдань, ми досягли рівнів продуктивності, які конкурують або перевершують показники набагато більших моделей», – написала команда Microsoft Research.

Детальніше про теми: Microsoft, Orca-Math, Дослідження, SLM