Як модель OpenELM від Apple з відкритим кодом порівнюється з Phi-3 від Microsoft за параметрами?

Збіг

Значок часу читання 2 хв. читати


Читачі допомагають підтримувати MSpoweruser. Ми можемо отримати комісію, якщо ви купуєте через наші посилання. Значок підказки

Прочитайте нашу сторінку розкриття інформації, щоб дізнатися, як ви можете допомогти MSPoweruser підтримувати редакційну команду Читати далі

Основні нотатки

  • Apple випустила OpenELM на HuggingFace із вісьмома варіантами.
  • Кожна модель має різні параметри: 270 мільйонів, 450 мільйонів, 1.1 мільярда та 3 мільярди.
  • З іншого боку, модель Microsoft Phi-3 включає версії з 3.8 мільярдами, 7 мільярдами та 14 мільярдами параметрів.
Apple

Незабаром після того, як Microsoft запустила Родина Phi-3, набір невеликих моделей із відкритим вихідним кодом, розроблених для полегшеного використання, Apple приєдналася до поїзда. Виробники iPhone (тихо) запустили OpenELM, свою останню модель ШІ з відкритим кодом. 

OpenELM, скорочення від Open-source Efficient Language Models, поставляється у восьми варіантах кожен попередньо підготовлені та  налаштована інструкція отримує чотири. Дослідники Apple сказав що модель використовує стратегію пошарового масштабування для ефективного розподілу параметрів у кожному шарі моделі трансформатора, і ви можете використовувати ці моделі на HuggingFace.

«Наприклад, з бюджетом параметрів приблизно в один мільярд параметрів, OpenELM демонструє підвищення точності на 2.36% порівняно з OLMo, вимагаючи вдвічі менше токенів попереднього навчання», — йдеться в документації.

Що стосується розмірів, кожна модель має різні параметри: 270 мільйонів, 450 мільйонів, 1.1 мільярда і 3 мільярди. І хоча це не завжди найкращий стандарт вимірювання, параметри в моделях ШІ завжди є початком їх порівняння.

Чесно кажучи, OpenELM не такий вражаючий (за параметрами), як інші моделі з відкритим кодом: полум'я 3, який підтримує Meta AI, має максимальну кількість параметрів у 70 мільярдів, а компанія Mixtral, яку підтримує Microsoft, запустила свій Модель 8x22B з параметрами 176B.

Phi-3-mini, найменша версія моделі Phi-3 від Microsoft, має 3.8 мільярда параметрів і була тренувався тиждень за допомогою графічних процесорів Nvidia H100. Для порівняння, середня версія має 14 мільярдів параметрів, а маленька версія має 7 мільярдів параметрів.