Microsoft の新しい phi-1.5 1.3B モデルはベンチマークで llama2-7b を上回ります

読書時間アイコン 1分。 読んだ


読者は MSpoweruser のサポートを支援します。私たちのリンクを通じて購入すると、手数料が発生する場合があります。 ツールチップアイコン

MSPoweruser の編集チームの維持にどのように貢献できるかについては、開示ページをお読みください。 続きを読む

マイクロソフトリサーチ

Microsoft Research は昨日、phi-1.5 と呼ばれる新しい言語モデルをリリースしました。 phi-1.5 は 1.3 億のパラメータを備えた Transformer で、QA 形式、チャット形式、およびコード形式を使用したプロンプトに最適です。

この新しいモデルは、StackOverflow の Q&A コンテンツからの Python コードのサブセット、code_contests からの競争コード、合成 Python 教科書、gpt-3.5-turbo-0301 によって生成された演習など、さまざまなデータ ソースを使用してトレーニングされました。さまざまな NLP 合成テキスト。

Microsoft Research チームによると、常識、言語理解、論理的推論をテストするベンチマークと照らし合わせて評価した場合、phi-1.5 はパラメーターが 10 億未満のモデルの中でほぼ最先端のパフォーマンスを示しています。 phi-1.5 は、AGIEval スコアで Meta の llama-2 7b を上回り、LM-Eval Harness を使用した GPT2ALL のベンチマーク スイートでは llama-7 4b とほぼ同等です。

マイクロソフトは、重要な安全上の課題を調査するための制限のない小規模モデルを研究コミュニティに提供するために、このオープンソース モデルをリリースしました。

phi-1.5モデルの詳細:

  • アーキテクチャ: 次の単語の予測目標を備えた Transformer ベースのモデル
  • データセットのサイズ: 30B トークン
  • トレーニングトークン: 150Bトークン
  • 精度: fp16
  • GPU: 32xA100-40G
  • 研修期間:8日間

新しい phi-1.5 モデルは、次の場所でチェックアウトできます。 ここで顔を抱きしめます。

トピックの詳細: LLM, マイクロソフト, ファイ-1.5

コメントを残す

あなたのメールアドレスは公開されません。 必須フィールドは、マークされています *