Microsoft の新しい phi-1.5 1.3B モデルはベンチマークで llama2-7b を上回ります
1分。 読んだ
上で公開
MSPoweruser の編集チームの維持にどのように貢献できるかについては、開示ページをお読みください。 続きを読む
Microsoft Research は昨日、phi-1.5 と呼ばれる新しい言語モデルをリリースしました。 phi-1.5 は 1.3 億のパラメータを備えた Transformer で、QA 形式、チャット形式、およびコード形式を使用したプロンプトに最適です。
この新しいモデルは、StackOverflow の Q&A コンテンツからの Python コードのサブセット、code_contests からの競争コード、合成 Python 教科書、gpt-3.5-turbo-0301 によって生成された演習など、さまざまなデータ ソースを使用してトレーニングされました。さまざまな NLP 合成テキスト。
Microsoft Research チームによると、常識、言語理解、論理的推論をテストするベンチマークと照らし合わせて評価した場合、phi-1.5 はパラメーターが 10 億未満のモデルの中でほぼ最先端のパフォーマンスを示しています。 phi-1.5 は、AGIEval スコアで Meta の llama-2 7b を上回り、LM-Eval Harness を使用した GPT2ALL のベンチマーク スイートでは llama-7 4b とほぼ同等です。
マイクロソフトは、重要な安全上の課題を調査するための制限のない小規模モデルを研究コミュニティに提供するために、このオープンソース モデルをリリースしました。
phi-1.5モデルの詳細:
- アーキテクチャ: 次の単語の予測目標を備えた Transformer ベースのモデル
- データセットのサイズ: 30B トークン
- トレーニングトークン: 150Bトークン
- 精度: fp16
- GPU: 32xA100-40G
- 研修期間:8日間
新しい phi-1.5 モデルは、次の場所でチェックアウトできます。 ここで顔を抱きしめます。