Microsoft の新しい phi-1.5 1.3B モデルはベンチマークで llama2-7b を上回ります

読書時間アイコン 1分。読んだ

カレンダーアイコン上で公開 2023 年 9 月 12 日

上の公表 2023 年 9 月 12 日

読者は MSpoweruser のサポートを支援します。私たちのリンクを通じて購入すると、手数料が発生する場合があります。

Microsoft Research は昨日、phi-1.5 と呼ばれる新しい言語モデルをリリースしました。 phi-1.5 は 1.3 億のパラメータを備えた Transformer で、QA 形式、チャット形式、およびコード形式を使用したプロンプトに最適です。

この新しいモデルは、StackOverflow の Q&A コンテンツからの Python コードのサブセット、code_contests からの競争コード、合成 Python 教科書、gpt-3.5-turbo-0301 によって生成された演習など、さまざまなデータソースを使用してトレーニングされました。さまざまな NLP 合成テキスト。

Microsoft Research チームによると、常識、言語理解、論理的推論をテストするベンチマークと照らし合わせて評価した場合、phi-1.5 はパラメーターが 10 億未満のモデルの中でほぼ最先端のパフォーマンスを示しています。 phi-1.5 は、AGIEval スコアで Meta の llama-2 7b を上回り、LM-Eval Harness を使用した GPT2ALL のベンチマークスイートでは llama-7 4b とほぼ同等です。

マイクロソフトは、重要な安全上の課題を調査するための制限のない小規模モデルを研究コミュニティに提供するために、このオープンソースモデルをリリースしました。

phi-1.5モデルの詳細:

アーキテクチャ: 次の単語の予測目標を備えた Transformer ベースのモデル
データセットのサイズ: 30B トークン
トレーニングトークン: 150Bトークン
精度: fp16
GPU: 32xA100-40G
研修期間：8日間

新しい phi-1.5 モデルは、次の場所でチェックアウトできます。ここで顔を抱きしめます。

トピックの詳細: LLM, マイクロソフト, ファイ-1.5

プラディープ・ヴィスワフ

ソフトウェアおよびサービスの専門家

Pradeep はコンピュータサイエンスとエンジニアリングの卒業生です。彼はマイクロソフトの学生パートナーでもありました。現在は大手IT企業に勤務。

コメントを残す