OpenAIの新しいベンチマークSimpleQAはAIモデルの事実の正確性を評価する

AIはよく幻覚を起こします。

読書時間アイコン 2分。 読んだ


読者は MSpoweruser のサポートを支援します。私たちのリンクを通じて購入すると、手数料が発生する場合があります。 ツールチップアイコン

MSPoweruser の編集チームの維持にどのように貢献できるかについては、開示ページをお読みください。 続きを読む

キーノート

  • OpenAI の SimpleQA ベンチマークは、短い事実に基づく質問に対する AI モデルの精度をテストします。
  • データセットには 4,326 の質問が含まれており、複数の AI トレーナーが回答を検証しています。
  • 結果は、モデルが大きいほどパフォーマンスが向上することを示していますが、信頼できる精度を得るにはさらなる改善が必要です。
OpenAI、ChatGPT

OpenAI は、AI モデルの事実の正確性に取り組んで評価するために設計された、SimpleQA と呼ばれる新しいベンチマークを発表しました。

マイクロソフトが支援する企業 発表の SimpleQA は、事実を求める短い質問に答えるモデルの能力を測定します。簡潔なクエリと明確で検証可能な回答に焦点を当てているため、事実性の評価が簡素化されます。

「事実性は測定が難しいため複雑なトピックです。任意の主張の事実性を評価することは困難であり、言語モデルはしばしば数十の事実の主張を含む長い補完を生成します」とOpenAIは述べています。 14ページの文書 ベンチマークの。

このデータセットにはさまざまなトピックに関する 4,326 の質問が含まれており、回答の正確性は複数の AI トレーナーによってチェックされています。初期の結果では、大規模なモデルの方がパフォーマンスが向上することが示されていますが、明確で正確な回答を出す能力を向上させる余地はまだ十分にあります。

AI が「幻覚を起こす」とは、実際のデータや事実の証拠に基づかない誤った情報や不正確な情報を生成することを意味します。AI は必ずしも事実を完全に理解しているわけではなく、特に回答を裏付ける信頼できるデータが不足している場合や知識の期限が迫っている場合には、推測や不正確な情報でギャップを埋めることがあります。

AIがもたらす馬鹿げた出来事の多くは基本的にこれと同じで、例えば Google の AI 概要、ChatGPT、または 時には副操縦士でさえこうした幻覚が起きないようにし、AI の回答がすべて事実に基づいたものになるように、SimpleQA がリリースされました。

ユーザーフォーラム

0メッセージ