GPT4 は DOOM をプレイし、ゲーム内の敵のことなど忘れ、喜んで銃を手に取り爆破を始めます
2分。 読んだ
上で公開
MSPoweruser の編集チームの維持にどのように貢献できるかについては、開示ページをお読みください。 続きを読む
キーノート
-
GPT-4 のマルチモーダル版である GPT-4V は、事前のトレーニングなしで DOOM をプレイできます。
-
システムはスクリーンショットを使用してゲームの状態を理解し、エージェント モデルを使用して意思決定を行います。
-
GPT-4 はオブジェクトの永続性とその動作の説明に苦労しており、時々誤った情報を提供します。
イギリスのヨーク大学の研究者であるエイドリアン・デ・ウィンター氏による最近の研究論文では、古典的な一人称シューティング ゲーム DOOM のプレイにおける GPT4 の機能が調査されています。
「GPT-4 は DOOM を実行しますか?」は、GPT4 が事前のトレーニングなしでゲームをプレイできるかどうかを調べます。これをテストするために、de Wynter は、画像を入力として受け入れることができる GPT4 のマルチモーダル バリアントである GPT-4V を使用して、ゲーム エンジンからスクリーンショットをキャプチャし、ゲーム状態の構造化された説明を返すシステムを設計しました。
この情報はその後、視覚的な入力と以前の履歴に基づいて意思決定を行うエージェント モデルに入力され、その応答がゲーム エンジンが理解できるキーストローク コマンドに変換されます。
簡単に言うと、システムはゲームのスクリーンショットを取得し、それを使用して何が起こっているかを把握します。次に、エージェント モデルと呼ばれるシステムの別の部分を使用して、ゲーム内で次に何を行うかを決定します。エージェント モデルは、その決定を、どのキーを押すかなど、ゲームが理解できるコマンドに変換します。
このシステムは『DOOM』のプレイに有望であることを示しましたが、いくつかの限界も明らかになりました。主な問題の 1 つは、
- GPT4 にはオブジェクトの永続性がないため、ゲーム内の敵が画面外に出ると忘れてしまいます。
- さらに、GPT4 はその動作を推論して明確に説明するのに苦労し、誤った情報を提供することがよくありました。
こうした制限にもかかわらず、デ・ウィンター氏は次の点が注目に値すると考えています。 GPT4 は DOOM をプレイできます 事前のトレーニングなしで。