Googleのテキストから画像へのジェネレーターImagenは、「前例のない程度のフォトリアリズム」を備えた画像を生成します

読書時間アイコン 3分。 読んだ


読者は MSpoweruser のサポートを支援します。私たちのリンクを通じて購入すると、手数料が発生する場合があります。 ツールチップアイコン

MSPoweruser の編集チームの維持にどのように貢献できるかについては、開示ページをお読みください。 続きを読む

でログイン画像、」人が提供する説明を介したテキストから画像へのジェネレータ。 同社は、別のAI画像ジェネレーターであるDALL-E2のパフォーマンスを上回っていると主張しています。 それは紛れもなく絶妙な詳細を示すいくつかのサンプルを提示しましたが、Imagenは現在一般に公開されていません。

新しいテキストから画像への拡散モデルは、「前例のない程度のフォトリアリズムと深いレベルの言語理解」を備えていると説明されています。 大規模なトランスフォーマー言語モデルを介してテキストを理解し、拡散モデルに依存して忠実度の高い画像生成を実行すると言われています。

以下の説明を含む画像生成画像

Googleは、Imagenの作品の画像とサンプルを、図面から油絵やCGIまでさまざまなスタイルで提供しました。 それらは、それらを生成するために使用される単語やフレーズを伴います。 たとえば、XNUMXつのサンプルには「雪の中で空手ベルトをかぶったドラゴンフルーツ」と書かれていますが、もうXNUMXつのサンプルには「サハラ砂漠で麦わら帽子とネオンサングラスをかぶった小さなサボテン」と書かれています。

生成された画像は、まるで実際の人によって作成されたかのように、信じられないほどリアルに見えます。 しかし、グーグルは、純粋なノイズ画像を利用し、可能な限り最良の方法でそれを洗練することにより、拡散技術によって行われると言っています。 提供されたテキストの説明を理解することにより、Imagenは64 x 64ピクセルの画像を生成し、1024つの拡張を実行し、画像をより大きな1024xXNUMXピクセルの部分に変換します。

Google Research、Brain Teamは、Imagenが優れていると述べています COCO (大規模なオブジェクト検出、セグメンテーション、およびキャプションデータセット)トレーニングを受けていないにもかかわらず。 チームは、7.27という新しい最先端のFIDスコアを受け取ったと報告しました。

また、Googleは、「DrawBench」を使用してそれらを評価することにより、Imagenのパフォーマンスを他のテキストから画像へのモデルと比較しました。 これは、GoogleがVQ-GAN + CLIP、潜在拡散モデル、DALL-E 2などの他の方法でImagenをテストした、テキストから画像へのモデルのベンチマークとして機能します。チームは、テキスト、珍しい言葉、やりがいのあるプロンプトについて、「人間の評価者は、画像とテキストの位置合わせと画像の忠実度の両方において、他の方法よりもImagenを強く好む」と述べました。

研究チームからのこれらの印象的な報告にもかかわらず、Imagenを自分でテストすることは、一般に公開されていないため不可能です。 Googleには、倫理的な課題、誤用の潜在的なリスク、社会的偏見、大規模な言語モデルの制限、エンコードされた有害なステレオタイプや表現のリスクなど、その理由があります。 チームは、これらすべての課題があるにもかかわらず、人に関連する画像を生成することに関しては、Imagenはまだ完璧ではないと要約しています。 

「Imagenは、人を描いた画像を生成するときに深刻な制限を示します」とチームはブログ投稿で説明しています。 「私たちの人間による評価では、Imagenは、人物を描写していない画像で評価した場合に大幅に高い優先度を取得し、画像の忠実度が低下していることを示しています。 予備評価では、Imagenがいくつかの社会的バイアスとステレオタイプをエンコードしていることも示唆されています。これには、肌の色が薄い人の画像を生成する全体的なバイアスや、さまざまな職業を描いた画像が西洋の性別のステレオタイプと一致する傾向が含まれます。 最後に、世代を人から遠ざける場合でも、予備分析では、Imagenがアクティビティ、イベント、オブジェクトの画像を生成するときに、さまざまな社会的および文化的バイアスをエンコードしていることが示されています。 私たちは、将来の作業において、これらの未解決の課題と制限のいくつかを進展させることを目指しています。」

コメントを残す

あなたのメールアドレスは公開されません。 必須フィールドは、マークされています *