Microsoft の新しい AI ツールがあなたの想像力を現実にします

読書時間アイコン 3分。 読んだ


読者は MSpoweruser のサポートを支援します。私たちのリンクを通じて購入すると、手数料が発生する場合があります。 ツールチップアイコン

MSPoweruser の編集チームの維持にどのように貢献できるかについては、開示ページをお読みください。 続きを読む

コンピューターに説明するだけで高品質の写真を生成できると想像してみてください。 このSFシナリオは、Microsoftの新しいAIツールのおかげで現実のものになりました。

Drawing Botは、「体が黄色で、羽が黒く、くちばしが短い鳥、」は、AIがキャプションのようなテキストの説明から画像を生成するときに個々の単語に細心の注意を払う新しい技術を使用しており、他のテキストから画像への生成技術と比較して画質が3倍向上します。

ボットは鳥だけでなく、家畜の放牧などの通常の牧歌的なシーンから、浮かぶXNUMX階建てバスなどの不条理なシーンまで、あらゆるものを描画できます。

「Bingに行って鳥を検索すると、鳥の写真が表示されます。 しかし、ここでは、写真はコンピューターによってピクセルごとにゼロから作成されています」と、ワシントン州レドモンドにあるマイクロソフトの研究所のディープラーニングテクノロジーセンターの主任研究員兼研究マネージャーであるXiaodongHe氏は述べています。 「これらの鳥は現実の世界には存在しない可能性があります。これらは、コンピューターによる鳥の想像力のほんの一部にすぎません。」

チームは、画像のキャプションを自動的に書き込むCaptionBot(たとえば、アクセシビリティの目的で画像にタグを付けるためにFacebookで使用される)から始め、視覚障害のあるユーザーが携帯電話のカメラを使用してシーンを説明できるSeeingAIから始めました。描画ボット。

「今、私たちはテキストを使って画像を生成したいと思っています」と、彼のグループのポスドク研究員であり、論文の共著者であるQiuyuanHuangは述べています。 「それで、それはサイクルです。」

この偉業は、敵対的生成ネットワーク(GAN)の例であり、XNUMXつのAIネットワークであるジェネレーターが、別のAIネットワークであるディスクリミネーターを通過して偽の写真を取得しようとします。 一緒に働いて、弁別器は発電機を完璧に向かって押します。

新しい手法は、文のさまざまな部分に順番に集中することで、最先端の技術を向上させます。たとえば、最初に黄色い鳥を描き、次に黒い翼を描き、次に短いくちばしを描きます。

「注意は人間の概念です。 注意を計算するために数学を使用します」と彼は説明しました。

「私たちは自分たちが説明することを制御し、機械がどのように反応するかを見ることができます」と彼は説明しました。 「機械が学習したことを突いてテストすることができます。 このマシンには、ある程度のバックグラウンド学習の常識がありますが、それでもあなたの要求に従うことができ、場合によっては、少しばかげているように見えることもあります。」

テキストから画像への生成技術は、画家やインテリアデザイナーの一種のスケッチアシスタントとして、または音声起動の写真の洗練のためのツールとして機能する実用的なアプリケーションを見つけることができます。 より多くの計算能力があれば、彼はこの技術が脚本に基づいてアニメーション映画を生成できると想像し、アニメーション映画製作者が行う手作業の一部を取り除くことで作業を強化します。

「AIと人間が同じ世界に住むためには、お互いに相互作用する方法が必要です」と彼は説明しました。 「そして、言語とビジョンは、人間と機械が相互作用するためのXNUMXつの最も重要なモダリティです。」

研究を説明する完全な論文はで見つけることができます arXiv.org.

Microsoft.com

トピックの詳細: ai, 描画ボット, マイクロソフト, 研究

コメントを残す

あなたのメールアドレスは公開されません。 必須フィールドは、マークされています *