Das neue KI-Tool von Microsoft lässt Ihre Fantasie Wirklichkeit werden

Symbol für die Lesezeit 3 Minute. lesen


Leser unterstützen MSpoweruser. Wir erhalten möglicherweise eine Provision, wenn Sie über unsere Links kaufen. Tooltip-Symbol

Lesen Sie unsere Offenlegungsseite, um herauszufinden, wie Sie MSPoweruser dabei helfen können, das Redaktionsteam zu unterstützen Lesen Sie weiter

Stellen Sie sich vor, Sie könnten qualitativ hochwertige Fotos erstellen, indem Sie sie einfach einem Computer beschreiben. Dieses Sci-Fi-Szenario ist dank Microsofts neuem KI-Tool jetzt Realität.

Drawing Bot erstellte das obige Bild einfach aus der Beschreibung von „ein Vogel mit gelbem Körper, schwarzen Flügeln und kurzem Schnabel,“ unter Verwendung einer neuen Technik, bei der die KI beim Generieren von Bildern aus beschriftungsähnlichen Textbeschreibungen genau auf einzelne Wörter achtet, was zu einer dreifachen Steigerung der Bildqualität im Vergleich zu anderen Text-zu-Bild-Generierungstechniken führt.

Der Bot kann mehr als nur Vögel, er kann alles von gewöhnlichen Hirtenszenen wie weidendem Vieh bis hin zum Absurden wie einem schwimmenden Doppeldeckerbus zeichnen.

„Wenn Sie zu Bing gehen und nach einem Vogel suchen, erhalten Sie ein Vogelbild. Aber hier werden die Bilder vom Computer Pixel für Pixel von Grund auf neu erstellt“, sagte Xiaodong He, leitender Forscher und Forschungsmanager im Deep Learning Technology Center des Microsoft-Forschungslabors in Redmond, Washington. „Diese Vögel existieren möglicherweise nicht in der realen Welt – sie sind nur ein Aspekt der Vogelvorstellung unseres Computers.“

Das Team begann mit CaptionBot, das automatisch Bildunterschriften schrieb (wird beispielsweise auf Facebook verwendet, um Bilder für Barrierefreiheitszwecke zu markieren), dann SeeingAI, mit dem sehbehinderte Benutzer ihre Telefonkamera verwenden konnten, um sich Szenen beschreiben zu lassen, und jetzt endlich Zeichnungs-Bot.

„Jetzt wollen wir den Text verwenden, um das Bild zu erzeugen“, sagte Qiuyuan Huang, ein Postdoktorand in Hes Gruppe und Co-Autor der Veröffentlichung. „Es ist also ein Kreislauf.“

Das Kunststück ist ein Beispiel für ein Generative Adversarial Network oder GAN, bei dem ein KI-Netzwerk, der Generator, versucht, gefälschte Bilder an einem anderen KI-Netzwerk, dem Diskriminator, vorbeizubekommen. Gemeinsam treibt der Diskriminator den Generator in Richtung Perfektion.

Die neue Technik verbessert den Stand der Technik, indem sie sich abwechselnd auf die verschiedenen Satzteile konzentriert, zB zuerst einen gelben Vogel zeichnet, dann die schwarzen Flügel und dann den kurzen Schnabel.

„Aufmerksamkeit ist ein menschliches Konzept; Wir verwenden Mathematik, um Aufmerksamkeit rechnerisch zu machen“, erklärte He.

„Wir können steuern, was wir beschreiben, und sehen, wie die Maschine reagiert“, erklärt He. „Wir können stöbern und testen, was die Maschine gelernt hat. Die Maschine hat einen gewissen gesunden Menschenverstand gelernt, aber sie kann immer noch folgen, was Sie fragen, und vielleicht erscheint es manchmal ein bisschen lächerlich.“

Die Text-zu-Bild-Generierungstechnologie könnte praktische Anwendungen finden, die als eine Art Skizzenassistent für Maler und Innenarchitekten oder als Werkzeug für die sprachaktivierte Fotoveredelung fungieren. Er stellt sich vor, dass die Technologie mit mehr Rechenleistung Animationsfilme auf der Grundlage von Drehbüchern erzeugen könnte, was die Arbeit von Animationsfilmern erweitert, indem ein Teil der damit verbundenen manuellen Arbeit entfällt.

„Damit KI und Menschen in derselben Welt leben können, müssen sie eine Möglichkeit haben, miteinander zu interagieren“, erklärte He. „Und Sprache und Sehen sind die beiden wichtigsten Modalitäten für die Interaktion von Mensch und Maschine.“

Das vollständige Papier, das die Forschung beschreibt, kann auf gefunden werden arXiv.org.

Microsoft.com

Mehr zu den Themen: ai, Zeichnungs-Bot, Microsoft, Forschung

Hinterlassen Sie uns einen Kommentar

E-Mail-Adresse wird nicht veröffentlicht. Pflichtfelder sind MIT * gekennzeichnet. *