Η συσκευή δημιουργίας κειμένου σε εικόνα της Google Imagen παράγει εικόνες με «πρωτοφανή βαθμό φωτορεαλισμού»

Εικονίδιο ώρας ανάγνωσης 3 λεπτό. ανάγνωση

Εικονίδιο ημερολογίου Δημοσιεύθηκε στις 24 Μαΐου 2022

Δημοσιεύθηκε στις 24 Μαΐου 2022

Οι αναγνώστες βοηθούν στην υποστήριξη του MSpoweruser. Ενδέχεται να λάβουμε προμήθεια εάν αγοράσετε μέσω των συνδέσμων μας.

Google αποκάλυψε μια νέα δημιουργία που ονομάζεται "Εικόνα», μια συσκευή δημιουργίας κειμένου σε εικόνα μέσω περιγραφών που θα παρέχει ένα άτομο. Η εταιρεία ισχυρίζεται ότι ξεπερνά τις επιδόσεις του DALL-E 2, μιας άλλης συσκευής παραγωγής εικόνων AI. Παρουσίασε μερικά δείγματα, τα οποία αναμφισβήτητα δείχνουν εξαιρετικές λεπτομέρειες, αλλά το Imagen δεν είναι προς το παρόν διαθέσιμο στο κοινό.

Το νέο μοντέλο διάχυσης κειμένου σε εικόνα περιγράφεται ότι έχει «πρωτοφανή βαθμό φωτορεαλισμού και βαθύ επίπεδο γλωσσικής κατανόησης». Κατανοεί κείμενο μέσω μεγάλων μοντέλων γλώσσας μετασχηματιστή και λέγεται ότι βασίζεται σε μοντέλα διάχυσης για την παραγωγή εικόνων υψηλής πιστότητας.

Εικόνες που δημιουργούνται από εικόνες με περιγραφές παρακάτω

Η Google παρείχε εικόνες και δείγματα της δουλειάς του Imagen, με στυλ που ποικίλλουν από σχέδια έως ελαιογραφίες και CGI. Συνοδεύονται από τις λέξεις και τις φράσεις που χρησιμοποιούνται για τη δημιουργία τους. Για παράδειγμα, ένα δείγμα λέει, «ένα φρούτο δράκου που φορά ζώνη καράτε στο χιόνι», ενώ το άλλο έχει την περιγραφή «ένας μικρός κάκτος που φοράει ψάθινο καπέλο και γυαλιά ηλίου νέον στην έρημο Σαχάρα».

Οι εικόνες που δημιουργούνται φαίνονται απίστευτα πραγματικές σαν να έχουν δημιουργηθεί από πραγματικό άτομο. Ωστόσο, η Google λέει ότι αυτό γίνεται μέσω τεχνολογιών διάχυσης χρησιμοποιώντας μια καθαρή εικόνα θορύβου και βελτιώνοντάς την με τον καλύτερο δυνατό τρόπο. Κατανοώντας την περιγραφή κειμένου που παρέχεται, το Imagen θα δημιουργήσει μια εικόνα 64 x 64 pixel, θα εκτελέσει δύο βελτιώσεις και θα μετατρέψει την εικόνα σε ένα μεγαλύτερο κομμάτι 1024 x 1024 pixel.

Η Google Research, Brain Team λέει ότι η Imagen διέπρεψε ΚΑΡΥΔΑ (ένα σύνολο δεδομένων ανίχνευσης αντικειμένων μεγάλης κλίμακας, τμηματοποίησης και υποτίτλων) παρόλο που δεν έχω εκπαιδευτεί σε αυτό. Η ομάδα ανέφερε ότι έλαβε μια νέα τελευταίας τεχνολογίας βαθμολογία FID 7.27.

Η Google συνέκρινε επίσης την απόδοση του Imagen με άλλα μοντέλα κειμένου σε εικόνα αξιολογώντας τα χρησιμοποιώντας το "DrawBench". Χρησιμεύει ως σημείο αναφοράς για μοντέλα κειμένου σε εικόνα όπου η Google δοκίμασε το Imagen με άλλες μεθόδους όπως το VQ-GAN+CLIP, τα μοντέλα λανθάνουσας διάχυσης και το DALL-E 2. Μετά από δοκιμή για τη συνθετικότητα, την καρδινικότητα, τις χωρικές σχέσεις, τη μακροχρόνια μορφή τους κείμενο, σπάνιες λέξεις και προκλητικές προτροπές, η ομάδα είπε ότι «οι αξιολογητές προτιμούν έντονα το Imagen έναντι άλλων μεθόδων, τόσο στην ευθυγράμμιση εικόνας-κειμένου όσο και στην πιστότητα εικόνας».

Παρά αυτές τις εντυπωσιακές αναφορές από την ερευνητική ομάδα, η δοκιμή του Imagen δεν θα είναι δυνατή καθώς δεν είναι προσβάσιμη στο κοινό. Η Google έχει λόγους για αυτό, όπως ηθικές προκλήσεις, πιθανούς κινδύνους κακής χρήσης, κοινωνικές προκαταλήψεις, περιορισμούς μεγάλων γλωσσικών μοντέλων και κίνδυνο κωδικοποιημένων επιβλαβών στερεοτύπων και αναπαραστάσεων. Η ομάδα συνοψίζει ότι με όλες αυτές τις προκλήσεις, το Imagen εξακολουθεί να μην είναι τέλειο όταν πρόκειται για τη δημιουργία εικόνων που σχετίζονται με ανθρώπους.

«Το Imagen παρουσιάζει σοβαρούς περιορισμούς όταν δημιουργεί εικόνες που απεικονίζουν ανθρώπους», εξηγεί η ομάδα σε μια ανάρτηση ιστολογίου. «Οι ανθρώπινες αξιολογήσεις μας βρήκαν ότι το Imagen λαμβάνει σημαντικά υψηλότερα ποσοστά προτίμησης όταν αξιολογείται σε εικόνες που δεν απεικονίζουν ανθρώπους, υποδεικνύοντας υποβάθμιση στην πιστότητα της εικόνας. Η προκαταρκτική αξιολόγηση προτείνει επίσης ότι το Imagen κωδικοποιεί αρκετές κοινωνικές προκαταλήψεις και στερεότυπα, συμπεριλαμβανομένης μιας συνολικής προκατάληψης για τη δημιουργία εικόνων ανθρώπων με πιο ανοιχτόχρωμους τόνους δέρματος και μιας τάσης οι εικόνες που απεικονίζουν διαφορετικά επαγγέλματα να ευθυγραμμίζονται με τα δυτικά στερεότυπα φύλου. Τέλος, ακόμη και όταν εστιάζουμε γενιές μακριά από ανθρώπους, η προκαταρκτική μας ανάλυση δείχνει ότι το Imagen κωδικοποιεί μια σειρά από κοινωνικές και πολιτισμικές προκαταλήψεις όταν δημιουργεί εικόνες δραστηριοτήτων, γεγονότων και αντικειμένων. Στόχος μας είναι να σημειώσουμε πρόοδο σε αρκετές από αυτές τις ανοιχτές προκλήσεις και περιορισμούς σε μελλοντικές εργασίες».

Σάρον Μπένετ

Δημοσιογράφος

Η Sharron είναι ρεπόρτερ τεχνολογίας στο mspoweruser.com. Καλύπτει τα περισσότερα τεχνολογικά νέα από επωνυμίες όπως η Sony, η Samsung, η Google και άλλα.

Αφήστε μια απάντηση