מחולל הטקסט-לתמונה של גוגל Imagen מייצר תמונות עם 'דרגה חסרת תקדים של פוטוריאליזם'

3 דקות לקרוא

פורסם ב מאי 24, 2022

קוראים עוזרים לתמוך ב-MSpoweruser. אנו עשויים לקבל עמלה אם תקנה דרך הקישורים שלנו.

Google חשפה יצירה חדשה בשם "תמונה," מחולל טקסט לתמונה באמצעות תיאורים שאדם יספק. החברה טוענת שהיא עולה על הביצועים של DALL-E 2, מחולל תמונות AI נוסף. הוא הציג כמה דוגמאות, שללא ספק מציגות פרטים מעודנים, אך אימגן אינו זמין כעת לציבור.

המודל החדש של פיזור טקסט לתמונה מתואר כבעל "מידה חסרת תקדים של פוטוריאליזם ורמה עמוקה של הבנת שפה". הוא מבין טקסט באמצעות מודלים של שפות שנאים גדולים ונאמר שהוא מסתמך על מודלים של דיפוזיה כדי לבצע יצירת תמונות בנאמנות גבוהה.

תמונות שנוצרו על ידי תמונות עם תיאורים למטה

גוגל סיפקה תמונות ודוגמאות של עבודותיו של Imagen, עם סגנונות שונים מציורים לציורי שמן ו-CGIs. הם מלווים במילים ובביטויים המשמשים ליצירתם. לדוגמה, בדוגמה אחת נכתב "פרי דרקון חובש חגורת קראטה בשלג", בעוד שבשנייה יש את התיאור "קקטוס קטן חובש כובע קש ומשקפי שמש ניאון במדבר סהרה".

התמונות שנוצרו נראות אמיתיות להפליא כאילו נוצרו על ידי אדם אמיתי. עם זאת, גוגל אומרת שזה נעשה באמצעות טכנולוגיות דיפוזיה על ידי ניצול תמונת רעש טהורה ושכלולה בצורה הטובה ביותר. על ידי הבנת תיאור הטקסט שסופק, Imagen תיצור תמונה של 64 x 64 פיקסלים, תבצע שני שיפורים ותמיר את התמונה ליצירה גדולה יותר של 1024 x 1024 פיקסלים.

Google Research, Brain Team אומר כי Imagen הצטיינה COCO (מערך נתונים לזיהוי, פילוח וכתוביות בקנה מידה גדול של אובייקטים) למרות שלא הוכשר עליו. הצוות דיווח שהוא קיבל ציון FID חדשני של 7.27.

גוגל גם השוותה את הביצועים של Imagen למודלים אחרים של טקסט לתמונה על ידי הערכתם באמצעות "DrawBench". הוא משמש נקודת אמת עבור מודלים של טקסט לתמונה שבהם גוגל בדקה את Imagen בשיטות אחרות כמו VQ-GAN+CLIP, Latent Diffusion Models ו-DALL-E 2. לאחר בדיקה של הקומפוזיציה שלהם, הקרדינליות, היחסים המרחביים, הצורה הארוכה שלהם. טקסט, מילים נדירות והנחיות מאתגרות, הצוות אמר כי "מדורגים אנושיים מעדיפים מאוד את Imagen על פני שיטות אחרות, הן ביישור תמונה-טקסט והן בנאמנות תמונה."

למרות הדיווחים המרשימים הללו של צוות המחקר, בדיקת Imagen בעצמך לא תתאפשר מכיוון שהיא אינה נגישה לציבור. לגוגל יש סיבות לכך, כמו אתגרים אתיים, סיכונים פוטנציאליים לשימוש לרעה, הטיות חברתיות, מגבלות של מודלים של שפות גדולות וסיכון לסטריאוטיפים וייצוגים מזיקים מקודדים. הצוות מסכם שעם כל האתגרים הללו, אימג'ן עדיין לא מושלמת בכל הנוגע ליצירת תמונות הקשורות לאנשים.

"Imagen מציגה מגבלות רציניות בעת יצירת תמונות המתארות אנשים", מסביר הצוות בפוסט בבלוג. "ההערכות האנושיות שלנו מצאו ש-Image משיגה שיעורי העדפה גבוהים משמעותית כאשר היא מוערכת על תמונות שאינן מציגות אנשים, מה שמצביע על ירידה בנאמנות התמונה. הערכה ראשונית גם מציעה ש-Image מקודדת כמה הטיות חברתיות וסטריאוטיפים, כולל הטיה כוללת ליצירת תמונות של אנשים עם גווני עור בהירים יותר ונטייה לתמונות המתארות מקצועות שונים להתיישר עם סטריאוטיפים מגדריים מערביים. לבסוף, גם כאשר אנו ממקדים דורות רחוקים מאנשים, הניתוח הראשוני שלנו מצביע על כך ש-Image מקודדת מגוון הטיות חברתיות ותרבותיות בעת יצירת תמונות של פעילויות, אירועים ואובייקטים. אנו שואפים להתקדם בכמה מהאתגרים הפתוחים והמגבלות הללו בעבודה עתידית".

שרון בנט

כתב

שרון הוא כתב טכנולוגיה ב-mspoweruser.com. היא מכסה את רוב החדשות הטכנולוגיות של מותגים כמו סוני, סמסונג, גוגל ועוד.