Imagen ตัวสร้างข้อความเป็นรูปภาพของ Google สร้างรูปภาพที่มี 'ความสมจริงของแสงในระดับที่ไม่เคยมีมาก่อน'

ไอคอนเวลาอ่านหนังสือ 3 นาที. อ่าน


ผู้อ่านช่วยสนับสนุน MSpoweruser เราอาจได้รับค่าคอมมิชชันหากคุณซื้อผ่านลิงก์ของเรา ไอคอนคำแนะนำเครื่องมือ

อ่านหน้าการเปิดเผยข้อมูลของเราเพื่อดูว่าคุณจะช่วย MSPoweruser รักษาทีมบรรณาธิการได้อย่างไร อ่านเพิ่มเติม

Google ได้เผยโฉมสิ่งใหม่ที่เรียกว่า “ภาพ” เครื่องมือสร้างข้อความเป็นรูปภาพผ่านคำอธิบายที่บุคคลจะมอบให้ บริษัทอ้างว่ามีประสิทธิภาพเหนือกว่า DALL-E 2 ซึ่งเป็นโปรแกรมสร้างภาพ AI อีกเครื่องหนึ่ง มันนำเสนอตัวอย่างบางส่วนซึ่งแสดงรายละเอียดที่สวยงามอย่างปฏิเสธไม่ได้ แต่ปัจจุบัน Imagen ไม่พร้อมใช้งานสำหรับสาธารณะ

รูปแบบการแพร่กระจายข้อความเป็นภาพใหม่ได้รับการอธิบายว่ามี "ระดับความสมจริงของภาพอย่างที่ไม่เคยมีมาก่อนและความเข้าใจภาษาในระดับที่ลึกซึ้ง" เข้าใจข้อความผ่านแบบจำลองภาษาของหม้อแปลงขนาดใหญ่ และกล่าวกันว่าต้องพึ่งพาแบบจำลองการแพร่กระจายเพื่อสร้างภาพที่มีความเที่ยงตรงสูง

รูปภาพที่สร้างด้วยอิมเมจพร้อมคำอธิบายด้านล่าง

Google ได้จัดเตรียมรูปภาพและตัวอย่างงานของ Imagen ด้วยสไตล์ที่หลากหลายตั้งแต่ภาพวาดไปจนถึงภาพสีน้ำมันและ CGI พวกเขาจะมาพร้อมกับคำและวลีที่ใช้ในการสร้างพวกเขา ตัวอย่างเช่น ตัวอย่างหนึ่งอ่านว่า “แก้วมังกรสวมเข็มขัดคาราเต้ท่ามกลางหิมะ” ในขณะที่อีกตัวอย่างหนึ่งมีคำอธิบายว่า “กระบองเพชรตัวเล็กสวมหมวกฟางและแว่นกันแดดนีออนในทะเลทรายซาฮารา”

ภาพที่สร้างขึ้นนั้นดูสมจริงอย่างไม่น่าเชื่อราวกับว่าพวกเขาสร้างขึ้นโดยบุคคลจริง อย่างไรก็ตาม Google กล่าวว่าเทคโนโลยีนี้ใช้เทคโนโลยีการแพร่กระจายโดยใช้ภาพสัญญาณรบกวนที่บริสุทธิ์และปรับแต่งภาพให้ดีที่สุด ด้วยการทำความเข้าใจคำอธิบายข้อความที่ให้ไว้ Imagen จะสร้างภาพขนาด 64 x 64 พิกเซล ดำเนินการปรับปรุงสองอย่าง และแปลงภาพเป็นชิ้นใหญ่ขนาด 1024 x 1024 พิกเซล

Google Research, Brain Team กล่าวว่า Imagen เป็นเลิศใน COCO (ชุดข้อมูลการตรวจจับออบเจ็กต์ขนาดใหญ่ การแบ่งส่วน และคำอธิบายภาพ) แม้จะไม่ได้รับการฝึกอบรมก็ตาม ทีมงานรายงานว่าได้รับคะแนน FID อันล้ำสมัยใหม่ที่ 7.27

Google ยังเปรียบเทียบประสิทธิภาพของ Imagen กับโมเดลข้อความเป็นรูปภาพอื่นๆ ด้วยการประเมินโดยใช้ "DrawBench" โดยทำหน้าที่เป็นเกณฑ์มาตรฐานสำหรับโมเดลข้อความเป็นรูปภาพที่ Google ทดสอบ Imagen ด้วยวิธีอื่นๆ เช่น VQ-GAN+CLIP, Latent Diffusion Models และ DALL-E 2 หลังจากทดสอบการจัดองค์ประกอบ ความสำคัญ ความสัมพันธ์เชิงพื้นที่ รูปแบบยาว ข้อความ คำที่หายาก และข้อความแจ้งที่ท้าทาย ทีมงานกล่าวว่า "ผู้ประเมินที่เป็นมนุษย์ชอบ Imagen มากกว่าวิธีอื่นๆ ทั้งในการจัดตำแหน่งข้อความภาพและความถูกต้องของภาพ"

แม้จะมีรายงานที่น่าประทับใจเหล่านี้จากทีมวิจัย แต่การทดสอบ Imagen เองก็ไม่สามารถทำได้เนื่องจากไม่สามารถเข้าถึงได้โดยสาธารณะ Google มีเหตุผลสำหรับสิ่งนั้น เช่น ความท้าทายด้านจริยธรรม ความเสี่ยงที่อาจเกิดขึ้นจากการใช้ในทางที่ผิด อคติทางสังคม ข้อจำกัดของแบบจำลองทางภาษาขนาดใหญ่ และความเสี่ยงของการเข้ารหัสแบบเหมารวมและการเป็นตัวแทนที่เป็นอันตราย ทีมงานสรุปว่าด้วยความท้าทายทั้งหมดนี้ Imagen ยังคงไม่สมบูรณ์แบบเมื่อพูดถึงการสร้างภาพที่เกี่ยวข้องกับผู้คน 

“Imagen มีข้อจำกัดที่ร้ายแรงเมื่อสร้างภาพที่แสดงถึงผู้คน” ทีมงานอธิบายในบล็อกโพสต์ “การประเมินโดยมนุษย์ของเราพบว่า Imagen ได้รับอัตราความพึงพอใจที่สูงขึ้นอย่างมีนัยสำคัญเมื่อประเมินภาพที่ไม่แสดงภาพคน ซึ่งบ่งชี้ว่าความเที่ยงตรงของภาพลดลง การประเมินเบื้องต้นยังแนะนำว่า Imagen เข้ารหัสอคติทางสังคมและแบบแผนหลายประการ รวมถึงอคติโดยรวมในการสร้างภาพบุคคลที่มีโทนสีผิวอ่อนกว่า และแนวโน้มสำหรับภาพที่แสดงถึงอาชีพต่างๆ เพื่อให้สอดคล้องกับแบบแผนทางเพศแบบตะวันตก สุดท้าย แม้ว่าเราจะเพ่งความสนใจไปที่คนรุ่นต่อรุ่น การวิเคราะห์เบื้องต้นของเราระบุว่า Imagen เข้ารหัสอคติทางสังคมและวัฒนธรรมช่วงต่างๆ เมื่อสร้างภาพกิจกรรม เหตุการณ์ และวัตถุ เราตั้งเป้าที่จะพัฒนาความท้าทายและข้อจำกัดที่เปิดกว้างเหล่านี้ในการทำงานในอนาคต”