Công cụ tạo văn bản thành hình ảnh của Google Imagen tạo ra những bức ảnh với 'mức độ chân thực chưa từng có'

Biểu tượng thời gian đọc 3 phút đọc


Bạn đọc giúp đỡ ủng hộ MSpoweruser. Chúng tôi có thể nhận được hoa hồng nếu bạn mua thông qua các liên kết của chúng tôi. Biểu tượng chú giải công cụ

Đọc trang tiết lộ của chúng tôi để tìm hiểu cách bạn có thể giúp MSPoweruser duy trì nhóm biên tập Tìm hiểu thêm

Google công bố một sáng tạo mới có tên là “Ảnh, ”Một trình tạo văn bản thành hình ảnh thông qua các mô tả mà một người sẽ cung cấp. Công ty tuyên bố rằng nó vượt qua hiệu suất của DALL-E 2, một trình tạo hình ảnh AI khác. Nó đã giới thiệu một số mẫu, không thể phủ nhận chúng cho thấy các chi tiết tinh tế, nhưng Imagen hiện không có sẵn cho công chúng.

Mô hình khuếch tán văn bản sang hình ảnh mới được mô tả là có “mức độ hiện thực chưa từng có và mức độ hiểu biết sâu sắc về ngôn ngữ”. Nó hiểu văn bản thông qua các mô hình ngôn ngữ biến áp lớn và được cho là dựa vào các mô hình khuếch tán để thực hiện tạo hình ảnh có độ trung thực cao.

Hình ảnh do Imagen tạo với mô tả bên dưới

Google đã cung cấp hình ảnh và mẫu tác phẩm của Imagen, với nhiều phong cách khác nhau, từ bản vẽ đến tranh sơn dầu và CGI. Chúng được đi kèm với các từ và cụm từ được sử dụng để tạo ra chúng. Ví dụ, một mẫu có nội dung "một quả thanh long đeo đai karate trong tuyết", trong khi mẫu kia có mô tả "một cây xương rồng nhỏ đội mũ rơm và đeo kính râm nê-ông trên sa mạc Sahara."

Các hình ảnh được tạo ra trông cực kỳ thực như thể chúng được tạo ra bởi một người thực. Tuy nhiên, Google nói rằng nó được thực hiện thông qua công nghệ khuếch tán bằng cách sử dụng hình ảnh nhiễu tinh khiết và tinh chỉnh nó theo cách tốt nhất có thể. Bằng cách hiểu mô tả văn bản được cung cấp, Imagen sẽ tạo ra một hình ảnh 64 x 64 pixel, thực hiện hai cải tiến và chuyển đổi hình ảnh thành một mảnh 1024 x 1024 pixel lớn hơn.

Nghiên cứu của Google, Nhóm Brain nói rằng Imagen đã xuất sắc về COCO (tập dữ liệu phát hiện, phân đoạn và phụ đề đối tượng quy mô lớn) mặc dù không được đào tạo về nó. Nhóm nghiên cứu báo cáo rằng nó đã nhận được điểm FID hiện đại mới nhất là 7.27.

Google cũng so sánh hiệu suất của Imagen với các mô hình chuyển văn bản thành hình ảnh khác bằng cách đánh giá chúng bằng cách sử dụng “DrawBench”. Nó đóng vai trò là điểm chuẩn cho các mô hình chuyển văn bản thành hình ảnh trong đó Google đã thử nghiệm Imagen bằng các phương pháp khác như VQ-GAN + CLIP, Mô hình khuếch tán tiềm ẩn và DALL-E 2. Sau khi thử nghiệm về thành phần, bản số, quan hệ không gian, hình thức dài của chúng văn bản, những từ hiếm và những lời nhắc mang tính thách thức, nhóm nghiên cứu nói rằng “những người đánh giá con người thực sự thích Imagen hơn các phương pháp khác, trong cả việc căn chỉnh hình ảnh-văn bản và độ trung thực của hình ảnh.”

Bất chấp những báo cáo ấn tượng này từ nhóm nghiên cứu, việc tự mình kiểm tra Imagen sẽ không thể thực hiện được vì công chúng không thể tiếp cận được. Google có những lý do cho điều đó, chẳng hạn như những thách thức về đạo đức, nguy cơ tiềm ẩn của việc sử dụng sai mục đích, thành kiến ​​xã hội, giới hạn của các mô hình ngôn ngữ lớn và rủi ro về các khuôn mẫu và cách trình bày có hại được mã hóa. Nhóm nghiên cứu tóm tắt rằng với tất cả những thử thách này, Imagen vẫn chưa hoàn hảo khi tạo ra những hình ảnh liên quan đến con người. 

“Imagen thể hiện những hạn chế nghiêm trọng khi tạo hình ảnh mô tả con người,” nhóm giải thích trong một bài đăng trên blog. “Đánh giá con người của chúng tôi cho thấy Imagen thu được tỷ lệ ưa thích cao hơn đáng kể khi đánh giá trên các hình ảnh không vẽ chân dung người, cho thấy sự suy giảm độ trung thực của hình ảnh. Đánh giá sơ bộ cũng cho thấy Imagen mã hóa một số thành kiến ​​và định kiến ​​xã hội, bao gồm thiên hướng tổng thể về việc tạo ra hình ảnh những người có tông màu da sáng hơn và xu hướng hình ảnh mô tả các ngành nghề khác nhau phù hợp với định kiến ​​giới của phương Tây. Cuối cùng, ngay cả khi chúng ta tập trung nhiều thế hệ ra khỏi con người, phân tích sơ bộ của chúng tôi chỉ ra rằng Imagen mã hóa một loạt các thành kiến ​​xã hội và văn hóa khi tạo ra hình ảnh về các hoạt động, sự kiện và đối tượng. Chúng tôi mong muốn đạt được tiến bộ đối với một số thách thức và hạn chế còn bỏ ngỏ này trong công việc trong tương lai. "