Google의 텍스트 이미지 생성기 Imagen은 '전례 없는 수준의 포토리얼리즘'으로 사진을 생성합니다.

독서 시간 아이콘 3 분. 읽다


독자들은 MSpoweruser를 지원하는 데 도움을 줍니다. 당사의 링크를 통해 구매하시면 수수료를 받을 수 있습니다. 툴팁 아이콘

공개 페이지를 읽고 MSPoweruser가 편집팀을 유지하는 데 어떻게 도움을 줄 수 있는지 알아보세요. 자세히 보기

구글 "라는 새로운 작품을 발표했습니다.영상," 사람이 제공할 설명을 통해 텍스트를 이미지로 생성합니다. 또 다른 AI 이미지 생성기인 DALL-E 2의 성능을 능가한다고 회사 측은 설명했다. 그것은 부인할 수 없을 정도로 정교한 세부 사항을 보여주는 몇 가지 샘플을 제공했지만 Imagen은 현재 대중에게 제공되지 않습니다.

새로운 텍스트-이미지 확산 모델은 "전례 없는 수준의 포토리얼리즘과 깊은 수준의 언어 이해"를 갖고 있다고 설명됩니다. 대형 변환기 언어 모델을 통해 텍스트를 이해하고 고화질 이미지 생성을 수행하기 위해 확산 모델에 의존한다고 합니다.

아래에 설명이 있는 Imagen 생성 이미지

Google은 그림에서 유화 및 CGI에 이르기까지 다양한 스타일로 Imagen의 작업 이미지와 샘플을 제공했습니다. 그것들을 생성하는 데 사용된 단어와 구문이 수반됩니다. 예를 들어, 하나의 샘플은 "눈 속에서 가라테 벨트를 착용한 용 과일"이라고 읽고 다른 샘플은 "사하라 사막에서 밀짚 모자와 네온 선글라스를 착용한 작은 선인장"이라고 설명합니다.

생성된 이미지는 실제 사람이 만든 것처럼 믿을 수 없을 정도로 사실적입니다. 그러나 구글은 순수한 노이즈 이미지를 최대한 활용해 최대한 다듬어 확산 기술을 통해 이루어진다고 말한다. 제공된 텍스트 설명을 이해함으로써 Imagen은 64 x 64픽셀 이미지를 생성하고 두 가지 개선 작업을 수행하고 이미지를 더 큰 1024 x 1024픽셀 조각으로 변환합니다.

Google Research, Brain Team은 Imagen이 COCO (대규모 객체 감지, 분할 및 캡션 데이터 세트) 훈련을 받지 않았음에도 불구하고. 팀은 7.27의 새로운 최첨단 FID 점수를 받았다고 보고했습니다.

Google은 또한 "DrawBench"를 사용하여 평가하여 Imagen의 성능을 다른 텍스트-이미지 모델과 비교했습니다. Google이 VQ-GAN+CLIP, Latent Diffusion Models 및 DALL-E 2와 같은 다른 방법으로 Imagen을 테스트한 텍스트-이미지 모델에 대한 벤치마크 역할을 합니다. 구성, 카디널리티, 공간 관계, 긴 형식에 대한 테스트 후 텍스트, 희귀 단어 및 도전적인 프롬프트에 대해 팀은 "인간 평가자는 이미지-텍스트 정렬 및 이미지 충실도 모두에서 다른 방법보다 Imagen을 강력하게 선호합니다."라고 말했습니다.

연구팀의 이러한 인상적인 보고서에도 불구하고 Imagen을 직접 테스트하는 것은 대중이 액세스할 수 없기 때문에 불가능합니다. Google은 윤리적 문제, 오용의 잠재적 위험, 사회적 편견, 큰 언어 모델의 한계, 인코딩된 유해한 고정 관념 및 표현의 위험과 같은 이유가 있습니다. 팀은 이러한 모든 문제에도 불구하고 Imagen은 여전히 ​​사람과 관련된 이미지를 생성하는 데 완벽하지 않다고 요약합니다. 

팀은 블로그 게시물에서 "Imagen은 사람을 묘사한 이미지를 생성할 때 심각한 한계를 나타냅니다."라고 설명합니다. “우리의 인간 평가에 따르면 Imagen은 사람을 묘사하지 않는 이미지에 대해 평가할 때 훨씬 더 높은 선호도를 얻었으며 이는 이미지 충실도가 저하되었음을 나타냅니다. 예비 평가는 또한 Imagen이 더 밝은 피부색을 가진 사람들의 이미지를 생성하는 데 대한 전반적인 편견과 다양한 직업을 묘사하는 이미지가 서구의 성별 고정 관념과 일치하는 경향을 포함하여 여러 사회적 편견과 고정 관념을 인코딩한다고 제안합니다. 마지막으로, 우리가 여러 세대에 걸쳐 사람과 거리를 두는 경우에도 사전 분석에 따르면 Imagen은 활동, 이벤트 및 사물의 이미지를 생성할 때 다양한 사회적, 문화적 편견을 인코딩합니다. 우리는 앞으로의 작업에서 이러한 열린 도전과 한계 중 몇 가지를 진전시키는 것을 목표로 합니다.”