Encoding in Style: a StyleGAN Encoder for Image-to-Image Translation

초록

포괄적인 image-to-image 변환 프레임워크 pixel2style2pixel. pSp 프레임워크는 pretrained StyleGAN 생성기에 입력될 일련의 style vector를 직접 생성하는 새로운 encoder 네트워크를 기반으로 한다. 확장된 W+ latent space를 형성함. 추가적인 optimization 없이 encoder가 실제 이미지들을 W+에 직접 임베딩, encoder를 image-to-image 변환 과제에 사용함. 입력 도메인에서 latent 도메인으로 encoding 하는 문제로 접근함. 기존 styleGAN encoder를 사용해 “invert first, edit later” 하던 일반적인 방법론에서 벗어나, styleGAN 도메인에 제시되지 않은 다양한 과제도 다룰 수 있음. styleGAN을 통한 변환 과제는 훈련 과정을 유의미하게 단순화하여 adversary가 필요하지 않으며 pixel-to-pixel correspondence(픽셀 대 픽셀 대응) 없이 더 좋은 결과로 과제를 해결함. style의 리샘플링을 통해 multi-modal 합성이 자체적으로 가능함.

Introduction

  • controlling StyleGAN’s latent space and performing meaningful manipulations in W
    • invert first, edit later
      • StyleGAN latent space에 이미지를 변환하고, 그 latent code를 의미적으로 meaningful하게 편집하여 출력 이미지를 생성할 수 있는 새로운 code를 얻음
      • 실제 이미지를 512 차원의 vector w 로 변환하는 것이 정확한 복원으로 이어지지 않음
    • 이에, 실제 이미지들을 extended latent space W+에 encode하는 게 관례적이었음
      • 18개(StyleGAN의 각 입력 레이어) 다른 512차원 w 벡터들의 concatenation으로 정의됨
      • 각 이미지별로 수 분에 걸쳐 W+에 대해 optimization하는 방식에 의존
      • optimization 과정을 가속화하기 위해 encoder를 학습하여 W+에서 근사 vector를 추정하도록 하기도 (거기서 추가적으로 optimization 시행)
    • W+에 임의의 사진을 직접 encoding하는 새로운 encoder 아키텍처
      • Feature Pyramid Network : 다양한 pyramid scale 에서 style vector를 추출한 다음, 상응하는 spatial scale에 따라 fixed, pretrained StyleGAN 생성기에 직접 삽입
      • 시간이 소요되는 opimization 과정 없이, encoder로 실제 입력 이미지를 직접 복원하고 latent space 조작을 가능하게 함
      • 이러한 조작으로 extensive하게 실제 이미지를 편집할 수 있지만 본질적으로 제한적임
      • 입력 이미지는 반드시 invertible해야 하기 때문. 즉, 그 이미지를 복원하는 latent code가 반드시 존재해야 함 입력 이미지가 StyleGAN과 다른 도메인에 속하는 conditional 이미지 생성과 같은 과제에서 심각한 제약사항이 됨
    • 이러한 한계를 극복하기 위해 본 논문의 encoder와 pretrained StyleGAN을 함께 사용하여 완전한 image-to-image translation 프레임워크를 구축
      • 입력 이미지를 목표 출력 latents에 직접 encoding하여 styleGAN이 목표 출력 이미지를 생성할 수 있도록 함
      • 입력과 출력 이미지가 다른 도메인이더라도 image-to-image 변환에 styleGAN을 활용할 수 있음
  • follow spirit of pix2pix and define a generic framework
    • 직접적인 spatial 입력 없이 style만으로 생성기를 다룸
    • intermidiate style representation의 또다른 장점은 스케치, segmentation map, 저화질 이미지로부터 이미지를 생성하는 불분명한 과제를 과제를 위한 multi-modal 합성이 내재적으로 가능하다는 것
    • 생성된 스타일을 리샘플링하여 학습 아키텍처를 바꾸지 않고 출력 이미지의 variation을 생성할 수 있음
    • pixel2style2pixel : 모든 이미지가 style vector에 먼저 encode 된 후에 이미지로 encode되므로

Related Work

[GAN Inversion]

  • 주어진 이미지와의 오차를 최소화하도록 직접 optimize 하는 방식
  • 주어진 이미지를 latent space에 map할 수 있는 encoder를 학습하는 방식
  • 위 두 방식을 합친 hybird 방식

→ 복원 퀄리티 면에서는 optimization 방식이 학습된 encoder mapping보다 낫지만 상당히 오랜 시간이 필요함

→ 위 방법론들과 다르게, 본 논문의 encoder는 optimization 없이 주어진 얼굴 이미지를 정확하고 효율적으로 extended latent space W+에 embed한다

[Latent Space Manipulation]

  • latent code의 의미적 편집을 학습하는 다양한 방법
    • 이분법적으로 라벨링 된 속성에 해당하는 선형 방향(linear directions)을 찾는 것 (ex. 젊음 ↔︎ 늙음)
    • pretrained 3DMM을 활용해 latent space에서 의미적 얼굴 편집을 학습하는 것
    • self-supervised 방식으로 특정 변화(ex. zoom or rotation)에 해당하는 latent space의 경로를 학습하는 것
    • intermediate activation space의 principal component axe를 사용하여 unsupervised 방식으로 유용한 경로를 찾는 것
    • latent code에 해당하는 요소들을 조작함으로써 지역적인 semantic editing를 수행하는 것

→ 이러한 방법론들은 보통 “invert first, edit later” 과정을 따라가며, 이미지는 처음 latent space에 embedded 되고, 그 다음에 latent를 semantically 유의미한 방식으로 편집

→ 본 논문은 입력 이미지를 상응하는 출력 latent에 직접 encode하는 방식으로 styleGAN 도메인에 없는 입력을 다룸

[Image-to-Image]

'인공지능 > computer vision' 카테고리의 다른 글

few-shot GAN ada 이해하기  (0) 2022.08.01
ReStyle 이해하기  (0) 2022.08.01
styleGAN3 이해하기  (0) 2022.08.01
styleGAN2 이해하기  (0) 2022.05.31
StyleGAN1 vs. StyleGAN2  (0) 2022.05.31
복사했습니다!