VITON(feat. VITON-HD: High-Resolution Virtual Try-On via Misalignment-Aware Normalization)

dobby
5 min readJun 18, 2021

다른 논문들은 low resolution(e.g., 256 x 192) 에서 했다. 하지만, 이를 high resolution 이어도 해결할 수 있도록한다. → 왜냐면 실제 쇼핑몰은 high resolution이므로!

그렇다면 왜 다른 논문들은 low resolution을 했냐면,!

  1. misalignment가 눈에띄게 보인다. body에 정확하게 fitting하기가 너무 어려우니깐!

2. 기존 U-Net architecture가 많이 쓰이는데 이는 high resolution을 다루기에 충분하지 못하다.![이건 어떤논문에서 증명한듯]

→ 해결책! new approach to handle high resolution!!!!!!!!!!!!!

여기서 novel ALIgnment-Aware Segment (ALIAS) normalization 을 소개한다. which removes information irrelevant to the clothing texture in the misaligned regions and propagates the semantic information throughout the network.

→ ALIAS 는 misaligned 된 부분을 옷의 질감과 디테일들을 보존하면서 채운다고한다. through the multi-scale refinement at a feature level.

multi-scale refinement at a feature level…? 이말이 무슨말이지? 계속읽다보면나오지않을까?

Related Work

Conditional Image Synthesis)

pix2pix가 등장함으로써, high resolution을 다루는 cGAN 모델들이 많이 나왔다고 한다. 그러나 이러한 것들은 blurry 로 나타남 when 큰 공간의 번형을 줄때.

Normalization Layers)

Conditional batch normalization 과 adaptive instance normalization이 style transfer task에서 쓰인다고한다…. 그게먼지 잘모름 ㅠ

Conditional batch normalization → https://paperswithcode.com/method/conditional-batch-normalization

affine paraameters를 외부데이터로부터 estimate 한다고한다. misaligned 된 mask(external data)로 normalization layer는 평균과 분산을 계산한다.

나중에 시간이 되면 자세히 읽어보자.

adaptive instance normalization → affine parameter없이 할수잇다고한다.

Proposed Method)

pipeline overview

3.1 Clothing-Agnostic person Representation)

아니 I 그림이 c를 입고있는거라는걸 논문에서 찾아서 봤어야하네.. 무튼 I는 c의 옷을 입고있는것이다.

I (input) 으로부터 S, P 만드는데 이는 pre-trained 된 네트워크 쓴다고한다. (자세한 tool은 논문참조바람)

segmentation map (S)는 기존의 입고 있는 옷을 없애고 나머지를 보존하기 위해서 사용됌

Pose map (P)는 팔, 손 등을 없애기 위해 사용됌

뭐 어떤 model 썻고는 여기서 자세히 안알려주네..? generator 같은거 안쓴듯한데..?

3.2 Segmentation Generation)

Unet을 사용하고, LS = LcGAN + λCELCE,

3.3 Clothing Image Deformation

CP-VTON 방법(Learnable TPS-transformation)써서 warped cloth 구함.

second-order difference constraint[35] 을 채택했다. → reduce obvious distortions.

3.4 Try-On Synthesis via ALIAS normalization)

대망의~~야심작

뭐 normalization 하고 하고 한다. 근데 갑자기 왜? misalign된것을 수정해준다고함. 근데왜 normalization을 함? 이미지에서 normalization을 하는건 무슨 뜻일까?

음 수식이 너무많다.. 이따가 다시 돌아오자.

Failure Cases and Limitations)

--

--