5. 결론
본 논문에서는 VAE를 통해 자연스러운 저해상도 영상을 생성하고, 생성된 영상을 초해상도 복원 모델을 통하여 고해상도의 결과 영상을 얻어내는 심층 신경망 모델을 제안하였다.
VAE는 GAN에 비해 특징 배치에서는 상대적으로 더 균일한 편이나 흐릿한 결과 영상을 생성하는 단점을 가지고 있는 것으로 알려져 있다. 본 논문의 모델 학습에서는 학습 데이터로 촬영 각도, 조명 등이 제어되지 않은 영상 데이터셋인 CelebA을 사용하였기 때문에 특징 배치에서 비교적 신뢰성 있는 결과 영상을 생성하는 VAE를 이용하였다. VAE의 장점인 일관성 있는 영상 생성을 유지하면서 생성 영상의 해상도가 낮은 단점을 개선하기 위해 VAE의 인코더와 디코더의 구성 계층수를 늘려 더 깊은 모델을 구성해보았으나 해상도 개선이 잘 이뤄지지 않았고 오히려 계층이 깊어질수록 생성 모델의 학습이 원활히 이뤄지지 않아 결과 영상이 심미적으로 부자연스러운 문제가 생겼다. 이 문제를 해결하기 위하여 StackGAN[5]와 같이 영상 생성 계층과 초해상도 복원 계층을 분리하여 모델을 구성하였다.
VAE의 학습은 인코더와 디코더가 동시에 진행하고, 영상 생성 시에는 학습된 가중치와 디코더만을 사용한다. 디코더는 총 5개의 상승 컨벌루션 계층과 하나의 완전 연결 계층으로 구성되었으며, 가우시안 분포를 따르는 512개 차원의 잠재 벡터를 입력으로 받아 64×64 크기의 저해상도 영상을 생성한다. 이 저해상도 영상은 Bicubic 보간법에 의해 128×128 크기로 변환되어 초해상도 복원 모델의 입력으로 사용된다. 초해상도 복원 모델은 총 22개의 컨벌루션 계층을 사용하였다.
기존의 초해상도 복원기법은 주로 복원 결과에 대한 정답이 존재하는 상황에서 이뤄졌기 때문에 생성 영상에 대한 초해상도 복원과 같이 정답이 존재하지 않는 경우, 최적의 학습이 일어나지 않는 문제가 있었다. 이러한 문제를 해결하기 위하여 초해상도 복원 모델의 컨벌루션 계층에 5개의 레지듀얼 블록을 설치하여 초해상도 영상 복원 시 자연스러운 디테일 생성에 집중하도록 하였다.
기존의 초해상도 복원 모델에서 손실 함수로 주로 사용하는 유클리드 거리값 대신에 가우시안 잡음에 민감한 성질을 갖는 PSNR을 사용하여 초해상도 복원 모델이 결과 영상을 부드럽고 자연스럽게 생성하도록 하였다.
제안한 방법을 통해 생성한 영상들은 실제 영상과 매우 유사하여 가짜를 판별하기 어려운 성공 사례도 있었지만, 생성 영상의 특징 배치가 부자연스럽거나 흐릿한 해상도를 가지는 실패 영상도 있었다. 이는 CelebA 영상 데이터 중, 학습 영상으로 사용하기 위해 영상의 크기를 조절하는 과정에서 낮은 해상도의 영상이나 조명, 소품 등으로 얼굴의 일부를 가려 학습 영상으로 사용하기에 부적합한 영상들이 섞여있었던 점이 VAE의 영상 생성 성능에 영향을 끼쳤고, 따라서 초해상도 복원에도 실패했을 것이라 판단된다.
본 논문에서 제안한 생성 모델의 영상 생성 성능을 객관적으로 분석하기 위해 Inception Score를 활용하였다. 그 결과, 초해상도 복원 계층과 레지듀얼 블록, PSNR 손실 함수를 모두 적용한 본 논문의 제안 모델이 가장 높은 Inception Score를 획득하여 생성 영상의 효용을 확인할 수 있었다.
본 논문의 연구는 생성 모델의 심층 신경망 학습 데이터로 영상 이외에 클래스, 문장 등의 보조 데이터를 사용하지 않는다. 최근, ACGAN(Auxiliary Classifier GAN)[25], GAN-INT-CLS[26] 등, 학습 보조 데이터를 이용하여 영상 생성 성능을 향상시키는 방법에 대한 연구가 성과를 거두고 있으므로 향후 연구에서는 문장 주목 방법이나 보조 분류기(Auxiliary Classifier)등의 개념을 모델에 적용하여 영상 생성 성능을 높일 수 있는 여지가 있을 것으로 예상된다.
본 논문이 제안하는 모델은 CelebA와 같이 정제되어 있지 않고 다양성을 띄는 영상 데이터를 학습 데이터로 사용하더라도 상대적으로 일관되고 균일한 분포의 결과 영상을 생성한다. 따라서 학습 데이터에 따라 생성 영상의 특징 배치 정확도가 좌우되는 GAN과 같은 생성 모델의 학습 데이터 구축에 본 논문의 모델로 생성한 영상을 사용하였을 때의 효용성에 대한 연구를 진행 할 수 있을 것으로 판단된다.