본 블로그 포스트에서 사용된 표, 이미지 및 기타 관련 자료는 해당 논문에서 발췌한 것입니다. 이 자료들은 논문의 내용을 요약하고 이해를 돕기 위한 참고용으로 제공됩니다. 또한, 해석 과정에서 일부 오류가 있을 수 있으니 원 논문을 참고하여 확인하시기 바랍니다.
이 글을 읽기전에 먼저 읽어보세요:
Abstract
본 연구는 컴퓨터 비전 분야에서 합성곱 신경망(CNN)을 활용한 지도학습의 성공과 대비하여, 비지도학습 분야에서 CNN이 상대적으로 주목을 덜 받아온 현실에 주목한다. 저자들은 이 간극을 메우기 위해 ‘Deep Convolutional Generative Adversarial Networks(DCGAN)’라는 새로운 모델 계열을 제안하였다. DCGAN은 생성기(generator)와 판별기(discriminator)로 구성된 적대적 학습 구조를 기반으로 하되, 전통적인 완전연결층을 모두 배제하고 오직 합성곱(deconvolution/convolution) 연산만을 사용하도록 아키텍처를 제약함으로써 안정적인 학습과 우수한 표현 학습을 동시에 달성하고자 한다. 실험 결과, DCGAN은 다양한 이미지 데이터셋을 통해 학습되는 과정에서 객체의 세부 요소(part)에서부터 전체 장면(scene)에 이르기까지 계층적인 표현(hierarchy of representations)을 자연스럽게 학습하는 것으로 나타났다. 특히 생성기와 판별기 양쪽 네트워크의 내부 층(layer)에서 추출된 특징(feature)은 픽셀 단위를 넘어선 의미 있는 구조와 패턴을 캡처하며, 이를 별도의 지도학습 분류기나 재구성 과제에도 효과적으로 활용할 수 있음을 확인하였다. 이러한 성과는 비지도학습 환경에서도 CNN이 지도학습 수준의 강력한 이미지 표현을 학습할 수 있음을 시사하며, 추후 다양한 비전 과제에 폭넓게 응용될 수 있는 잠재력을 제시한다.
1. Introduction
본 논문은 방대한 비라벨 이미지·영상 데이터를 활용한 중간 표현 학습의 중요성을 논의하며, Generative Adversarial Networks(GANs)를 통한 표현 학습 방안을 제시한다. 우선, 컴퓨터 비전 분야에서는 사실상 무제한에 가까운 비라벨 이미지·영상 데이터를 통해 유용한 중간 표현(intermediate representations)을 획득하고, 이를 이미지 분류(image classification) 등 다양한 지도학습 과제에 재전이(transfer)할 수 있는 잠재력이 강조된다. 이러한 맥락에서 저자들은 GAN의 생성기(generator) 및 판별기(discriminator) 네트워크를 훈련시킨 후, 내부 층(layer)의 피처(feature)를 특징 추출기(feature extractor)로 재사용하는 방식을 제안한다. GAN은 최대우도법(maximum likelihood) 기반 기법과 달리 픽셀 단위 평균제곱오차와 같은 휴리스틱 손실 함수가 없으며, 적대적 학습(adversarial training) 과정 자체가 표현 학습에 유리하다는 장점을 지닌다. 그러나 전통적인 GAN은 종종 훈련 불안정성으로 인해 무의미한(nonsensical) 출력을 생성하는 문제가 있으며, 특히 다층 GAN이 실질적으로 어떤 중간 표현을 학습하는지 이해·시각화하는 연구는 극히 제한적이었다.
이를 해결하기 위해 본 연구에서는 ‘Deep Convolutional GAN(DCGAN)’이라는 아키텍처 계열을 정의하고, 다음과 같은 주요 기여를 수행한다. 첫째, 생성기와 판별기 양쪽 네트워크를 완전 합성곱(deconvolution/convolution) 계층만으로 구성하고, 배치 정규화(batch normalization), 활성화 함수 설정(ReLU, Leaky ReLU), 최종 출력 함수(Tanh 및 Sigmoid) 등의 아키텍처 제약을 도입함으로써 대부분의 환경에서 안정적으로 학습 가능한 DCGAN 계열을 제안한다. 둘째, 학습된 판별기의 중간층 피처를 이미지 분류 과제에 적용한 결과, 기존의 다른 비지도 학습 알고리즘과 견줄 만한 경쟁력 있는 성능을 달성하여, DCGAN이 범용 이미지 표현 학습용 특징 추출기로서의 유용성을 입증한다.셋째, GAN이 학습한 합성곱 필터를 시각화함으로써, 특정 필터가 특정 객체나 패턴을 그려내는 데 특화된 구조를 자발적으로 학습했음을 실험적으로 확인하였다. 넷째, 생성기의 잠재벡터(latent vector)에 대해 단순한 덧셈·뺄셈 연산을 수행했을 때 의미론적 특성의 직관적 변화를 관찰할 수 있는 벡터 연산(vector arithmetic) 특성을 발견하여, 생성 샘플의 다양한 의미적 속성을 손쉽게 조작할 수 있음을 보였다. 이와 같이 본 논문은 대규모 비라벨 데이터로부터 안정적이고 의미 있는 표현을 학습할 수 있는 GAN 아키텍처의 설계 원칙을 제시함으로써, 비지도학습 분야에서 CNN 기반 모델의 적용 가능성을 크게 확장하였다.
2. Related Work
2.1 Representation Learning From Unlabeled Data
본 절에서는 이미지 분야에서 비지도 표현 학습이 어떻게 이루어져 왔는지를 개괄적으로 살펴본다. 우선, K-평균과 같은 군집화 기법을 통해 데이터 내 유사 샘플을 클러스터링하고, 이를 지도학습의 보조 신호로 활용함으로써 분류 성능을 향상시키는 접근이 오랫동안 사용되어 왔다. 특히 Coates & Ng(2012)는 이미지 패치를 대상 으로 한 계층적 군집화를 통해 강력한 중간 표현을 학습할 수 있음을 보였다. 다음으로, 오토인코더 계열 연구는 입력 이미지를 저차원 코드로 압축한 뒤 정확히 복원하는 과정에서 유용한 특징을 추출한다. 합성곱 오토인코더, Vincent et al.(2010)의 스택 구조, Zhao et al.(2015)의 ‘what’과 ‘where’ 분리 모델, Rasmus et al.(2015)의 사다리형 네트워크 등 다양한 변형이 제안되었으며, 모두 픽셀 수준 정보로부터 의미 있는 표현을 학습하는 데 성공하였다. 마지막으로, Lee et al.(2009)이 제안한 딥 빌리프 네트워크는 제한 볼츠만 머신을 층층이 쌓아 올린 구조를 통해 계층적인 특징 학습을 가능하게 하였으며, 이미지 픽셀로부터 점진적이고 추상화된 표현을 효과적으로 획득할 수 있음을 입증하였다.
2.2 Generating Natural Images
본 절에서는 생성적 이미지 모델의 분류와 한계, 최근 시도된 주요 접근법을 정리한다. 생성적 이미지 모델은 크게 두 가지로 나뉜다. 첫째, 논파라메트릭(non-parametric) 기법은 방대한 이미지 데이터베이스에서 유사한 패치나 전체 이미지를 매칭해 합성하는 방식으로, 텍스처 합성(Efros et al., 1999), 초해상도(Freeman et al., 2002), 인페인팅(Hays & Efros, 2007) 등에 활용되었다. 둘째, 파라메트릭(parametric) 기법은 모델의 파라미터를 학습해 직접 이미지를 생성하는 방식으로, MNIST 숫자나 텍스처 합성(Portilla & Simoncelli, 2000)에서는 높은 성과를 보였으나, 복잡한 자연 이미지 생성에는 한계를 드러냈다. 이후 다양한 시도가 이어졌다. 변분 샘플링(Kingma & Welling, 2013)은 다소 선명한 이미지를 내지만 흐릿함이 남았고, 확산 모델(Sohl-Dickstein et al., 2015)은 반복적 확산 과정을 통해 이미지를 생성했다. GAN(Goodfellow et al., 2014)은 적대적 학습으로 혁신을 가져왔으나 노이즈가 많고 이해하기 어려운 결과를 생성했으며, 이를 개선한 라플라시안 피라미드 확장(Denton et al., 2015)은 품질을 높였으나 모델을 연쇄할 때 발생하는 떨림 문제를 완전히 해소하지 못했다. 또한 순환 신경망 기반(Gregor et al., 2015)과 디컨볼루션 네트워크 기반(Dosovitskiy et al., 2014) 접근도 자연 이미지 생성에 성공했으나, 생성된 모델을 지도학습 과제에 활용한 연구는 아직 미비한 실정이다. 본 논문에서는 전체 네트워크를 합성곱 계층만으로 설계하고, 배치 정규화·활성화 함수 등의 제약을 도입해 학습 안정성을 확보한 뒤, 판별기의 중간층 피처를 이미지 분류 등 지도학습 태스크에 재사용할 수 있음을 실증함으로써 ‘비지도 학습 표현’을 ‘지도학습용 특징 추출기’로 연결한 점이 핵심 기여이다.
2.3 Visualizing The Internals of CNNs
본 절에서는 신경망, 특히 합성곱 신경망(CNN)의 ‘블랙박스’ 문제를 해소하기 위한 시각화 기법을 다룬다. 첫째, Zeiler & Fergus(2014)는 디컨볼루션(deconvolution)과 최대 활성화 필터링을 결합하여 각 합성곱 필터가 어떤 특징을 학습했는지 대략적인 목적을 추정할 수 있음을 보였다. 둘째, Mordvintsev 등은 입력 이미지에 대한 그래디언트 하강법을 적용하여 특정 필터 집합을 최대로 활성화하는 이상적인 이미지를 탐색함으로써, 네트워크가 선호하는 시각 패턴을 직관적으로 확인할 수 있음을 입증하였다.
3. Approach And Model Architecture
과거에는 일반적인 CNN 구조로 GAN을 고해상도화하려다 학습 불안정으로 실패했으나, LAPGAN은 저해상도 생성물을 반복 업스케일링하는 대안을 제시했다. 저자들도 유사한 문제를 겪었으나, 광범위한 아키텍처 탐색을 통해 다양한 데이터셋에서 안정적 학습이 가능하고 더 높은 해상도·더 깊은 모델 훈련을 지원하는 새로운 CNN 기반 GAN 계열을 찾아냈다.
핵심 접근법으로 최근 제안된 세 가지 CNN 구조 변화를 채택·수정하였으며, 그 첫 번째는 Springenberg 등(2014)의 전(全)합성곱 네트워크(all convolutional net)이다. 이 기법은 최대풀링(max-pooling)과 같은 결정론적 공간 풀링 함수를 스트라이드 합성곱(strided convolution)으로 대체하여, 네트워크가 스스로 공간 축소(spatial downsampling)를 학습하도록 한다. 본 연구에서는 이를 생성기(generator)와 판별기(discriminator)에 적용하여, 생성기는 공간 업샘플링(spatial upsampling)을, 판별기는 공간 다운샘플링을 스스로 학습하도록 하였다. 두 번째 설계 변화는 합성곱 특징 위에 별도의 완전연결층을 두지 않는 것이다. 글로벌 평균 풀링을 실험해 본 결과 안정성은 높아졌으나 수렴 속도가 느려져, 대신 생성기에서는 최상위 합성곱 피처를 바로 입력으로 사용하고, 판별기에서는 마지막 합성곱 출력을 바로 시그모이드 출력에 연결하는 방식이 효과적이었다. GAN의 첫 계층은 균등 분포 잡음 $Z$를 행렬 곱으로 처리해 4차원 텐서로 재구성한 뒤 합성곱 스택을 시작하며, 판별기는 최종 합성곱 출력을 펼쳐(flatten) 단일 시그모이드로 분류한다. 세번째는 학습 안정화와 깊은 모델의 그래디언트 흐름 개선을 위해 Batch Normalization을 도입하였다. 이를 통해 딥 생성기가 초기 학습 단계에서 ‘모든 샘플이 하나의 점으로 수렴’하는 붕괴 현상을 방지할 수 있었으나, 모든 계층에 적용할 경우 샘플 진동과 모델 불안정성이 발생하였다. 따라서 생성기의 최종 출력층과 판별기의 첫 입력층에서는 Batch Normalization을 적용하지 않는 방식을 선택하여 안정적인 학습을 달성하였다.
생성기에서는 대부분의 층에 ReLU를 적용하고, 출력층에만 Tanh를 사용하여 모델이 학습 분포의 색상 공간을 빠르게 포화하고 커버하도록 유도했다. 판별기에서는 Leaky ReLU를 도입해 특히 고해상도 이미지 모델링 시 안정적이고 효과적인 학습을 이끌어냈으며, 이는 원래 GAN의 maxout 활성화와 대비되는 선택이다.
DCGAN의 안정적 학습을 위한 아키텍처 설계 지침은 다음과 같다.
- 공간 축소·확대 방식 통일
- 판별기에서는 풀링(pooling) 계층 대신 스트라이드(strided) 합성곱을, 생성기에서는 분수 스트라이드(fractional-strided) 합성곱을 사용하여 네트워크가 공간적 축소·확대를 스스로 학습하도록 한다.
- 배치 정규화 적용
- 생성기와 판별기 양쪽 모든 계층에 Batch Normalization을 도입하여 학습 안정성과 그래디언트 흐름을 개선한다.
- 완전연결층 제거
- 깊은 구조에서도 불필요한 완전연결(hidden fully-connected) 계층을 배제함으로써 파라미터 수를 줄이고 표현 학습에 집중한다.
- 활성화 함수 선택 (생성기)
- 생성기 내부 모든 층에 ReLU를 사용하고, 출력층에는 Tanh를 적용하여 데이터 분포의 색상 범위를 빠르게 포화하도록 유도한다.
- 활성화 함수 선택 (판별기)
- 판별기 전 계층에 LeakyReLU를 사용하여 고해상도 이미지에서도 안정적인 판별 성능을 확보한다.
4. Details of Adversarial Training
본 연구에서는 LSUN, ImageNet-1k, Faces 세 가지 데이터셋을 사용해 DCGAN을 학습하였다. 입력 이미지는 별도 전처리 없이 Tanh 함수 범위인 $[-1,1]$로만 정규화했다. 모든 모델은 배치 크기 128의 미니배치 SGD 대신 Adam(학습률 0.0002, $\beta_1=0.5$)을 사용하였으며, 가중치는 0·σ=0.02인 정규분포로 초기화했다. LeakyReLU 누수 계수는 0.2로 고정하였다. Adam의 기본값(학습률 0.001, $\beta_1=0.9$)이 학습 불안정과 진동을 일으켜, 이를 각각 0.0002와 0.5로 조정함으로써 안정적인 수렴을 달성했다.
4.1 LSUN
본 연구에서는 생성 모델의 시각적 품질이 향상됨에 따라 과적합 및 학습 데이터의 암기 현상에 대해 암기 현상에 대해 우려가 커진 점에 주목한다. 이를 검증하기 위해 약 300만 개의 이미지를 포함한 LSUN 침실 데이터셋을 사용해 DCGAN을 학습하였으며, 온라인 학습을 모사하기 위해 첫 번째 에폭(epoch) 후의 생성 샘플과 완전 수렴 후의 생성 샘플을 각각 제시하였다. 이러한 비교를 통해, 모델이 단순한 데이터를 암기하여 고품질 이미지를 재생산하는 것이 아니라 실제로 일반화된 표현을 학습하고 있음을 보여 준다. 이 과정에서 어떠한 데이터 증강도 적용하지 않아, 결과가 데이터 증강 효과가 아닌 모델 자체의 학습 능력에 의한 것임을 명확히 하였다.

Figure 1은 LSUN 침실 장면을 생성하기 위해 설계된 DCGAN 생성기의 전체 흐름을 보여준다. 먼저, 100차원 균등 분포에서 샘플링된 잠재 벡터 $Z$가 입력으로 들어오면, 단일 행렬 곱을 통해 4×4 공간 크기와 1024개의 채널을 가진 텐서로 투영(프로젝트)되고 다시 모양이 재구성된다. 이후 네 번의 분수 스트라이드 합성곱 계층을 차례로 거치면서, 생성기는 스스로 공간적 업샘플링을 수행하여 해상도를 점진적으로 8×8, 16×16, 32×32, 최종적으로 64×64 픽셀로 확장한다. 각 업샘플링 단계에서는 채널 수가 1024→512→256→128→3으로 차례로 줄어들어, 최종적으로 3채널(RGB) 컬러 이미지를 출력한다. 이 과정 전반에 걸쳐 풀링이나 완전 연결층 없이 오직 합성곱 연산만을 사용함으로써, 생성기가 공간 축소·확대 방식을 직접 학습하도록 한 점이 이 구조의 핵심 특징이다.

Figure 2는 한 번의 에폭(epoch) 학습 이후에 생성된 침실 이미지 샘플을 제시한다. 이론적으로 모델은 훈련 데이터를 암기(memorization)할 가능성이 있지만, 본 연구에서는 아주 작은 학습률과 미니배치 SGD를 사용했기 때문에 암기가 일어날 가능성이 낮다고 보고한다. 또한, ‘작은 학습률 + SGD’ 조합으로 암기를 실험적으로 관찰한 선행 연구는 없음을 언급한다.

Figure 3은 5회 에포크(epoch) 학습 후 생성된 침실 이미지 샘플을 보여준다. 여러 샘플에서 침대의 베이스보드 등 특정 부위에 반복적으로 나타나는 노이즈 질감으로 미뤄볼 때, 모델이 시각적 언더피팅(under-fitting)을 겪고 있음을 알 수 있다.
4.1.1 Deduplication
본 연구에서는 생성기가 훈련 이미지를 암기할 가능성을 줄이기 위해 32×32 크기로 다운샘플링한 중앙부에 대해 3072–128–3072 구조의 노이즈 제거 ReLU 오토인코더를 학습하고, 코드층 활성화를 임계값 이진화해 시맨틱 해싱 기반 중복 제거를 수행했다. 이 방법은 해시 충돌 시 오탐율이 1% 미만으로 매우 정밀도가 높았고, 약 27만5천 개의 유사 중복을 걸러내 높은 재현율도 달성했다.
4.2 Faces
본 연구에서는 현대 인물을 대상으로 웹에서 얼굴 이미지를 대규모로 수집·전처리하여 DCGAN 학습에 활용하였다. 우선 dbpedia에서 근현대에 출생한 10,000명의 인물 이름을 추출하고, 이들 이름으로 무작위 웹 이미지 검색을 수행하여 약 300만 장의 이미지를 확보하였다. 확보된 이미지에는 OpenCV 기반 얼굴 검출기를 적용하여 해상도가 충분히 높은 검출 결과만 선별하였고, 이를 통해 약 35만 개의 얼굴 영역(face box)을 추출하였다. 최종적으로 이 얼굴 영역들만을 학습 데이터로 사용하였으며, 추가적인 데이터 증강은 일체 적용하지 않았다.
4.3 ImageNet -1k
본 연구에서는 자연 이미지의 비지도 학습을 위해 ImageNet-1k 자료를 활용하였다. 모든 이미지를 최소 변형(min-resize) 후 중앙부 32×32 크기로 잘라서 학습에 사용했으며, 별도의 데이터 증강은 일체 적용하지 않았다.
5. Emprical Validation of DCGAN Capabilities
5.1 Classifying CIFAR-10 Using GANs as a Feature Extractor
본 절에서는 DCGAN이 학습한 표현의 품질을 지도학습 과제(CIFAR-10 분류)에서 평가하는 절차와 결과를 소개한다. 먼저, 비지도 표현 학습 평가의 일반적 기준으로, 학습된 특징을 고정된 피처 추출기로 활용하여 선형 분류기를 학습시키는 방식을 사용한다. CIFAR-10에서는 K-평균 기반 단일 계층 피처 학습으로 4800개 특성 맵을 이용할 때 80.6%의 정확도를 달성하며, 이를 다층으로 확장하면 82.0%까지 상승한다(Coates & Ng, 2011). DCGAN 평가를 위해 ImageNet-1k로부터 학습된 판별기(discriminator)의 모든 합성곱층 피처를 사용하고, 각 층의 4×4 공간 그리드를 최대 풀링한 뒤 평탄화·연결하여 28672차원 벡터를 구성한다. 이 벡터 위에 L2-정규화된 선형 SVM을 학습시킨 결과, 82.8%의 정확도를 기록하여 기존 K-평균 기반 기법을 능가했다. 비록 최고층 특성 맵 수(512)가 K-평균 기법보다 훨씬 적음에도, 다층의 4×4 공간 정보를 합함으로써 대형 피처 벡터를 형성한 것이 주효했다. 다만, Dosovitskiy 등(2015)의 Exemplar CNNs보다는 성능이 낮으며, DCGAN을 CIFAR-10에 직접 학습시키지 않고도 이 같은 결과를 달성한 점은 도메인 강건성(domain robustness)을 입증한다. 향후에는 판별기 표현을 미세조정(fine-tuning)하여 추가 성능 향상을 도모할 수 있다.

5.2 Classifying SVHN Digits Using GANs as a Feature Extractor
본 절에서는 레이블이 부족한 상황에서 SVHN 데이터셋에 DCGAN 판별기(discriminator) 피처를 활용해 지도학습 성능을 평가한다. 먼저, CIFAR-10 실험과 유사한 방식으로 전체 SVHN ‘non-extra’ 세트에서 1만 개를 검증용으로 분리하고, 남은 훈련 데이터에서 클래스별로 균등하게 분포된 1,000개 샘플을 무작위로 선택한다. 그 위에 CIFAR-10과 동일한 DCGAN 피처 추출 파이프라인(각 합성곱층의 4×4 공간 최대풀링 후 1차원 벡터로 평탄화·연결)과 L2-정규화 선형 SVM을 적용한 결과, 테스트 오류율 22.48%를 기록하여, 제한된 레이블 환경에서 기존의 비지도 CNN 변형 기법(Zhao et al., 2015)을 능가하는 최첨단 성능을 달성했다. 추가로, 동일한 CNN 아키텍처를 순수 지도학습으로만 훈련하고 랜덤 서치(Bergstra & Bengio, 2012)로 64회의 하이퍼파라미터 탐색을 수행한 모델은 검증 오류율 28.87%를 기록해, 아키텍처 자체보다 DCGAN으로부터 얻은 비지도 표현(feature)이 성능을 크게 끌어올린 핵심 요소임을 입증하였다.
6. Investigating and Visualizing the Internals of the Networks
본 연구에서는 훈련된 생성기와 판별기를 다양한 관점에서 분석하되, 다음 두 가지 평가 기법은 사용하지 않는다. 첫째, 훈련 데이터에 대한 최근접 이웃 검색을 적용하지 않는데, 이는 픽셀 또는 특징 공간에서의 작은 이미지 변형에도 쉽게 속을 수 있기 때문이다(Theis et al., 2015). 둘째, 로그우도(log-likelihood) 지표 역시 정량적 평가에 부적합한 것으로 알려져 있어 사용하지 않았다(Theis et al., 2015).

6.1 Walking in the Latent Space
본 실험에서는 잠재공간(latent space) 위를 연속적으로 이동(walk)하며 그 풍경(landscape)을 살펴보았다. 잠재벡터 간 간격을 따라 샘플을 생성하면서 급격한 전환(sharp transitions)이 나타나면 암기(memorization)의 징후로 볼 수 있고, 반대로 생성 이미지에서 객체의 추가·제거 같은 의미론적 변화가 일관되게 관찰되면 계층적이고 유의미한 표현을 학습했음을 알 수 있다. 이러한 잠재공간 보행 결과가 Figure 4에 시각화되어 있다.

6.2 Visualizing the Discriminator Features
본 절에서는 DCGAN이 비지도 학습만으로도 계층적인 유의미한 특징을 학습할 수 있음을 보여준다. 먼저, 기존 연구에서 대규모 이미지로 지도 학습된 CNN이 강력한 특징을 학습하고(Zeiler & Fergus, 2014), 장면 분류용 CNN이 물체 검출기 역할을 하는 것(Oquab et al., 2014)을 확인한 바 있다. 이에 저자들은 DCGAN 판별기의 피처를 가이드 백프로파게이션(guided backpropagation; Springenberg et al., 2014)을 통해 시각화하고, 침실 장면의 침대·창문 등 의미 있는 부위가 활성화됨을 관찰하였다(Fig. 5). 반면, 랜덤 초기화된 피처는 아무런 의미 있는 패턴에도 반응하지 않아, DCGAN이 실제 구조적·의미론적 정보를 포착했음을 대조적으로 입증한다.

6.3 Manipulating the Genertor Representation
6.3.1 Forgetting to Draw Certain Objects
이 실험에서는 생성기가 학습한 “창문” 표현이 어떤 형태인지 확인하기 위해, 생성된 침실 샘플 150장에 사람이 직접 그린 52개의 창문 경계 상자를 기반으로 두 번째 최상위 합성곱층의 활성화 피처맵 중 창문 영역에 특화된 채널을 통계적으로 식별했다. 구체적으로, 공간 좌표 (i,j)(i,j)에서 각 채널의 활성화 벡터를 뽑아내고, 그 위치가 창문 경계 상자 안에 있으면 양성, 밖에 있으면 음성으로 라벨링해 로지스틱 회귀를 학습했으며, 이때 가중치 wc>0w_c>0인 약 200개의 채널을 “창문 전용” 피처맵으로 간주했다. 이후 이들 피처맵을 네트워크 전반에서 드롭아웃 방식으로 제거한 상태와 원래 상태에서 새 샘플을 생성해 비교한 결과, 제거된 샘플에서는 창문이 대부분 사라지고 의자·벽 장식 등 다른 침실 요소로 대체되어 나타났다. 이는 생성기가 창문을 독립된 모듈로 학습해 왔다는 점과, 해당 모듈이 제거되면 네트워크가 장면의 일관성을 유지하기 위해 다른 객체 표현으로 빈자리를 채운다는 사실을 보여 준다.
예를 들어 설명하면, 우선 생성기가 만든 150개의 샘플 이미지에 사람이 직접 52개의 창문 경계 상자를 그려 각 이미지상의 창문 위치를 지정했다. 두 번째 최상위 합성곱 계층의 출력은 $(C,H,W)$ 크기의 텐서이며, 각 채널마다 $H \times W$ 크 기의 활성화 맵이 있다. 이 맵 위에서 임의의 공간 좌표 $(i,j)$를 선택하면, 채널 1부터 $C$까지의 활성화값 ${a_{1,i,j},\dots,a_{C,i,j}}$이 벡터 $x \in \mathbb{R}^C$를 이룬다. 그 좌표가 창문 바운딩 상자 안에 있으면 레이블 $y=1$, 바깥이면 $y=0$으로 매핑해 학습 샘플$(x,y)$를 만든다. 이어서, 이렇게 구성된 학습 샘플 $\{(x_n,y_n)\}$을 바탕으로 로지스틱 회귀 모델
$$
P(y=1 \mid x) \;=\; \sigma\bigl(w^\top x + b\bigr)
$$
를 학습하여, 각 채널 $c$에 대응하는 가중치 $w_c$를 얻는다. 여기서 $w_c>0$인 채널(약 200개)은 “창문 영역에서 주로 활성화되는” 피처맵으로 간주된다. 다음으로, 이들 채널을 네트워크의 모든 공간 위치에서 드롭아웃(dropout) 방식으로 제거한 뒤 생성기를 다시 가동해 새로운 이미지를 생성한다. 이때 드롭아웃 전·후로 생성된 샘플을 비교한 결과, 제거된 영역에서는 원래 창문 대신 의자나 벽 장식, 램프 등의 다른 침실 요소가 자연스럽게 대체되었다. 이 실험은 생성기가 “창문”이라는 객체를 독립된 피처맵 모듈로 학습해 왔음을, 그리고 해당 모듈이 사라지면 네트워크가 장면의 일관성을 유지하기 위해 다른 객체 표현으로 빈자리를 채우려 한다는 점을 보여 준다. 결과적으로, DCGAN 생성기는 단순한 화면 텍스처가 아니라 의미론적이고 모듈화된 객체 표현을 습득했음을 입증하는 것이다.

7. Conclusion and Future Work
이 논문에서는 GAN 훈련의 안정성을 높이기 위한 일련의 아키텍처 설계 지침을 제안하고, 이를 적용한 DCGAN이 지도학습용 특징 표현과 고품질 이미지 생성 모두에서 우수한 성능을 보인다는 실험적 증거를 제시했다. 그럼에도 불구하고, 장기간 학습 시 일부 필터가 하나의 진동 모드로 붕괴하는 형태의 불안정성은 여전히 관찰되었으며, 이를 해결하기 위한 추가 연구가 필요하다. 또한 본 프레임워크를 비디오(프레임 예측)나 오디오(음성 합성용 사전 학습 특징) 등 다른 도메인으로 확장하거나, 학습된 잠재공간의 구조적·통계적 특성을 심층적으로 분석하는 후속 연구 역시 가치 있는 과제로 남아 있다.

