본 블로그 포스트에서 사용된 표, 이미지 및 기타 관련 자료는 해당 논문에서 발췌한 것입니다. 이 자료들은 논문의 내용을 요약하고 이해를 돕기 위한 참고용으로 제공됩니다. 또한, 해석 과정에서 일부 오류가 있을 수 있으니 원 논문을 참고하여 확인하시기 바랍니다.
Abstract
본 논문에서는 비지도 학습을 통해 유용한 특징을 추출하는 컨볼루션 오토인코더(Convolutional Auto-Encoder, CAE)를 제안한다. 제안된 CAE는 별도의 정규화 기법 없이, 합성곱 기반 온라인 경사 하강법(convolutional online gradient descent)을 활용하여 가중치를 최적화한다. 특히 맥스 풀링(max-pooling) 계층은 생물학적으로 타당한 시각적 패턴 학습에 필수적인 요소로, 이전 연구에서 보고된 주요 특징들을 효과적으로 캡처한다. 더 나아가, 이러한 CAE 필터를 기반으로 구성한 합성곱 신경망(CNN)은 MNIST 및 CIFAR-10 데이터셋의 객체 검출(object detection) 과제에서 우수한 성능을 달성함을 보였다.
1. Introduction
비지도 학습은 레이블이 없는 데이터에서 유용한 특징을 자동으로 추출하고, 중복된 정보를 제거하여 핵심적인 속성만을 견고하고 변별력 있게 표현하는 기법이다. 이러한 방법은 과학 및 산업 분야에서 폭넓게 활용되며, 특히 신경망 아키텍처에서는 각 층을 비지도 방식으로 사전 학습한 뒤, 전체를 역전파로 미세 조정하여 분류기로 전환하는 계층적 학습 전략이 자주 쓰인다. 이때 비지도 초기화는 국소 최적해에 빠질 위험을 줄이고 학습의 안정성을 높인다. 대부분의 비지도 학습 기법은 인코더–디코더 구조를 기반으로 하는데, 먼저 입력을 저차원 잠재 공간으로 압축한 후 다시 원래 차원으로 복원하는 과정을 반복하면서 비선형 의존성을 점진적으로 모델링한다. LOCOCODE, Predictability Minimization, 제한된 볼츠만 머신, 오토인코더, 에너지 기반 모델 등이 이에 해당한다. 한편 시각 객체 인식 분야에서는 합성곱 신경망(CNN)이 입력의 공간적 이웃 관계와 국소성을 보존하면서도 공유 가중치 덕분에 고차원 이미지에서도 효율적인 확장이 가능하여 뛰어난 성능을 보인다. 본 논문에서는 이러한 배경을 바탕으로 ‘컨볼루셔널 오토인코더’를 제안한다. 이 모델은 평범한 확률적 경사 하강법만으로도 비자명한 특징을 학습하며, 심층 학습에서 흔히 발생하는 다양한 비볼록 최적화 문제의 국소 최적해를 회피할 수 있는 우수한 CNN 초기화를 찾아낸다.
2. Preliminaries
2.1 Auto-Encoder
오토인코더 모델의 기본 원리를 다음과 같이 정리할 수 있다. 오토인코더는 입력 벡터 $x \in \mathbb{R}^d$를 받아들이는데, 여기서 $d$는 입력의 차원, 즉 특징(feature)의 개수를 의미한다. 먼저 매개변수 $\theta=\{W,b\}$로 정의된 결정론적 함수
$$
h = f_{\theta}(x) = \sigma(Wx + b)
$$
를 통해 입력을 $d'$차원의 잠재 표현 $h \in \mathbb{R}^{d'}$으로 사영(mapping)한다.
이후 이 ‘코드’를 역매핑(reverse mapping) 함수
$$
y = f_{\theta'}(h) = \sigma(W' h + b')
$$
를 사용해 원래 입력 $x$와 동일한 형태로 재구성(reconstruction)한다.
보통 인코딩과 디코딩에 동일한 가중치를 사용하도록
$$
W' = W^T
$$
로 제약하며, 이를 통해 파라미터 수를 줄이고 대칭성을 보장한다.
각 학습 샘플 $x_i$는 잠재 표현 $h_i$로 매핑된 뒤 재구성 $y_i$로 변환되며, 파라미터 $\{\theta,\theta'\}$는 학습 데이터 세트 $\mathcal{D}_n = \{(x_0,t_0),\dots,(x_n,t_n)\}$ 위에서 적절한 비용 함수(cost function)를 최소화하도록 최적화된다.
2.2 Denoising Auto-Encoder
추가 제약 없이 오토인코더(auto-encoder)는 본질적으로 입력을 그대로 복원하는 항등 매핑(identity mapping)을 학습한다. 이 문제는 확률적 제한 볼츠만 머신(RBM), 희소 코딩(sparse coding), 또는 손상된 입력으로부터 원본을 복원하는 디노이징오토인코더(denoising AE)를 통해 해결할 수 있다. 특히 디노이징 AE는 RBM과 동등하거나 더 우수한 성능을 보인다.
학습 과정은 먼저 원본 입력 $x$에 노이즈 비율 $v$만큼 이진 또는 가우시안 노이즈를 가해 손상된 입력 $\bar x$를 만든 뒤,
$$
h = f_\theta(\bar x) = \sigma(W\bar x + b),\quad
y = f_{\theta'}(h) = \sigma(W' h + b')
$$
과정을 통해 원본 $x$를 복원하도록 진행된다.
2.3 Convolution Neural Networks
CNN은 계층적 구성으로 이루어진 모델로, 1차 시각 피질의 단순 세포(simple cells)와 복합 세포(complex cells)의 구조를 모방하여 컨볼루션 층과 서브샘플링(맥스풀링) 층이 교대로 배치된다. 이들 계층은 필요에 따라 반복적으로 쌓아 올릴 수 있으며, 기본 구조는 컨볼루셔널 층, 맥스풀링 층, 분류 층의 세 가지 블록으로 이루어져 있다. 이러한 설계를 통해 CNN은 감독 학습 기반 이미지 분류에서 탁월한 성능을 발휘하며, 다수의 벤치마크에서 최첨단 성능을 기록하고 있다.
3. Convolutional Auto-Encoder(CAE)
완전 연결된 오토인코더와 디노이징 오토인코더는 2차원 이미지 구조를 무시한다. 완전 연결 오토인코더(FC-AE)와 잡음 제거 오토인코더(DAE)는 모두 2차원 이미지의 구조를 무시한다. 이러한 특성은 현실적인 크기의 입력을 처리할 때 문제를 일으킬 뿐만 아니라, 매개변수에 중복성을 도입하여 각 특징이 전역적(global)으로, 즉 전체 시각 영역에 걸쳐 표현되도록 강제한다. 그러나 최근 비전 및 객체 인식 분야에서 가장 우수한 성능을 보이는 모델들이 채택한 경향은 입력 전체에 걸쳐 반복적으로 등장하는 국소화된 특징을 발견하는 것이다.컨볼루셔널 오토인코더(CAE)는 기존의 오토인코더(AE)와 달리 입력의 모든 위치에서 가중치를 공유함으로써 공간적 국소성을 그대로 유지한다. 따라서 재구성 과정은 잠재 코드(latent code)에 기초하여 기본 이미지 패치들을 선형 결합함으로써 이루어진다.
본 절에서는 모노채널 입력 $x$에 대해 합성곱 오토인코더(CAE)의 잠재 표현이 정의되는 방식을 서술한다. 잠재 특징 맵 $k$의 값은 활성화 함수 σ(스케일된 하이퍼볼릭 탄젠트)와 2D 합성곱 연산을 통해 다음과 같이 주어진다:
$$
h_k = \sigma(x * W_k + b_k) \tag1
$$
여기서 $*$는 2D 합성곱을, $W_k$와 $b_k$는 필터 및 단일 바이어스를 의미하며, 바이어스는 맵 전체에 동일하게 적용된다. 복원 단계에서는 각 잠재 특징 맵을 뒤집힌 필터 $\widetilde W_k$와 합성곱하여 입력 차원으로 복원하며, 하나의 바이어스 $c$를 더하여 다음과 같이 얻는다:
$$
y = \sigma\Bigl(\sum_{k\in H} h_k * \widetilde W_k + c\Bigr) \tag2
$$
여기서 $H$는 잠재 맵의 집합을, $\widetilde W_k$는 필터의 가로·세로 뒤집기를 나타낸다. 합성곱의 경계 처리 방식(풀 컨볼루션 또는 발리드 컨볼루션)은 맥락에 따라 결정된다. 학습 목표는 평균 제곱 오차(MSE)를 최소화하는 것으로 정의되며,
$$
E(\theta) = \frac{1}{2n}\sum_{i=1}^n (x_i - y_i)^2\tag3
$$
이다. 오차 함수의 기울기는 합성곱을 통해 효율적으로 계산되며, 각 필터 $W_k$에 대한 편도함수는
$$
\frac{\partial E}{\partial W_k}
= x * \delta h_k + \widetilde h_k * \delta y\tag4
$$
로 표현된다. 이 후 확률적 경사하강법으로 가중치를 갱신한다. CAE는 표준 합성곱 신경망과 유사한 구조를 가지되, 인코더와 디코더 간 가중치를 공유함으로써 파라미터 수를 절감하고 특징 학습을 강화한다.
※ 식 (3) 증명
$\theta$는 오토인코더가 학습을 통해 최적화해야 할 모든 파라미터, 즉 필터 가중치와 바이어스를 통칭한다. 구체적으로는
$$\theta = \bigl\{\,W_1, W_2, \dots, W_K,\; b_1, b_2, \dots, b_K,\; c\bigr\},$$
여기서 $W_k$ 는 $k$번째 컨벌루셔널 필터, $b_k$ 는 그에 대응하는 은닉 맵의 바이어스, $c$는 출력 채널의 바이어스다.
이제 MSE 손실 함수
$$ E{\theta} = \frac{1}{2n}\sum_{i=1}^n\bigl(x_i - y_i\bigr)^2$$
가 어떻게 유도되는지 처음부터 단계별로 서술한다.
㉮ 가우시안 잡음 모델 가정
오토인코더가 출력 $y=f_\theta(x)$를 통해 원본 입력 $x$를 재구성할 때, 양자 간의 오차
$$
\varepsilon_i = x_i - y_i
$$
를 “평균이 0이고 분산이 $\sigma^2$인 가우시안 잡음”으로 가정한다. 즉,
$$
\varepsilon_i \sim \mathcal{N}(0,\sigma^2)
\quad\Longrightarrow\quad
p\bigl(x_i \mid y_i; \theta\bigr)
= \frac{1}{\sqrt{2\pi\sigma^2}}
\exp\!\Bigl(-\tfrac{(x_i - y_i)^2}{2\sigma^2}\Bigr).
$$
이 확률 분포는 “$\theta$가 주어졌을 때 $y_i$ 근처에서 $x_i$가 얼마나 자주 관측되는지”를 기술한다.
㉯ 전체 우도(Likelihood)
입력 차원 $i=1,\dots,n$이 서로 독립이라고 가정하면, 전체 관측치 $x=(x_1,\dots,x_n)$에 대한 우도는 각 차원의 곱으로 표현된다.
$$
\mathcal{L}(\theta)
= p\bigl(x \mid y; \theta\bigr)
= \prod_{i=1}^n p\bigl(x_i \mid y_i; \theta\bigr)
= (2\pi\sigma^2)^{-\tfrac{n}{2}}
\exp\!\Bigl(-\tfrac{1}{2\sigma^2}\sum_{i=1}^n (x_i - y_i)^2\Bigr).
$$
㉰ 음의 로그 우도(Negative Log-Likelihood)
우도를 최대화하는 문제는 수학적으로 음의 로그 우도를 최소화하는 것과 동치다.
$$
-\ln \mathcal{L}(\theta)
= \frac{n}{2}\ln(2\pi\sigma^2)
+ \frac{1}{2\sigma^2}\sum_{i=1}^n (x_i - y_i)^2.
$$
여기서 첫 번째 항 $\tfrac{n}{2}\ln(2\pi\sigma^2)$는 $\theta$에 의존하지 않는 상수이므로 최적화 대상에서 제외할 수 있다.
㉱ 분산 흡수 및 제곱 오차 합
분산 $\sigma^2$를 1로 고정하거나, $\tfrac{1}{2\sigma^2}$ 전체를 학습률에 흡수하면 음의 로그 우도는
$$
-\ln \mathcal{L}(\theta)
\;\propto\;
\sum_{i=1}^n (x_i - y_i)^2.
$$
즉, “차이의 제곱합”을 최소화하는 것이 최대우도 추정과 동일해진다.
㉲ 평균화 및 $\tfrac12$ 계수 도입
평균화: 배치 크기 $n$으로 나누어 $\displaystyle \frac{1}{n}\sum_{i=1}^n (x_i - y_i)^2$ 형태로 정의하면, 다른 크기의 배치에서도 손실 값이 서로 비교 가능하고 학습률 설정이 안정적이다.
$\tfrac12$ 계수: 미분 시 도함수 앞의 상수 2를 제거하여 $\partial\bigl(\tfrac12(x_i - y_i)^2\bigr)/\partial y_i = y_i - x_i$의 간결한 형태로 그라디언트를 얻기 위함이다.
결론적으로, 우리는
$$E(\theta)= \frac{1}{2n}\sum_{i=1}^n (x_i - y_i)^2$$
라는 형태의 평균제곱오차 손실 함수를 얻으며, 이 값을 최소화하는 것이 오토인코더 학습의 목표다.
3.1 Max-pooling
이 문단은 계층적 네트워크, 특히 CNN 에서 맥스풀링 층이 어떤 역할을 하는지를 설명한다. 맥스풀링은 입력 특성 맵을 일정 배율로 다운샘플링하며 각 비중첩 영역에서 최대값만 남겨 translation-invariance를 확보한다. 이 과정에서 비최대값을 모두 제거해 은닉 표현에 희소성(sparsity)을 부여함으로써, 필터 검출기가 보다 일반화된 특징을 학습하도록 유도한다. 결과적으로 재구성 단계에서는 픽셀 하나를 디코딩할 때 기여하는 필터 수가 줄어들어 과도한 특수화가 방지되며, L1 또는 L2 정규화 없이도 가중치와 은닉 유닛에 대한 추가적인 규제가 필요 없게 된다.
3.2 Stacked CAEs
여러 개의 오토인코더를 차례로 쌓아 깊은 계층 구조를 구성할 수 있다. 이때 각 층은 바로 아래층의 잠재 표현을 입력으로 받아 학습을 수행한다. 딥 빌리프 네트워크와 마찬가지로, 스택형 구조에서는 각 층을 그리디(greedy) 방식으로 순차적(pre-training) 비지도 학습한 뒤, 전체 네트워크를 역전파(back-propagation)로 미세 조정(fine-tunning)할 수 있다. 또는 최상위 층의 활성화 출력을 SVN이나 기타 분류기의 특징 벡터(feature vector)로 활용할 수 있다.
이와 유사하게, 스택된 컨벌루션 오토인코더를 이용하면, 추후 지도 학습 단계 이전에 동일한 토폴로지를 가진 CNN의 초기 가중치를 효과적으로 설정할 수 있다.
4. Experiments
본 절에서는 먼저 MNIST와 CIFAR10에서 훈련된 여러 CAE 모델의 첫 번째 층 필터를 시각적으로 비교함으로써, 맥스풀링과 잡음 도입이 필터 학습에 미치는 영향을 분석한다. MNIST 실험에서는 네 가지 설정—풀링 없이 무잡음, 풀링 없이 50% 이진 잡음, 2×2 맥스풀링만 적용, 2×2 맥스풀링과 30% 이진 잡음을 동시 적용—으로 7×7 필터 20개를 무작위 선택하여 비교한 결과, 맥스풀링이 없는 경우에는 자명한 해답(그림 1(a),(b))만 학습되는 반면, 맥스풀링을 적용해야만 생물학적으로 타당한 형태의 필터가 등장함을 확인하였다. 특히, 추가 잡음과 결합된 맥스풀링 설정(그림 1(d))이 필터를 더욱 국소화시켜 시각적으로 가장 선명한 패턴을 생성하였다.

자연 컬러 이미지 데이터인 CIFAR10에서도 유사한 경향이 관찰되었다. 이때 잡음은 이진 대신 가우시안 잡음을 사용하였으며, 네 가지 설정으로 학습된 필터를 그림 2에 제시하였다. 그 결과, 풀링만 적용한 모델(그림 2(c))에서 가장 구조화된 컬러 필터가 학습되었고, 잡음 추가는 필터 모양보다는 가중치 크기 변화에만 영향을 미쳤다. 이는 MNIST와 마찬가지로 맥스풀링이 필터 학습에 필수적임을 시사한다.

이어서 4.1절에서는 이렇게 사전학습된 CAE 스택(CAES)을 이용해 동일 토폴로지의 CNN을 초기화하고, MNIST 및 CIFAR10 분류 과제에서 무작위 초기화 CNN과 성능을 비교하였다. MNIST의 경우 1천, 1만, 5만 샘플을 학습한 뒤 전체 테스트셋에서 평가한 결과, CAE 초기화 CNN의 오차율은 각각 7.23%, 1.88%, 0.71%로, 무작위 초기화 CNN(7.63%, 2.21%, 0.79%)보다 일관되게 낮았다(표 1). CIFAR10에서는 1천, 1만, 5만 샘플 기준으로 CAE 초기화 CNN이 52.30%, 34.35%, 21.80%의 오차율을 보여, 무작위 초기화 CNN(55.52%, 35.23%, 22.50%)뿐 아니라 기존 비지도 기법(RBM, K-means 등)과 비교해도 가장 우수한 결과를 기록하였다(표 2).

이러한 결과는 맥스풀링이 CAE의 은닉 표현에 희소성을 부여해 과도한 매개변수 문제를 완화하고, 필터가 보다 일반화된 특징을 학습하도록 유도함으로써 사전학습된 CAE 스택이 CNN 학습을 효율적으로 초기화함을 보여 준다. 또한, 맥스풀링 커널 크기 외에는 추가 하이퍼파라미터 조정이 불필요하므로 교차검증 부담을 줄이는 실용적 장점도 확인할 수 있었다.
5. Conclusion
논문 결론에서는 컨볼루셔널 오토인코더(CAE)가 비지도 방식의 계층적 특징 추출 기법으로서 다음과 같은 의의를 지님을 밝히고 있다. 첫째, CAE는 생물학적으로 타당한 형태의 필터를 학습하여, 입력 데이터의 공간적 구조를 효과적으로 포착한다. 둘째, 이렇게 사전학습된 CAE 스택을 이용해 동일한 토폴로지를 가진 CNN을 초기화하면, 무작위 초기화에 비해 일관되게 성능이 향상된다. 셋째, CAE의 과잉 표현(overcomplete representation)으로 인해 학습 난이도가 더 높아지지만, 맥스풀링 층을 도입함으로써 추가적인 정규화 없이도 희소 코드를 강제하고 양질의 특징 필터가 자연스럽게 도출된다. 마지막으로, CIFAR10 원시 데이터만을 사용한 실험에서 본 방법이 현존하는 모든 비지도 기법 중 최고 수준의 성능을 보였으며, 이는 이론적 장점뿐 아니라 실용적 효용성까지 뒷받침한다는 점을 강조한다.