Data는 Probability Distribution이라는 말을 들어본 적이 있을 것이다. 이 말이 대체 뭘까?
예를 들어, 우리에게 512x512 정도의 흑백 이미지를 만들어낸다고 가정하자. 이 이미지를 만들어낸다는 것은 512x512개의 픽셀들이 모인 1채널(Grayscale), 즉 1x65536개의 픽셀들에 0~255까지의 값을 할당하는 것이다.
그러면 65536개의 픽셀들에 U(0,255)에서 샘플링한 값을 할당한다고 가정하고, 이를 수천, 수만, 수십만, 수백만번 반복해보자. 그러면 과연 유의미한 데이터가 나올까?
실험적으로 측정해본 결과, 그럴듯한 이미지는 절대로 만들어지 않고 항상 인간의 눈으로 이해할 수 없는 noise들만 생성된다.

이를 통해 데이터는 65536개의 차원 내에 균등하게 존재하는 것이 아니라 특정 분포 또는 특정 패턴의 형태로 존재한다는 것을 알 수 있다.
즉 image는 65536차원의 Normal distribution은 아니고, Gaussian distribution, exponential distribution 등도 당연히 절대 아닐 것이다. 뭔가 특별하고 복잡한 distribution 상에 있을 것이고, Generative model은 이 복잡한 distribution을 추정해나가며 ‘그럴듯한’ 이미지를 생성하기 위해 학습된다.
이는 manifold hypothesis와도 연관성이 있는데, 실제로 데이터를 설명하는 유의미한 저차원 (manifold)가 존재한다는 가설이다.

즉 고차원 상에서는 거리가 가까운 데이터들이 실제로 의미상으로 가깝지 않을 수 있다. 반면, 저차원에서는 가까운 데이터를 보면 의미상으로 보다 가까움을 알 수 있다.
아래서도 계속 data distribution이라는 이야기를 할 것인데, 데이터들은 어떤 특별한 확률 분포 아래서 sampling된다는 것 정도로 이해해보자. 어차피 우리는 그 distribution이 무엇인지 explicit하게 밝히지 않고 모델을 통해 추정해나갈 뿐이다.
<aside> 💡 흔히 GAN의 Generator와 Discriminator을 ‘위조지폐범과 경찰’에 비유한다. 위조지폐범은 경찰을 속일 수 있는, 진짜 같은 위조지폐를 만들 수 있는 방향으로 학습되고 경찰은 위조지폐범이 만들어낸 위조지폐를 감별할 수 있는 방향으로 학습된다!
</aside>