NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

3D scene reconstruction

3d scene reconstruction은 임의의 3D scene을 컴퓨터 상에서 복원하는 방법을 연구하는 분야이다. 해당 문제를 푸는 방법은 크게 1) 3D mesh reconstruction, 2) voxel reconstruction과 2) point cloud reconstristion이 있다.

3D mesh reconstruction

mesh를 이용하여 사물을 polygon으로 근사하여 3d 로 타겟을 복원하는 방법이다.

Voxel reconstruction

사물을 정육면제 polygon의 집합으로 해석하여 복원하는 방법이다.

point cloud reconstruction

점들의 집합으로 장면을 3D 복원한다. 따라서 보다 자세한 복원이 이상적인 상황에서 가능하지만, 파일의 용량이 매우 커지게 된다. (float64, srgb 기준 점의 개수*(83)(1*3) byte 필요)

라이다 센서와 같이 거리를 구할 수 있는 센서가 있는 경우 유용하게 사용될 수 있다.

본 논문이 사용하는 방법

Untitled

sparse한 이미지들(약 200개) 을 input으로 하여 novel view에 대해 보이는 결과를 합성하는 것이 본 논문의 목표이다.

개요

본 논문의 목표는 여러장의 이미지를 촬영 위치 및 각도와 함께 입력하면 임의의 각도에서 촬영된 것으로 기대되는 이미지를 출력하는 것. (novel view systhesis )

이 때 novel view systhesis를 위해 classical volume rendering 기법을 사용한다.

classical volume rendering?

3D 사물이 연속된 점들의 집합으로 구성되어있다고 생각하고 구하고자 하는 이미지 픽셀을 만들기 위해 지나는 모든 점들을 적분하여 각 픽셀의 color 값을 구한다.

임의의 point의 정보를 입력하면, 해당 point의 color, volume density를 출력하는 함수를 neural network로 만드는 것.

Untitled

핀홀 카메라 모델 가정(1)과 하나의 픽셀이 하나의 광선으로부터 만들어졌다고 가정(2)하면, 이미지의 픽셀을 만드는 광선을 하나로 결정할 수 있을 것이다.

Untitled

그리고, 관찰하고자 하는 사물이 있는 world의 모든 3D 점에서의 color, volume density 값을 알고 있다면, 다음과 같은 적분 식으로 픽셀에 찍히게 될 color 정보를 알 수 있을 것이다.

Untitled

여기서 $\sigma$ 가 volume density이며, t가 점의 3D 좌표이다.

T 가 정의된 부분을 보면, $\sigma$ 와 $t-t_n$ 이 작을 수록 T 값이 크게 나온다는 것을 알 수 있고, 따라서 $\sigma$ 가 작을 수록 해당 위치의 투과율이 높음을 알 수 있다.