CNN Summary

8-7. CNN 요약

예를 들어서 5x5 합성곱 연산을 한번 하든, 3x3 합성곱 연산을 두번 하든, receptive field도 똑같고 피처 맵의 사이즈도 동일한데 왜 굳이 VGG-Net에서 3x3을 고집했는가?
- Receptive Field란, 다음과 같이 피처 맵의 값이 만들어지기 위해 반영된 field를 말한다.
이유는 3가지다.
- Non-Linearity
  - 각 합성곱 연산이 이루어진 후 ReLU를 통과한다.
  - 비선형 활성화 함수를 여러 번 통과함으로써 비선형성이 증가.
  - 즉, 입력과 출력 간의 관계를 더욱 비선형하게 만들어줌.
- Weight
  - 학습해야되는 파라미터의 갯수가 줄어든다.
  - 5x5는 가중치가 25개, 3x3 필터 2개는 가중치가 18개이므로 파라미터의 수가 줄어든다.
- 중요도 (혁펜하임 피셜)
  - 다음과 같이 여러 번의 합성곱을 해주면 중요한 곳에 대한 집중도가 가장 커지고 그 이후 주변으로 퍼져나가는 식으로 반영이 된다고 한다.

최종적으로 주변의 모든 정보를 반영하여 최종 결정을 내리는 것이다.
- 만약 특징만 인식하였을 때 고양이라고 판단했는데 주변이 물이면 어떡할 것인가?
- 테두리 쪽에 중요한 정보도 있을 가능성이 농후

MLP처럼 열벡터로 데이터가 들어가는 것이 아니라 사진의 형태 그대로 CNN을 통과하기 때문에 입력 데이터의 위치 정보를 살리며 모델을 훈련시킬 수 있다.