3-4. 가중치 초기화 (Weight Initialization)
선요약
LeCun방법
- $w \sim U(-\sqrt{\dfrac{3}{N_{in}}}, \sqrt{\dfrac{3}{N_{in}}}) \enspace \text{or }w \sim N(0,\dfrac{1}{N_{in}})$
- $N_{in} =$ 입력 층의 노드 갯수
- $N_{out} =$ 출력 층의 노드 갯수
- 균등 분포와 정규 분포의 평균과 분산은 똑같다
Xavier (sigmoid/tanh 사용하는 신경망에 한해서)
- $w \sim U(-\sqrt{\dfrac{6}{N_{in}+N_{out}}}, \sqrt{\dfrac{6}{N_{in}+N_{out}}}) \text{ or }w \sim N(0, \dfrac{2}{N_{in}+N_{out}})$
- 균등 분포와 정규 분포의 평균과 분산은 똑같다
He (ReLU 사용하는 신경망에 한해서)
- $w \sim U(-\sqrt{\dfrac{6}{N_{in}}}, \sqrt{\dfrac{6}{N_{in}}}) \text{ or }N(0, \dfrac{2}{N_{in}})$
- 균등 분포와 정규 분포의 평균과 분산은 똑같다
의문점
- 굳이 랜덤하게 초기화를 해야하나?
- 0이나 1로 초기화 하면 안되나?
- 해당 의문에 대한 해결은 역전파(Back Propagation)을 이해하고 알아보자.