RNN Back Propagation

9-2. RNN Back Propagation

image 4.png

예시로 3번째 단계까지만 있는 RNN이라고 하자.
학습되는 파라미터는 $W_x, W_h, W_y, \vec b, \vec b_y$ 총 5개이지만 가중치만 편미분을 해보자.
$W_y$의 편미분
- $\dfrac{\partial L}{\partial W_y} = \dfrac{\partial L}{\partial \hat y_3}\dfrac{\partial \hat y_3}{\partial W_y}$
$W_h$의 편미분
- $\dfrac{\partial L}{\partial W_h} = \dfrac{\partial L}{\partial \hat y_3}\dfrac{\partial \hat y_3}{\partial h_3}\dfrac{\partial h_3}{\partial W_h} + \dfrac{\partial L}{\partial \hat y_3}\dfrac{\partial \hat y_3}{\partial h_3}\dfrac{\partial h_3}{\partial h_2}\dfrac{\partial h_2}{\partial W_h}$
- $W_h$가 쓰이는 곳이 두 곳이므로 두 곳 다 편미분 진행 후 덧셈
$W_x$의 편미분
- $\dfrac{\partial L}{\partial W_x} = \dfrac{\partial L}{\partial \hat y_3}\dfrac{\partial \hat y_3}{\partial h_3}\dfrac{\partial h_3}{\partial W_x} + \dfrac{\partial L}{\partial \hat y_3}\dfrac{\partial \hat y_3}{\partial h_3}\dfrac{\partial h_3}{\partial h_2}\dfrac{\partial h_2}{\partial W_x} + \dfrac{\partial L}{\partial \hat y_3}\dfrac{\partial \hat y_3}{\partial h_3}\dfrac{\partial h_3}{\partial h_2}\dfrac{\partial h_2}{\partial h_1}\dfrac{\partial h_1}{\partial W_x}$
- 결국 액 * $x_3$ + 액 * 웨 * 액 * $x_2$ + 액 * 웨 * 액 * 웨 * 액 * $x_1$의 형태가 나온다.
- 하지만 $x_1$에 대해서는 곱해지는 값들이 너무 많아 그라디언트에 대한 영향력이 얕아진다.