Binary Classification (Sigmoid)

5-2. Binary Classification w/ Sigmoid

image 23.png

손실 함수를 정의해보자면…
- 사진이 강아지일 때는 ($q = 1$), $q$를 maximize하면 되고
- 사진이 고양이일 때는 ($q = 0$), $1-q$를 maximize하면 된다.
- 즉, $q^y(1-q)^{1-y}$를 손실 함수로 두고 이를 maximize하면 된다.
- 인덱스를 지정해주어 i번째 사진은 $q^{y_i}_i(1-q_i)^{1-y_i}$ ⇒ 머신이 예측한 정답 레이블일 확률
하지만 위의 함수는 문제가 있다.
- 각각의 사진 데이터는 독립 시행이므로 정답 레이블일 확률이 곱해지는데 시그모이드 함수를 통과했으므로 0과 1사이의 값이 계속 곱해진다.
- 이는 곱해질수록 0으로 수렴하므로 문제가 된다.
- 하지만 로그를 취해주면 로그의 성질로 인해 각각의 곱은 덧셈으로 바뀌므로 위의 문제를 해결할 수 있다.
- 즉, $L = -\sum_i\log(q_i^{y_i}(1-q_i)^{1-y_i})$라는 손실 함수를 가중치에 대해서 미분해서 반대 방향으로 나아가면 된다.
- 하지만 로그를 취해도 아무 이상이 없나?
  - 이상 없다. 이유는 log(L)이 줄어도 L이 같이 줄어들기 때문.
  - 이를 Monotonic Increase (단조 증가)라고 한다.