3-9. Training vs. Valid vs. Test
Training vs. Test
- 모델을 훈련을 시킬때는 정답을 알려주면서 훈련을 실시한다.
- 하지만 모델이 훈련을 완료하고 테스트를 진행할 때는 모델에게 정답을 알려주면 안된다.
- 처음 보는 데이터에 대해서도 예측을 잘하는 지를 평가해야 되기 때문이다.
- 그렇기 때문에 정답을 포함한 Training data와 정답을 포함하지 않고 한번도 본적없는 Test data를 나눈다.
- 학습 도중에 test를 해보고 싶다면?
- Validation Set을 사용하면 된다.
- Validation set은 Training set의 일부를 떼서 사용한다.
Train vs. Valid vs. Test
- 데이터의 관점에서 보면…
- Train : 파라미터를 찾기 위한 데이터
- Valid : 하이퍼파라미터를 찾기 위한 데이터
- Valid에서 성능이 가장 좋을 때 학습을 멈추고 Epoch수를 결정한다.
- Valid에서 가장 성능이 잘 나오는 모델을 선택한다.
- Test : 최종적인 성능 확인을 위한 데이터
- 현실적인 비유를 하자면…
- Train : 연습 문제
- Valid : 모의고사
- Test : 수능