본문 바로가기
머신러닝

[강의]시즌1 딥러닝의기본 - Training/Testing 데이타 셋

by 박정률 2017. 2. 17.

어떤 모델이 얼마나 훌륭한가? 성공적으로 예측할 수 있을까? 를 어떻게 평가할까요?


앞부분을 Training data set 뒷부분을 test set 이라고 합니다.

test set 은 숨겨놓고 training set으로 학습을 시킵니다.

학습이 끝난 뒤에 test set 으로 예측값과 실제값을 비교해서 평가를 하면 됩니다.

교과서와 실전문제(모의고사) 라고 생각하시면 됩니다.


일반적으로 Training set으로 학습을 시킨 후에 Validation set 으로 이 중에 어떤값이 좋을까 튜닝을 하는 것입니다.

완료되면 Testing은 마지막에 시험본다고 생각하시면 됩니다.




Online learning 이라는 학습법도 있습니다.

100만의 data가 있다면 여러개로 잘라서 따로 학습시킵니다.

추가로 10만개가 들어온다면 새로할 필요없이 그대로 학습 시킬 수 있습니다.





MINIST Dataset 에서 숫자를 컴퓨터가 인식시키는것입니다.

여기서도 Training set과 그에 대한 답인 labels 그리고 test set, test able 등으로 나누어져 있습니다.



Accuracy

실제 데이터 값과 모델이 예측한 값의 정확성을 평가합니다.

분야에 따라 다르지만 보통 이미지분야는 95%~를 넘고있습니다.