모든 실험은 데이터의 다른 부분에 대해 수행되어야 한다. 훈련 데이터 세트 - 모델 훈련에 이 세트를 사용. 데이터의 70-80%가 표준. 검증/개발 데이터 세트 - 모델 하이퍼파라미터 튜닝 및 실험 평가를 위해 이 세트를 사용. 데이터의 10-15%가 표준. 테스트 데이터 세트 - 모델 테스트 및 비교를 위해 이 세트를 사용. 데이터의 10-15%가 표준. 이 양은 문제와 가지고 있는 데이터에 따라 약간 변동할 수 있다. Underfitting - 훈련 데이터의 성능이 좋지 않다는 것은(Poor performance) 모델이 제대로 배우지 못하고 적합하지 않다는 것을 의미한다. 다른 모델을 시도하거나, 하이퍼파라미터를 통해 기존 모델을 개선하거나, 더 많은 데이터를 수집해서 개선한다. Overfitti..
Structured - 테이블 형태로 된 데이터 ( csv ) Unstructured - Image, Natural Language Text, Audio Static - csv, 데이터가 많을수록 좋다 Streaming - 계속 변하는 데이터 Static 데이터는 Jupyter 로 csv 파일을 불러오고 pandas 로 데이터 분석하고 matplotlib 로 시각화하고 scikit learning 으로 모델화한다.