-
2. Data FeedingAI/4주차 2021. 8. 26. 15:57
데이터 사이언스에서는 전처리 과정이 중요하다. 경진대회용 데이터는 품질이 양호하다.
전처리 방법은 도메인, 데이터 형식에 따라 다양한 case가 존재한다.
다양한 data augmentation 기법과, 이를 위한 albumentation 라이브러리가 있다.
https://github.com/albumentations-team/albumentations
과제 수행
데이터 라벨링을 완료하고, 이를 이용해서 pretrain된 모델로 테스트를 진행하였다. train accuracy의 경우 매우 높았지만, test 결과는 train에 비해 훨씬 좋지 않았다. 아마도 overfitting이 일어난 것 같다. early stopping, k-fold cross validation, augmentation 등을 사용해봐서 general 한 input에 대해 조금 더 좋은 결과가 나올 수 있도록 해야할 것 같다.
피어세션
https://fourth-sidecar-5a2.notion.site/week-4-7a86a9c9d6e94b9291b967d4df9917c6
다양한 모델들과 방식들을 시도해서 성능을 높이고 싶다.
Further Reading
https://github.com/utkuozbulak/pytorch-custom-dataset-examples
'AI > 4주차' 카테고리의 다른 글
5. Ensemble & Hyperparameter Optimization & Experiment (0) 2021.08.27 4. Training & Inference (0) 2021.08.27 3. Model (0) 2021.08.26 1. Competition & Seaborn (0) 2021.08.26