-
유명 대회 플랫폼
- 캐글
- 데이콘
- 카카오 아레나
Why Kaggle?
- 실력을 인정받기 위해
- 성장을 위해 - 공유 문화 덕분에 배우기 좋다
캐글 대회 종류
- Featured - 상업적 목적의 예측 대회
- Reaserch - 연구 목적의 대회
- Getting Started & Playground - 초심자를 위한 학습용 대회
- Analytics - 데이터 분석 목적의 대회
- Recruitment - 리크루팅 목적의 대회
대회 제출 방식
- General Competition (리소스 제약 x) - submission.csv 파일만 제출
- Code Competition (리소스 제약 o) - 캐글 노트북에서 코드를 실행시켜 제출을 해야함
대회를 위한 Pipeline
캐글 대회 우승을 위해 필요한 것
- 파이프라인의 효율적 반복
- GPU 장비 중요
- 본인만의 기본 코드를 두고 기본 코드의 일부를 수정하여 대회에 사용
- 참고 https://github.com/lime-robot/categories-prediction
- 점수 개선 아이디어 - Notebook, Discussion 참고
- 올바른 방향인지 검증 - 최종 순위 하락을 피하기 위해 + 리더보드 제출에 제한이 있다
- 좋은 모델은 train set의 score와 test set의 score의 차이가 적은 모델
검증 전략 세우기
캐글의 데이터 구성
validation set과 public set간의 점수 차이가 발생한다
- k-fold cross validation 사용
- stratified K-fold
기타 팁
- 앙상블
- stratified k-fold 앙상블
- 다양한 모델 앙상블
좋은 성능을 내려면 높은 점수의 싱글모델이 필요하다.
주피터에서 터미널을 열어서 사용할 수 있다 → 원격 학습 가능
'NLP > 3주차' 카테고리의 다른 글
자연어 처리를 위한 언어 모델의 학습과 평가 (0) 2021.09.24