NLP/3주차

캐글 팁

jnnwnn 2021. 9. 23. 14:00

유명 대회 플랫폼

  • 캐글
  • 데이콘
  • 카카오 아레나

Why Kaggle?

  • 실력을 인정받기 위해
  • 성장을 위해 - 공유 문화 덕분에 배우기 좋다

캐글 대회 종류

  • Featured - 상업적 목적의 예측 대회
  • Reaserch - 연구 목적의 대회 
  • Getting Started & Playground - 초심자를 위한 학습용 대회
  • Analytics - 데이터 분석 목적의 대회
  • Recruitment - 리크루팅 목적의 대회

대회 제출 방식

  • General Competition (리소스 제약 x) - submission.csv 파일만 제출
  • Code Competition (리소스 제약 o) - 캐글 노트북에서 코드를 실행시켜 제출을 해야함

대회를 위한 Pipeline

 

캐글 대회 우승을 위해 필요한 것

  1. 파이프라인의 효율적 반복 
  2. 점수 개선 아이디어 - Notebook, Discussion 참고
  3. 올바른 방향인지 검증 - 최종 순위 하락을 피하기 위해 + 리더보드 제출에 제한이 있다
    • 좋은 모델은 train set의 score와 test set의 score의 차이가 적은 모델
 

GitHub - lime-robot/categories-prediction: 트랜스포머 기반의 상품 카테고리 분류기

트랜스포머 기반의 상품 카테고리 분류기. Contribute to lime-robot/categories-prediction development by creating an account on GitHub.

github.com

 

검증 전략 세우기

캐글의 데이터 구성

validation set과 public set간의 점수 차이가 발생한다 

  • k-fold cross validation 사용
  • stratified K-fold

기타 팁

  • 앙상블
    • stratified k-fold 앙상블
    • 다양한 모델 앙상블

좋은 성능을 내려면 높은 점수의 싱글모델이 필요하다.  

주피터에서 터미널을 열어서 사용할 수 있다 → 원격 학습 가능