-
1. Competition & SeabornAI/4주차 2021. 8. 26. 15:39
1. Overview 숙지하기
- Problem Definition: 내가 풀어야 할 문제, input output 파악 등
2. Data Description
- 데이터의 형태와 의미를 파악하기
EDA (Exploratory Data Analysis)
Seaborn은 Matplotlib 기반 통계 시각화 라이브러리.
- Matplotlib으로 커스텀 가능
- 깔끔하고 쉬운 문법
pip install seaborn==0.11 import seaborn as sns
5가지 기본적인 API 제공
- Categorical
- Distribution
- Relational
- Regression
- Matrix
Categorical
- countplot이 대표적이며 범주를 이산적으로 카운팅하여 막대그래프를 그림
- x, y, data, hue, palette, color, saturate, ax
과제 수행
Pstage가 처음으로 시작된 날이었다. 서버 할당을 늦게 받아서 데이터를 다운하고 분석하고, 환경 설정을 하는데 시간을 대부분 투자했다. 대회는 이미지 분류를 하는 대회였고, input의 경우 사진, output의 경우 18개의 클래스를 구분해야했다. 데이터를 분석한 결과 class별 imbalance가 존재했고, labeling이 잘못된 데이터도 존재했다. Imbalance를 해결하는 것이 중요한 문제가 될 것 같았다. 또한 input 데이터에 정답 클래스가 적혀있지 않아서 데이터를 보고 직접 이를 생성해줘야했는데 이를 어떻게 할 지 고민하였다.
피어세션
https://fourth-sidecar-5a2.notion.site/week-4-7a86a9c9d6e94b9291b967d4df9917c6
앞으로의 대회가 많이 기대되고 열심히 해야겠다는 생각을 했다.
'AI > 4주차' 카테고리의 다른 글
5. Ensemble & Hyperparameter Optimization & Experiment (0) 2021.08.27 4. Training & Inference (0) 2021.08.27 3. Model (0) 2021.08.26 2. Data Feeding (0) 2021.08.26