-
전처리
- 원시 데이터를 기계학습 모델이 학습하는데 적합하게 만드는 프로세스
- 학습에 사용될 데이터를 수집&가공하는 프로세스
자연어 처리 단계
- task 설계
- 필요 데이터 수집
- 통계학적 분석
- token의 개수 (아웃라이어 제거)
- 빈도 확인
- tagging
- tokenizing - 자연어를 어떤 단위로 살펴볼것인지
- 모델 설계
- 모델 구현
- 성능 평가
- 완료
Python String 관련 함수
한국어 토큰화
- 토큰의 기준은 다를 수 있음 (어절, 단어, 형태소, 음절, 자소 등)
- 어절 단위
- 문장을 띄어쓰기 단위로 분리
- spilt 함수 이용
- 형태소 단위
- 형태소 분석기 이용 (mecab, khaiii 등)
- 음절단위
- 자연어를 한 글자씩 분리
- 자소 단위
- 초성, 중성, 종성으로 분리
- hgtk 라이브러리 이용
- WordPiece 단위
- 한국어의 경우 wordpiece의 한계가 존재할 수 있다 → 형태소로 먼저 분리하고 wordpiece이용 가능
한국어 tokenizing에 따른 성능 비교
https://arxiv.org/abs/2010.02534
Entity Tag를 이용해 성능 향상 가능!
- 어떤 feature에 집중할지 생각
- ERNIE
'NLP > KLUE' 카테고리의 다른 글
GPT 모델 사용해보기 (0) 2021.10.12 Notes (0) 2021.09.28 인공지능 & 자연어 처리 타임라인 (0) 2021.09.27