-
ko-electra가 공개된 Huggingface 모델 중에 성능이 가장 좋다.
vocab을 정의할 때 3만개 정도면 적절하다.
BERT
- 학습시 개인정보를 잘 지우는 것이 중요
- MASK로 개인정보를 예측하게 할 수 있음 (e.g. Obama was born in [MASK] → Honolulu)
- short seq prob으로 seq 길이를 랜덤하게 학습
kor_ner
- 한국해양대학교 자연어 처리 연구실에서 공개한 한국어 NER 데이터셋
- NER 데이터셋은 POS tagging도 같이
- BIO 태그로 구성 (begin, inner, out → entity의 종류와 위치를 알려주는 태그 e.g 스포츠 (B-ORG), 동아(I-ORG))
형태소 단위의 토큰을 음절단위의 토큰으로 분해하는 것이 좋음
'NLP > KLUE' 카테고리의 다른 글
GPT 모델 사용해보기 (0) 2021.10.12 자연어 전처리 (0) 2021.09.28 인공지능 & 자연어 처리 타임라인 (0) 2021.09.27