ABOUT ME

-

Today: -

Yesterday: -

Total: -

꾸준히 꾸준히

NLP/KLUE 2021. 9. 28. 15:36

ko-electra가 공개된 Huggingface 모델 중에 성능이 가장 좋다.

vocab을 정의할 때 3만개 정도면 적절하다.

BERT

학습시 개인정보를 잘 지우는 것이 중요
MASK로 개인정보를 예측하게 할 수 있음 (e.g. Obama was born in [MASK] → Honolulu)
short seq prob으로 seq 길이를 랜덤하게 학습

kor_ner

한국해양대학교 자연어 처리 연구실에서 공개한 한국어 NER 데이터셋
NER 데이터셋은 POS tagging도 같이
BIO 태그로 구성 (begin, inner, out → entity의 종류와 위치를 알려주는 태그 e.g 스포츠 (B-ORG), 동아(I-ORG))

형태소 단위의 토큰을 음절단위의 토큰으로 분해하는 것이 좋음

'NLP > KLUE' 카테고리의 다른 글

GPT 모델 사용해보기 (0)	2021.10.12
자연어 전처리 (0)	2021.09.28
인공지능 & 자연어 처리 타임라인 (0)	2021.09.27

관련글 관련글 더보기

댓글

인기포스트

ABOUT ME

LINK

ADMIN

티스토리툴바