ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • Notes
    NLP/KLUE 2021. 9. 28. 15:36

    ko-electra가 공개된 Huggingface 모델 중에 성능이 가장 좋다.

    vocab을 정의할 때 3만개 정도면 적절하다.

     

    BERT 

    • 학습시 개인정보를 잘 지우는 것이 중요
    • MASK로 개인정보를 예측하게 할 수 있음 (e.g. Obama was born in [MASK] → Honolulu)
    • short seq prob으로 seq 길이를 랜덤하게 학습

     

    kor_ner

    • 한국해양대학교 자연어 처리 연구실에서 공개한 한국어 NER 데이터셋
    • NER 데이터셋은 POS tagging도 같이
    • BIO 태그로 구성 (begin, inner, out → entity의 종류와 위치를 알려주는 태그 e.g 스포츠 (B-ORG), 동아(I-ORG))

    형태소 단위의 토큰을 음절단위의 토큰으로 분해하는 것이 좋음 

    'NLP > KLUE' 카테고리의 다른 글

    GPT 모델 사용해보기  (0) 2021.10.12
    자연어 전처리  (0) 2021.09.28
    인공지능 & 자연어 처리 타임라인  (0) 2021.09.27

    댓글

Designed by Tistory.