ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 1. 자연어처리 데이터 기초
    데이터 제작 2021. 11. 8. 15:31

    인공지능 기술의 발전

    동일한 task를 해결하는 방법이 점점 발전했다. 

    언어모델 평가를 위한 종합적인 벤치마크의 등장

     

    벤치마크의 구성

     

    텍스트 데이터의 기본 단위

    • 영어: 단어(띄어쓰기 단위) / 문장 또는 발화
    • 한국어: 어절(띄어쓰기 단위) / 문장 또는 발화

    → 영어는 띄어쓰기 단위가 하나의 단어지만, 한국어는 아니다. 한국어의 단어는 9품사로 분석됨

     

    타입 & token

    • 토큰: 언어를 다루는 가장 작은 기본 단위 (단어, 형태소, 서브워드)
    • 타입: 토큰의 대표 형태

    N-gram

    연속된 N개의 단위. 입력된 단위는 글자, 형태소, 단어, 어절 등으로 사용자가 지정할 수 있음.

     

    • 글자 수 bi-gram
      • 흔들리는 꽃들 속에서 네 샴푸향이 느껴진거야: 흔+들, 들+리, 리+는, ...
    • 형태소 bi-gram
      • 흔들리는 꽃들 속에서 네 샴푸향이 느껴진거야: 흔들리+는, 는+꽃, 꽃+들, ...
    • 어절 bi-gram
      • 흔들리는 꽃들 속에서 네 샴푸향이 느껴진거야: 흔들리는+꽃들, 꽃들+속에서, ...

    표상

    대표로 삼을 만큼 상징적인 것.

     

    자연어를 컴퓨터가 이해할 수 있는 기법으로 표시한다는 차원에서 표상이 적합. 사전학습 모델(PLM), word2vec 등

     

    댓글

Designed by Tistory.