-
1. 자연어처리 데이터 기초데이터 제작 2021. 11. 8. 15:31
인공지능 기술의 발전
동일한 task를 해결하는 방법이 점점 발전했다.
언어모델 평가를 위한 종합적인 벤치마크의 등장
벤치마크의 구성
텍스트 데이터의 기본 단위
- 영어: 단어(띄어쓰기 단위) / 문장 또는 발화
- 한국어: 어절(띄어쓰기 단위) / 문장 또는 발화
→ 영어는 띄어쓰기 단위가 하나의 단어지만, 한국어는 아니다. 한국어의 단어는 9품사로 분석됨
타입 & token
- 토큰: 언어를 다루는 가장 작은 기본 단위 (단어, 형태소, 서브워드)
- 타입: 토큰의 대표 형태
N-gram
연속된 N개의 단위. 입력된 단위는 글자, 형태소, 단어, 어절 등으로 사용자가 지정할 수 있음.
- 글자 수 bi-gram
- 흔들리는 꽃들 속에서 네 샴푸향이 느껴진거야: 흔+들, 들+리, 리+는, ...
- 형태소 bi-gram
- 흔들리는 꽃들 속에서 네 샴푸향이 느껴진거야: 흔들리+는, 는+꽃, 꽃+들, ...
- 어절 bi-gram
- 흔들리는 꽃들 속에서 네 샴푸향이 느껴진거야: 흔들리는+꽃들, 꽃들+속에서, ...
표상
대표로 삼을 만큼 상징적인 것.
자연어를 컴퓨터가 이해할 수 있는 기법으로 표시한다는 차원에서 표상이 적합. 사전학습 모델(PLM), word2vec 등