ABOUT ME

-

Today: -

Yesterday: -

Total: -

꾸준히 꾸준히

1. 자연어처리 데이터 기초

데이터 제작 2021. 11. 8. 15:31
인공지능 기술의 발전

동일한 task를 해결하는 방법이 점점 발전했다.

언어모델 평가를 위한 종합적인 벤치마크의 등장

벤치마크의 구성

텍스트 데이터의 기본 단위

영어: 단어(띄어쓰기 단위) / 문장 또는 발화

한국어: 어절(띄어쓰기 단위) / 문장 또는 발화

→ 영어는 띄어쓰기 단위가 하나의 단어지만, 한국어는 아니다. 한국어의 단어는 9품사로 분석됨

타입 & token

토큰: 언어를 다루는 가장 작은 기본 단위 (단어, 형태소, 서브워드)

타입: 토큰의 대표 형태

N-gram

연속된 N개의 단위. 입력된 단위는 글자, 형태소, 단어, 어절 등으로 사용자가 지정할 수 있음.

글자 수 bi-gram

흔들리는 꽃들 속에서 네 샴푸향이 느껴진거야: 흔+들, 들+리, 리+는, ...

형태소 bi-gram

흔들리는 꽃들 속에서 네 샴푸향이 느껴진거야: 흔들리+는, 는+꽃, 꽃+들, ...

어절 bi-gram

흔들리는 꽃들 속에서 네 샴푸향이 느껴진거야: 흔들리는+꽃들, 꽃들+속에서, ...

표상

대표로 삼을 만큼 상징적인 것.

자연어를 컴퓨터가 이해할 수 있는 기법으로 표시한다는 차원에서 표상이 적합. 사전학습 모델(PLM), word2vec 등
댓글

인기포스트

ABOUT ME

LINK

ADMIN

티스토리툴바