데이터 제작
-
1. 자연어처리 데이터 기초데이터 제작 2021. 11. 8. 15:31
인공지능 기술의 발전 동일한 task를 해결하는 방법이 점점 발전했다. 언어모델 평가를 위한 종합적인 벤치마크의 등장 벤치마크의 구성 텍스트 데이터의 기본 단위 영어: 단어(띄어쓰기 단위) / 문장 또는 발화 한국어: 어절(띄어쓰기 단위) / 문장 또는 발화 → 영어는 띄어쓰기 단위가 하나의 단어지만, 한국어는 아니다. 한국어의 단어는 9품사로 분석됨 타입 & token 토큰: 언어를 다루는 가장 작은 기본 단위 (단어, 형태소, 서브워드) 타입: 토큰의 대표 형태 N-gram 연속된 N개의 단위. 입력된 단위는 글자, 형태소, 단어, 어절 등으로 사용자가 지정할 수 있음. 글자 수 bi-gram 흔들리는 꽃들 속에서 네 샴푸향이 느껴진거야: 흔+들, 들+리, 리+는, ... 형태소 bi-gram 흔들리..