-
4. NMT를 위한 전처리NLP/1주차 2021. 9. 10. 10:53
- 번역 데이터셋은 source, target으로 이루어져 있고(한->영 번역인 경우 source: 한국어 문장 target:영어 문장)
- 하나의 문장을 여러 단어로 분리하고, 각 단어를 index로 바꿔주는 word2idx dict가 필요하다 => 동일한 단어는 동일한 인덱스로
- 번역 모델에서 target 문장의 시작과 끝을 알리는 sos 토큰과 eos 토큰이 추가된다.
Bucketing
주어진 문장의 길이에 따라 데이터를 그룹화하여 패딩을 적용. 모델의 학습 시간을 단축할 수 있다. bucketing을 적용하지 않는 경우 batch별 pad token의 개수가 늘어나 학습시 더 많은 시간 소요.
'NLP > 1주차' 카테고리의 다른 글
3. Seq2Seq & Beam search (0) 2021.09.08 2. RNN & LSTM & GRU (0) 2021.09.07 1. NLP intro & BOW & Word Embedding (0) 2021.09.06