ABOUT ME

-

Today: -

Yesterday: -

Total: -

꾸준히 꾸준히

4. NMT를 위한 전처리

NLP/1주차 2021. 9. 10. 10:53

번역 데이터셋은 source, target으로 이루어져 있고(한->영 번역인 경우 source: 한국어 문장 target:영어 문장)
하나의 문장을 여러 단어로 분리하고, 각 단어를 index로 바꿔주는 word2idx dict가 필요하다 => 동일한 단어는 동일한 인덱스로
번역 모델에서 target 문장의 시작과 끝을 알리는 sos 토큰과 eos 토큰이 추가된다.

Bucketing

주어진 문장의 길이에 따라 데이터를 그룹화하여 패딩을 적용. 모델의 학습 시간을 단축할 수 있다. bucketing을 적용하지 않는 경우 batch별 pad token의 개수가 늘어나 학습시 더 많은 시간 소요.

'NLP > 1주차' 카테고리의 다른 글

3. Seq2Seq & Beam search (0)	2021.09.08
2. RNN & LSTM & GRU (0)	2021.09.07
1. NLP intro & BOW & Word Embedding (0)	2021.09.06

관련글 관련글 더보기

댓글

인기포스트

ABOUT ME

LINK

ADMIN

티스토리툴바