ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 4. NMT를 위한 전처리
    NLP/1주차 2021. 9. 10. 10:53
    • 번역 데이터셋은 source, target으로 이루어져 있고(한->영 번역인 경우 source: 한국어 문장 target:영어 문장)
    • 하나의 문장을 여러 단어로 분리하고, 각 단어를 index로 바꿔주는 word2idx dict가 필요하다 => 동일한 단어는 동일한 인덱스로
    • 번역 모델에서 target 문장의 시작과 끝을 알리는 sos 토큰과 eos 토큰이 추가된다.

    Bucketing

    주어진 문장의 길이에 따라 데이터를 그룹화하여 패딩을 적용. 모델의 학습 시간을 단축할 수 있다. bucketing을 적용하지 않는 경우 batch별 pad token의 개수가 늘어나 학습시 더 많은 시간 소요.

    'NLP > 1주차' 카테고리의 다른 글

    3. Seq2Seq & Beam search  (0) 2021.09.08
    2. RNN & LSTM & GRU  (0) 2021.09.07
    1. NLP intro & BOW & Word Embedding  (0) 2021.09.06

    댓글

Designed by Tistory.