NLP/1주차
-
4. NMT를 위한 전처리NLP/1주차 2021. 9. 10. 10:53
번역 데이터셋은 source, target으로 이루어져 있고(한->영 번역인 경우 source: 한국어 문장 target:영어 문장) 하나의 문장을 여러 단어로 분리하고, 각 단어를 index로 바꿔주는 word2idx dict가 필요하다 => 동일한 단어는 동일한 인덱스로 번역 모델에서 target 문장의 시작과 끝을 알리는 sos 토큰과 eos 토큰이 추가된다. Bucketing 주어진 문장의 길이에 따라 데이터를 그룹화하여 패딩을 적용. 모델의 학습 시간을 단축할 수 있다. bucketing을 적용하지 않는 경우 batch별 pad token의 개수가 늘어나 학습시 더 많은 시간 소요.
-
3. Seq2Seq & Beam searchNLP/1주차 2021. 9. 8. 15:15
sequence of word를 input으로 받아서 sequence of words를 출력한다. 인코더 디코더로 구성 고정된 길이로 인코딩해서 정보의 유실이 일어나는 문제가 존재 attention으로 해결 (최종 hidden state만 쓰는 것이 아닌, 중간의 hidden state를 모두 사용) Teacher Forcing 방식: 올바른 정보를 매 time step마다 넣어준다. 학습이 조금 더 빠르다 attention solves bottleneck problem, vanishing gradient problem, and provides interpretability Greedy Decoding: 현재 timestep에서 가장 좋아보이는 단어 선택 -> 중간에 잘못된 단어가 생성되면 되돌릴 수 없..
-
2. RNN & LSTM & GRUNLP/1주차 2021. 9. 7. 11:44
sequential data와 이전 hidden state를 입력으로 현재 time step의 출력을 내는 구조. $ h_(t-1) $ : old hidden state vector $ x_t $ : input vector at some time step $ h_t $ : new hidden state vector $ f_W $ : RNN function with params W $ y_t $ : output vector at time step t Types of RNNs one-to-one one-to-many: image captioning many-to-one: sentiment classification many-to-many: machine translation, video classificat..
-
1. NLP intro & BOW & Word EmbeddingNLP/1주차 2021. 9. 6. 14:42
NLP: Natural Language Understanding + Natural Language Generating (major conferences: ACL, EMNLP, NAACL) NLP tasks Low-Level Tokenization, Parsing Word and Phrase Level NER, POS tagging, noun-phrase chunking, dependency parsing, coreference resolution Sentence Level Sentiment analysis, Machine Translation Multi-sentence and paragraph level Entailment prediction: 두 문장간의 논리적 내포를 예측 QA, dialog syst..