-
Sequential Model
- Markov Model
- Latent Autoregressive model
- RNN
Vanishing / Exploding Gradient 문제 발생
=> LSTM, GRU
https://colah.github.io/posts/2015-08-Understanding-LSTMs/
Transformer - sequential 모델의 한계를 극복하기 위해 등장
- Encoder: 입력으로 들어온 벡터들을 self-attention을 이용하여 다른 벡터들로 만들어준다. 이때 입력으로 들어온 다른 벡터들의 정보도 사용된다.
- Self - Attention? 단어마다 Query + Key + Value vector 세개의 벡터를 만들어준다. 한 단어의 쿼리벡터와 모든 key vector들을 내적하여 score를 계산하고, 이는 단어간 얼마나 interaction이 필요한지를 나타낸다. 계산 된 score를 normalize 해주고, 이를 value vector와 weighted sum 계산을 하여 나오는 결과가 encoding 된 결과이다.
※ Q, K 는 항상 차원이 같아야 한다.
- MHA
※ 실제로는 입력을 나눠서 MHA에 input
- Decoder
https://jalammar.github.io/illustrated-transformer/
'AI > 2주차' 카테고리의 다른 글
6. Generative Models (2) 2021.08.13 4. Convolution (0) 2021.08.11 3. Optimization (0) 2021.08.10 2. 딥러닝 Basic & MLP (0) 2021.08.09 1. 데이터 시각화 (0) 2021.08.09