NLP/2주차
-
Hugging Face LibraryNLP/2주차 2021. 9. 17. 18:06
설치 !pip install transformers Pipeline API 사용 1) Pipeline 이란? 가장 기본적인 object이며, task에 맞는 가장 적합한 pretrained model을 선택하여 classifier object가 생성될 때 다운되고 캐시된다. The pipelines are a great and easy way to use models for inference. These pipelines are objects that abstract most of the complex code from the library, offering a simple API dedicated to several tasks, including Named Entity Recognition, Maske..
-
NLP 모델 정리NLP/2주차 2021. 9. 16. 16:20
GPT-2 큰 트랜스포머 LM Trained on 40GB text (큰 데이터) - Reddit의 데이터 이용, 위키피디아는 이용 x Downstream task를 zero-shot setting에서 가능하게 함 QA - CoQA dataset에서 55 F1 score Summarization - CNN, Daily Mail dataset 번역 BPE 사용 GPT-1 과 다른점 Layer Norm을 각각의 하위 Block의 Input으로 이동 마지막 self-attention 이후에 Normalization Layer 추가 모델 깊이에 따른 Residual Path의 누적에 관한 부분의 초기화 방법 변경 ($ 1 / \sqrt{n} $, n은 number of residual layer) Context..
-
Pre-TokenizationNLP/2주차 2021. 9. 15. 15:53
Word / Character / Subword Word Out-Of-Vocabulary(OOV)가 성능을 많이 저하시킴 → Character Based 등장 Character Long sequence Low performance → 하나의 글자가 표현해야하는 representation이 너무 많음 Subword → subword 방식을 사용하는 것이 좋다 BPE(Byte Pair Encoding) - statistical method WordPiece - merge a pair that maximizes the likelihood of the training data once added to the vocab Unigram - starts from pretokenized words and the mos..
-
GPT & BERTNLP/2주차 2021. 9. 15. 12:05
최근 트렌드 Transformer 모델과 self-attention block이 sequence encoder decoder로 주로 사용됨 깊게 쌓은 transformer를 이용하여 NLP task를 많이 발전시킴 nlp뿐만 아니라 추천 시스템, 신약 개발, CV에도 사용되는 추세 다만, 여전히 NLG를 위해서는 토큰 부터 시작해서 순차적으로 단어를 하나씩 생성해야함 (greedy decoding) GPT-1 Special token을 이용해 transfer learning시 효율적으로 학습 성능이 아주 좋은 디코더 적은 양의 데이터로도 높은 분류 성능 Task specific한 구조가 필요하지 않다 Classification: extract token을 linear transformation 하여 감정..