NLP
-
QA with Phrase RetrievalNLP/MRC 2021. 10. 18. 14:46
Limitation of Retriever-Reader approach Error Propagation: 5-10개의 문서만 reader에게 전달됨 Query-Dependent encoding: query에 따라 정답이 되는 answer span에 대한 encoding이 달라짐 Phrase Search 기존의 방식은 question이 들어올 때마다 F라는 function을 다시 계산했어야한다. Decomposiability Gap: 기존 Question, Passage, Answer가 모두 함께 encoding 되던 것이 G와 H로 나누어지지 않을 수 있다. → question과 passage 사이 attention x Dense Vector vs Sparse Vector Dense vector: 통사적..
-
Closed book QA with T5NLP/MRC 2021. 10. 18. 12:28
사전학습으로 학습한 대량의 지식이 있다면, 이미 하나의 knowledge storage가 아닐까? 굳이 다른 곳에서 지식을 가져와야 하는가? 사전학습 시 전혀 본 적 없는 Natural Questions 데이터셋에도 어느정도 대답이 가능. Closed-book QA에 사용되는 방법은 Generation-based MRC와 유사 → 단, 입력에 지문(Context)가 없이 질문만 들어간다는 것이 차이점 → 사전학습된 언어 모델은 BART와 같은 seq-to-seq 형태의 Transformer 모델을 사용 → Text-to-Text format에서는 각 입력값(질문)과 출력값(답변)에 대한 설명을 맨 앞에 추가 Fine Tuning T5 - Fine-tuning: MRC 데이터셋 (TriviaQA, WebQ..
-
Reducing BiasNLP/MRC 2021. 10. 18. 12:03
Bias의 종류 Bias in learning 학습할 때 과적합을 막거나 사전 지식을 주입하기 위해 특정 형태의 함수를 선호하는 것 (inductive bias) A Biased World 현실 세계가 편향되어 있기 때문에 모델에 원치 않는 속성이 학습되는 것 (historical bias) 성별과 직업간 관계 등 표면적인 상관관계 때문에 원치 않는 속성이 학습되는 것 (co-occurrence bias) Bias in Data Generation 입력과 출력을 정의한 방식 때문에 생기는 편향 (specificaation bias) 데이터를 샘플링한 방식 때문에 생기는 편향 (sampling bias) 어노테이터의 특성 때문에 생기는 편향 (annotator bias) ODQA에서의 Bias Traini..
-
Open Domain Question AnsweringNLP/MRC 2021. 10. 13. 15:34
Retreiver-Reader 접근 방식 Retriever: 데이터베이스에서 관련있는 문서를 검색(search) 함 Reader: 검색된 문서에서 질문에 해당하는 답을 찾아냄 Distant Supervision: 질문-답변만 있는 데이터셋에서 MRC 학습 데이터 만들기. supporting document 필요 위키피디아에서 관련성 높은 문서를 검색 너무 짧거나 긴 문서, 질문의 고유명사를 포함하지 않는 등 부적합한 문서 제거 answer가 exact match로 들어있지 않은 문서 제거 남은 문서 중에 질문과 (사용 단어 기준) 연관성이 가장 높은 단락을 supporting evidence로 사용함 Issues & Recent Approaches Different Granularities of text..
-
Passage Retrieval - Scaling UpNLP/MRC 2021. 10. 13. 14:41
MIPS (Maximum Inner Product Search) 주어진 질문 벡터 q에 대해 passage 벡터 v들 중 가장 질문과 관련된 벡터를 찾아야함 관련성은 내적이 가장 큰 것 Challenges in MIPS 실제로 검색해야할 데이터는 매우 방대하다 → 모든 문서 임베딩을 보면서 일일히 보면서 검색할 수 없다 Tradeoffs of similiarity search search speed → 가지고 있는 문서 양이 많을수록 오래걸림 memory usage → RAM에 모두 올려둘 수 있다면 빠르지만, 많은 RAM용량 요구 accuracy → 속도를 증가시키려면 정확도 희생 Apporximating Similarity Search Compression: vector를 압축하여, 하나의 vecto..
-
Dense EmbeddingNLP/MRC 2021. 10. 13. 14:11
Dense Embedding Complementary to sparse representations by design 작은 차원의 고밀도 벡터 (length 50-1000) 각 차원이 특정 term에 대응 x 대부분의 요소가 non-zero Dense Encoder BERT와 같은 PLM이 주로 사용. 그 외 다양한 neural network 구조도 가능! CLS Token의 output 사용 학습목표: 연관된 question과 passage embedding 간의 거리를 좁히는 것 (inner product를 높이는 것) Challenge: 연관된 question / passage를 어떻게 찾을 것인가? → 기존 MRC 데이터셋을 사용 연관된 question과 passage 간의 dense embedd..
-
Passage RetrievalNLP/MRC 2021. 10. 13. 11:57
Passage Retrieval 질문에 맞는 문서를 찾는 것. Open-domain Question Answering 대규모의 문서 중에서 질문에 대한 답을 찾기 Passage Retrieval + MRC의 2 stage Passage Embedding Space Passage Embedding의 벡터 공간 벡터화된 passage를 이용하여 passage 간 유사도 등을 알고리즘으로 계산할 수 있다. Sparse Embedding BoW → n-gram Term Value를 결정하는 방법 특징 Dimension of embedding vector = number of terms (등장하는 단어가 많을 수록 커짐, n이 커질수록 증가) Term overlap을 잡아낼 때 유용 의미가 비슷하지만 다른 단어를..
-
Generation based MRCNLP/MRC 2021. 10. 13. 11:20
주어진 지문과 질의를 보고 답변을 생성 MRC 모델 구조 Seq-to-seq PLM 구조 (generation) vs. PLM + classifier 구조 (extraction) loss 계산을 위한 답의 형태 Prediction의 형태 Free form text 형태 (generation) vs. 지문 내 답의 위치 (extraction) 입력 표현 Special Token 학습 시에만 사용되며 단어 자체의 의미는 가지지 않는 특별한 토큰 Attention mask Token type ids BART에는 입력시퀀스에 대한 구분이 없어 token_type_ids가 존재하지 않음 따라서 입력에 token_type_ids가 안들어감 BART 기계독해, 기계번역, 요약, 대화 등 seq2seq 문제 pre-t..