NLP/MRC
-
Extraction-Based MRCNLP/MRC 2021. 10. 12. 16:57
Pre-processing Tokenization → OOV 문제를 해결하기 위해 BPE를 주로 사용 Attention Mask → 입력 시퀀스 중에서 attention 연산할 때 무시할 토큰 표시 Token Type IDs → 입력이 2개 이상의 시퀀스일때 각각에 ID를 부여하여 모델이 구분해서 해석하도록 유도 Post-processing 불가능한 답 제거하기 End position이 start 보다 앞에 있는 경우 예측한 위치가 context를 벗어난 경우 미리 설정한 max_answer_length 보다 길이가 더 긴 경우 최적의 답안 찾기 start/end position prediction에서 score 가 가장 높은 N개를 각각 찾는다 불가능한 start/end 조합을 제가 가능한 조합들을 s..
-
Introduction to MRCNLP/MRC 2021. 10. 12. 13:04
MRC란? 주어진 지문 (Context)을 이해하고, 주어진 질의 (Query/Question)의 답변을 추론하는 문제 MRC의 종류 Extractive Answer Datasets: 질의에 대한 답이 항상 주어진 지문의 segment/span으로 존재 Descriptive/Narrative Answer Datasets: 답이 지문 내에서 추출한 span이 아니라, 질의를 보고 생성된 sentence의 형태 Multiple-choice Datasets: 질의에 대한 답을 여러개의 answer candidate 중 하나로 고르는 형태 Challenges in MRC Paraphrase 된 문장을 이해해야함 Coreference resolution → 대명사가 무엇을 의미하는지 알아야함 'No Answer'..