ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • Open Domain Question Answering
    NLP/MRC 2021. 10. 13. 15:34

    Retreiver-Reader 접근 방식

    • Retriever: 데이터베이스에서 관련있는 문서를 검색(search) 함
    • Reader: 검색된 문서에서 질문에 해당하는 답을 찾아냄
      • Distant Supervision: 질문-답변만 있는 데이터셋에서 MRC 학습 데이터 만들기. supporting document 필요
        1. 위키피디아에서 관련성 높은 문서를 검색
        2. 너무 짧거나 긴 문서, 질문의 고유명사를 포함하지 않는 등 부적합한 문서 제거
        3. answer가 exact match로 들어있지 않은 문서 제거
        4. 남은 문서 중에 질문과 (사용 단어 기준) 연관성이 가장 높은 단락을 supporting evidence로 사용함

     

    Issues & Recent Approaches

    • Different Granularities of text at indexing time
      • 위키피디아에서 각 passage의 단위를 문서, 단락, 또는 문장으로 정의할지 정해야함 
      • granularity에 따라 몇개의 문서를 넘길지가 다를 수 밖에 없다 
    • Single-passage training vs Multi-passage training
      • Multi-passage: retrieved passages 전체를 하나의 passage로 취급하고, 그 안에서 answer span하나를 찾도록 하는 것
    • Importance of each passage
      • Retriever 모델에서 추출된 top-k passage 들의 retrieval score를 리더 모델에 전달

    'NLP > MRC' 카테고리의 다른 글

    Closed book QA with T5  (0) 2021.10.18
    Reducing Bias  (0) 2021.10.18
    Passage Retrieval - Scaling Up  (0) 2021.10.13
    Dense Embedding  (0) 2021.10.13
    Passage Retrieval  (0) 2021.10.13

    댓글

Designed by Tistory.