-
Open Domain Question AnsweringNLP/MRC 2021. 10. 13. 15:34
Retreiver-Reader 접근 방식
- Retriever: 데이터베이스에서 관련있는 문서를 검색(search) 함
- Reader: 검색된 문서에서 질문에 해당하는 답을 찾아냄
- Distant Supervision: 질문-답변만 있는 데이터셋에서 MRC 학습 데이터 만들기. supporting document 필요
- 위키피디아에서 관련성 높은 문서를 검색
- 너무 짧거나 긴 문서, 질문의 고유명사를 포함하지 않는 등 부적합한 문서 제거
- answer가 exact match로 들어있지 않은 문서 제거
- 남은 문서 중에 질문과 (사용 단어 기준) 연관성이 가장 높은 단락을 supporting evidence로 사용함
- Distant Supervision: 질문-답변만 있는 데이터셋에서 MRC 학습 데이터 만들기. supporting document 필요
Issues & Recent Approaches
- Different Granularities of text at indexing time
- 위키피디아에서 각 passage의 단위를 문서, 단락, 또는 문장으로 정의할지 정해야함
- granularity에 따라 몇개의 문서를 넘길지가 다를 수 밖에 없다
- Single-passage training vs Multi-passage training
- Multi-passage: retrieved passages 전체를 하나의 passage로 취급하고, 그 안에서 answer span하나를 찾도록 하는 것
- Importance of each passage
- Retriever 모델에서 추출된 top-k passage 들의 retrieval score를 리더 모델에 전달
'NLP > MRC' 카테고리의 다른 글
Closed book QA with T5 (0) 2021.10.18 Reducing Bias (0) 2021.10.18 Passage Retrieval - Scaling Up (0) 2021.10.13 Dense Embedding (0) 2021.10.13 Passage Retrieval (0) 2021.10.13