-
Reducing BiasNLP/MRC 2021. 10. 18. 12:03
Bias의 종류
- Bias in learning
- 학습할 때 과적합을 막거나 사전 지식을 주입하기 위해 특정 형태의 함수를 선호하는 것 (inductive bias)
- A Biased World
- 현실 세계가 편향되어 있기 때문에 모델에 원치 않는 속성이 학습되는 것 (historical bias)
- 성별과 직업간 관계 등 표면적인 상관관계 때문에 원치 않는 속성이 학습되는 것 (co-occurrence bias)
- Bias in Data Generation
- 입력과 출력을 정의한 방식 때문에 생기는 편향 (specificaation bias)
- 데이터를 샘플링한 방식 때문에 생기는 편향 (sampling bias)
- 어노테이터의 특성 때문에 생기는 편향 (annotator bias)
ODQA에서의 Bias
- Training Bias in reader model
- Reader 모델이 한정된 데이터셋에서만 학습이 된다면, Reader는 항상 정답이 문서 내에 포함된 데이터쌍만 (positive)을 보게 됨 → 데이터 내에 없는 문서를 준다면 독해 능력이 매우 떨어질 것
Mitigate training bias
- Train negative examples
- 훈련할 때 잘못된 예시를 보여줘야 retriever이 negative 한 내용들을 먼 곳에 배치 → 완전히 다른 Negative와 비슷한 negative에 대한 차이 고려 필요
- Add no answer bias
- 입력 시퀀스의 길이가 N일시, 시퀀스의 길이 외 1개의 토큰이 더 있다고 생각하기
- 훈련 모델의 마지막 레이에 weight에 훈련 가능한 bias를 추가하여, answer의 위치가 해당 bias에 있다고 예측되면 no answer 로 취급
- 입력 시퀀스의 길이가 N일시, 시퀀스의 길이 외 1개의 토큰이 더 있다고 생각하기
Annotation Bias from Datasets
- Annotation 단계에서 ODQA에 적합하지 않은 데이터가 만들어질 수 있음
- ODQA에 applicable 하지 않은 질문들이 존재 → ex) what did he do for 2$ a day (ODQA에서 he는 누군지 알 수 없다)
ODQA 세팅과 유사한 데이터 수집을 해서 해결
→ Natural Questions: 실제 유저의 question들을 모아 dataset을 구성
https://arxiv.org/abs/1906.00300
'NLP > MRC' 카테고리의 다른 글
QA with Phrase Retrieval (0) 2021.10.18 Closed book QA with T5 (0) 2021.10.18 Open Domain Question Answering (0) 2021.10.13 Passage Retrieval - Scaling Up (0) 2021.10.13 Dense Embedding (0) 2021.10.13 - Bias in learning