전체 글
-
Intro to 경량화모델 최적화 2021. 11. 22. 15:38
1. Efficient architecture design; AutoML, Neural Architecture Search 사람의 직관을 상회하는 성능의 모듈들을 찾아낼 수 있다. 2. Network Pruning; 찾은 모델 줄이기 중요도가 낮은 파라미터를 제거 좋은 중요드를 정의, 찾는 것이 주요 연구 토픽 중 하나 (L2 norm이 크면, loss gradient 크면) structured/unstructured pruning으로 나뉨 Structured Pruning: 파라미터를 그룹 단위(channel, filter, layer 등)로 pruning 하는 기법으로 Dense computation에 최적화됨 Unstructured Pruning: 파라미터를 독립적으로 pruning 하는 기법으로,..
-
1. 자연어처리 데이터 기초데이터 제작 2021. 11. 8. 15:31
인공지능 기술의 발전 동일한 task를 해결하는 방법이 점점 발전했다. 언어모델 평가를 위한 종합적인 벤치마크의 등장 벤치마크의 구성 텍스트 데이터의 기본 단위 영어: 단어(띄어쓰기 단위) / 문장 또는 발화 한국어: 어절(띄어쓰기 단위) / 문장 또는 발화 → 영어는 띄어쓰기 단위가 하나의 단어지만, 한국어는 아니다. 한국어의 단어는 9품사로 분석됨 타입 & token 토큰: 언어를 다루는 가장 작은 기본 단위 (단어, 형태소, 서브워드) 타입: 토큰의 대표 형태 N-gram 연속된 N개의 단위. 입력된 단위는 글자, 형태소, 단어, 어절 등으로 사용자가 지정할 수 있음. 글자 수 bi-gram 흔들리는 꽃들 속에서 네 샴푸향이 느껴진거야: 흔+들, 들+리, 리+는, ... 형태소 bi-gram 흔들리..
-
QA with Phrase RetrievalNLP/MRC 2021. 10. 18. 14:46
Limitation of Retriever-Reader approach Error Propagation: 5-10개의 문서만 reader에게 전달됨 Query-Dependent encoding: query에 따라 정답이 되는 answer span에 대한 encoding이 달라짐 Phrase Search 기존의 방식은 question이 들어올 때마다 F라는 function을 다시 계산했어야한다. Decomposiability Gap: 기존 Question, Passage, Answer가 모두 함께 encoding 되던 것이 G와 H로 나누어지지 않을 수 있다. → question과 passage 사이 attention x Dense Vector vs Sparse Vector Dense vector: 통사적..
-
Closed book QA with T5NLP/MRC 2021. 10. 18. 12:28
사전학습으로 학습한 대량의 지식이 있다면, 이미 하나의 knowledge storage가 아닐까? 굳이 다른 곳에서 지식을 가져와야 하는가? 사전학습 시 전혀 본 적 없는 Natural Questions 데이터셋에도 어느정도 대답이 가능. Closed-book QA에 사용되는 방법은 Generation-based MRC와 유사 → 단, 입력에 지문(Context)가 없이 질문만 들어간다는 것이 차이점 → 사전학습된 언어 모델은 BART와 같은 seq-to-seq 형태의 Transformer 모델을 사용 → Text-to-Text format에서는 각 입력값(질문)과 출력값(답변)에 대한 설명을 맨 앞에 추가 Fine Tuning T5 - Fine-tuning: MRC 데이터셋 (TriviaQA, WebQ..
-
Reducing BiasNLP/MRC 2021. 10. 18. 12:03
Bias의 종류 Bias in learning 학습할 때 과적합을 막거나 사전 지식을 주입하기 위해 특정 형태의 함수를 선호하는 것 (inductive bias) A Biased World 현실 세계가 편향되어 있기 때문에 모델에 원치 않는 속성이 학습되는 것 (historical bias) 성별과 직업간 관계 등 표면적인 상관관계 때문에 원치 않는 속성이 학습되는 것 (co-occurrence bias) Bias in Data Generation 입력과 출력을 정의한 방식 때문에 생기는 편향 (specificaation bias) 데이터를 샘플링한 방식 때문에 생기는 편향 (sampling bias) 어노테이터의 특성 때문에 생기는 편향 (annotator bias) ODQA에서의 Bias Traini..
-
Open Domain Question AnsweringNLP/MRC 2021. 10. 13. 15:34
Retreiver-Reader 접근 방식 Retriever: 데이터베이스에서 관련있는 문서를 검색(search) 함 Reader: 검색된 문서에서 질문에 해당하는 답을 찾아냄 Distant Supervision: 질문-답변만 있는 데이터셋에서 MRC 학습 데이터 만들기. supporting document 필요 위키피디아에서 관련성 높은 문서를 검색 너무 짧거나 긴 문서, 질문의 고유명사를 포함하지 않는 등 부적합한 문서 제거 answer가 exact match로 들어있지 않은 문서 제거 남은 문서 중에 질문과 (사용 단어 기준) 연관성이 가장 높은 단락을 supporting evidence로 사용함 Issues & Recent Approaches Different Granularities of text..
-
Passage Retrieval - Scaling UpNLP/MRC 2021. 10. 13. 14:41
MIPS (Maximum Inner Product Search) 주어진 질문 벡터 q에 대해 passage 벡터 v들 중 가장 질문과 관련된 벡터를 찾아야함 관련성은 내적이 가장 큰 것 Challenges in MIPS 실제로 검색해야할 데이터는 매우 방대하다 → 모든 문서 임베딩을 보면서 일일히 보면서 검색할 수 없다 Tradeoffs of similiarity search search speed → 가지고 있는 문서 양이 많을수록 오래걸림 memory usage → RAM에 모두 올려둘 수 있다면 빠르지만, 많은 RAM용량 요구 accuracy → 속도를 증가시키려면 정확도 희생 Apporximating Similarity Search Compression: vector를 압축하여, 하나의 vecto..
-
Dense EmbeddingNLP/MRC 2021. 10. 13. 14:11
Dense Embedding Complementary to sparse representations by design 작은 차원의 고밀도 벡터 (length 50-1000) 각 차원이 특정 term에 대응 x 대부분의 요소가 non-zero Dense Encoder BERT와 같은 PLM이 주로 사용. 그 외 다양한 neural network 구조도 가능! CLS Token의 output 사용 학습목표: 연관된 question과 passage embedding 간의 거리를 좁히는 것 (inner product를 높이는 것) Challenge: 연관된 question / passage를 어떻게 찾을 것인가? → 기존 MRC 데이터셋을 사용 연관된 question과 passage 간의 dense embedd..