분류 전체보기
-
TextRank를 이용한 추출적 요약 - 2NLP 2021. 1. 13. 17:31
2021/01/12 - [NLP] - TextRank를 이용한 추출적 요약 - 1 TextRank를 이용한 추출적 요약 - 1 TextRank는 PageRank 기반의 알고리즘으로, 키워드 추출과 추출적 요약에 주로 사용된다. 따라서 TextRank를 이해하기 위해서는 PageRank에 대한 이해가 선행되어야 한다. PageRank란? 구글에서 개발한 알고 jnnwnn.tistory.com PageRank를 텍스트에 적용시켜 추출적 요약을 하기 위해 먼저 문장 그래프를 생성해야 한다. 문장이 node가 되며, edge weight은 문장간의 유사도이다. 문장의 유사도는 코사인 유사도를 이용하여 계산할 수 있다. 코사인 유사도는 문서의 크기에 관계없이 문서가 얼마나 유사한 지를 나타내주는 척도이다. 위와 ..
-
TextRank를 이용한 추출적 요약 - 1NLP 2021. 1. 12. 16:07
TextRank는 PageRank 기반의 알고리즘으로, 키워드 추출과 추출적 요약에 주로 사용된다. 따라서 TextRank를 이해하기 위해서는 PageRank에 대한 이해가 선행되어야 한다. PageRank란? 구글에서 개발한 알고리즘으로 초기 구글의 검색 엔진의 랭킹 알고리즘으로 이용되었다. PageRank에서는 모든 웹 페이지들을 webpage 가 node인 큰 directed graph 형태로 본다. 만약 A라는 페이지에 B라는 페이지로 향하는 링크가 있다면, A에서 B로 향하는 directed edge가 있다고 볼 수 있을 것이다. PageRank 알고리즘에서는 페이지들의 연결 상태를 나타내는 그래프를 형성한 뒤, 각 webpage에 대한 weight를 다음과 같은 공식을 통해 계산한다. 아래와 ..