역인덱스 기반 상향식 군집화 기법을이용한 대규모 학술 핵심어 분석Analysis of Massive Scholarly Keywords using Inverted-Index based Bottom-up Clustering
- Other Titles
- Analysis of Massive Scholarly Keywords using Inverted-Index based Bottom-up Clustering
- Authors
- 오흥선; 정유철
- Issue Date
- 2018
- Publisher
- 한국산학기술학회
- Keywords
- Keyword clustering; Inverted-index; keyword analysis; bottom-up clustering; information retrieval
- Citation
- 한국산학기술학회논문지, v.19, no.11, pp.758 - 764
- Journal Title
- 한국산학기술학회논문지
- Volume
- 19
- Number
- 11
- Start Page
- 758
- End Page
- 764
- URI
- https://scholarworks.bwise.kr/kumoh/handle/2020.sw.kumoh/371
- DOI
- 10.5762/KAIS.2018.19.11.758
- ISSN
- 1975-4701
- Abstract
- 특허(patent), 학술 논문(scholarly paper)과 연구 보고서(research report)와 같은 디지털 문서(digital document)에는 주제(topic)를 요약하는 저자 키워드(author keyword)가 있다. 서로 다른 문서가 동일한 키워드를 공유하고 있다면 두 문서가 동일한 주제의 내용을 기술하고 있을 가능성이 매우 높다. 문서 군집화(document clustering)는 비슷한 주제를 가지는 문서들을 비지도 학습 방법(unsupervised learning)을 이용하여 같은 군집으로 그룹(group)화 하는 것이다. 문서 군집화는 다양한 분석에 이용되지만 대용량의 문서 데이터에 적용하기 위해서는 많은 계산량이 필요함으로 쉽지 않다. 이러한 경우, 문서의 내용을 이용하는 것보다 문서의 키워드를 이용하여 군집화하면 더욱 효율적으로 대용량의 데이터를 연결할 수 있다. 기존의 상향식 군집화 방법(bottom-up hierarchical clustering)은 대용량의 키워드 군집화(keyword clustering)를 수행하는데 있어서 많은 시간이 필요하다는 문제점이 있다. 본 논문에서는 정보검색(information retrieval)에서 널리 사용되는 역인덱스(inverted-index) 구조를 상향식 군집화에 적용한 효율적인 군집화 방법을 제안하고, 제안 방법을 대용량의 키워드 데이터에 적용하였으며, 그 결과를 분석하였다.
- Files in This Item
- There are no files associated with this item.
- Appears in
Collections - Department of Computer Engineering > 1. Journal Articles
![qrcode](https://api.qrserver.com/v1/create-qr-code/?size=55x55&data=https://scholarworks.bwise.kr/kumoh/handle/2020.sw.kumoh/371)
Items in ScholarWorks are protected by copyright, with all rights reserved, unless otherwise indicated.