블로그 서비스 시스템을 위한 효과적인 중복문서의 검출 기법An Efficient Method for Detecting Duplicated Documents in a Blog Service System
- Other Titles
- An Efficient Method for Detecting Duplicated Documents in a Blog Service System
- Authors
- 이상철; 이순행; 김상욱
- Issue Date
- Feb-2010
- Publisher
- 한국정보과학회
- Keywords
- 중복문서 검출; 블로그; 검색 엔진; Duplicate document detection; Blog; Search engine; Duplicate document detection; Blog; Search engine
- Citation
- 정보과학회논문지 : 데이타베이스, v.37, no.1, pp.50 - 55
- Indexed
- KCI
- Journal Title
- 정보과학회논문지 : 데이타베이스
- Volume
- 37
- Number
- 1
- Start Page
- 50
- End Page
- 55
- URI
- https://scholarworks.bwise.kr/hanyang/handle/2021.sw.hanyang/175428
- ISSN
- 1229-7739
- Abstract
- 블로그 서비스 시스템에 존재하는 중복문서는 블로그 검색의 서비스 질과 성능을 저하시키는 요인 중 하나이다. 기존의 웹 페이지 환경에서와는 달리, 블로그 서비스 시스템에서는 각 문서의 생성이 매번 보고되기 때문에 문서 생성 시점에 중복 판정이 가능하다. 본 논문에서는 이 점에 착안하여 문서를 저장하는 시점에 해당 문서의 중복 여부를 판정하는 새로운 중복문서 검출 기법을 제안한다. 제안된 기법을 통하여 검출된 중복문서는 검색 엔진을 위한 인덱싱에 반영시키지 않음으로써 중복문서가 검색 결과에 반영되는 문제를 원천적으로 방지할 수 있다. 또한, 효과적인 중복문서 검출을 위하여 3가지 인덱싱 기법을 제안하며, 실제 블로그 데이터를 이용하여 각 인덱싱 기법 중 가장 효율적인 기법을 보인다.
- Files in This Item
-
Go to Link
- Appears in
Collections - 서울 공과대학 > 서울 컴퓨터소프트웨어학부 > 1. Journal Articles
Items in ScholarWorks are protected by copyright, with all rights reserved, unless otherwise indicated.