WWW 환경에서 중복문서의 검출 기법에 대한 고찰A Survey on Detecting Duplicate Documents in World Wide Web Environment
- Other Titles
- A Survey on Detecting Duplicate Documents in World Wide Web Environment
- Authors
- 이순행; 이상철; 김상욱; 김학진
- Issue Date
- Apr-2009
- Publisher
- 한국정보과학회
- Keywords
- Duplicate document detection; Database; Data mining; 중복문서검출; 데이터베이스; 데이터마이닝
- Citation
- 데이타베이스연구, v.25, no.1, pp 1 - 17
- Pages
- 17
- Indexed
- KCICANDI
- Journal Title
- 데이타베이스연구
- Volume
- 25
- Number
- 1
- Start Page
- 1
- End Page
- 17
- URI
- https://scholarworks.bwise.kr/hanyang/handle/2021.sw.hanyang/176944
- ISSN
- 1598-9798
- Abstract
- 최근 들어 웹 문서가 증가함에 따라 중복문서 검출의 중요성이 점차 커지고 있다. 본 논문에서는 WWW 환경에서 중복문서를 검출하는 기법에 관련된 기존의 연구 현황에 대하여 소개한다. 먼저, 두 개의 문서가 주어졌을 때 중복인지의 여부를 판정하는 기법들을 소개한다. 두 번째로는 대용량의 문서 데이터베이스에서 중복문서들을 효율적으로 검출하는 기법들에 대해 논한다. 마지막으로 향후 연구 방향에 대하여 제시한다.
Recently, as the number of documents in the WWW(World Wide Web) increases, it becomes crucial to treat duplicate documents. In this article, we survey previous research results related to handling duplicate documents in WWW environment. First, we introduce a variety of methods for determining whether given two documents are duplicated. Second, we address methods for detecting duplicate documents efficiently from a large document database. Finally, we suggest further research directions.
- Files in This Item
-
Go to Link
- Appears in
Collections - 서울 공과대학 > 서울 컴퓨터소프트웨어학부 > 1. Journal Articles

Items in ScholarWorks are protected by copyright, with all rights reserved, unless otherwise indicated.