주변정보 분할을 이용한 주제 중심 웹 문서 수집기A Focused Crawler by Segmentation of Context Information
- Other Titles
- A Focused Crawler by Segmentation of Context Information
- Authors
- 조창희; 이남용; 강진범; 양재영; 최중민
- Issue Date
- Oct-2005
- Publisher
- 한국정보처리학회
- Keywords
- Focused Crawler; Document Classification; Feature Extraction; Document Segmentation; 주제 중심 웹 문서 수집기; 문서분류; 특징정보 추출; 문서분할
- Citation
- 정보처리학회논문지. 소프트웨어 및 데이터 공학, v.12, no.6, pp.697 - 702
- Journal Title
- 정보처리학회논문지. 소프트웨어 및 데이터 공학
- Volume
- 12
- Number
- 6
- Start Page
- 697
- End Page
- 702
- URI
- http://scholarworks.bwise.kr/ssu/handle/2018.sw.ssu/19785
- ISSN
- 2287-5905
- Abstract
- 주제 중심 웹 문서 수집기는 검색엔진에서 최신의 웹 문서 색인을 유지하는 대안방안으로 부상하고 있다. 그러나 주제 중심 웹 문서 수집기는 비 관심문서에서 연결된 관심문서들을 수집할 수 없는 문제점을 가지고 있다. 이러한 문제점은 문서의 구조적 특징을 고려하지 않아서 발생한다. 특히 문서분석 방법인 문서의 발생 횟수 및 역문헌 발생빈도는 이러한 문제를 야기하는 주요 원인이 된다. 주제 중심 웹 문서 수집기의 성능을 향상하기 위해서 본 논문에서는 국소정보기반의 문서 분할법을 제안한다. 본 논문에서는 문서를 하이퍼링크 주변의 문맥을 고려한 특징 정보들을 사용하여 여러 조각의 문서로 나눈다. 본 논문에서 제안하는 주제 중심 웹 문서 수집기는 나누어진 문서들을 이용하여 하이퍼링크가 관심문서를 가리키는 것인지를 판단하여 문서를 수집할 것인지를 판단한다.
- Files in This Item
-
Go to Link
- Appears in
Collections - College of Information Technology > School of Software > 1. Journal Articles
![qrcode](https://api.qrserver.com/v1/create-qr-code/?size=55x55&data=https://scholarworks.bwise.kr/ssu/handle/2018.sw.ssu/19785)
Items in ScholarWorks are protected by copyright, with all rights reserved, unless otherwise indicated.