텍스트 블록 주변의 문맥을 이용한 HTML 문서 본문 추출Contents Extraction from HTML Documents using Text Block Context
- Other Titles
- Contents Extraction from HTML Documents using Text Block Context
- Authors
- 송원문; 김우승; 김명원
- Issue Date
- Mar-2013
- Publisher
- 한국정보과학회
- Keywords
- 웹 페이지 분석; 본문 추출; 태그 분포; 블록간 거리; 문맥 정보; web document analysis; contents extraction; tag distribution; block distance; context
- Citation
- 정보과학회논문지 : 소프트웨어 및 응용, v.40, no.3, pp.155 - 163
- Journal Title
- 정보과학회논문지 : 소프트웨어 및 응용
- Volume
- 40
- Number
- 3
- Start Page
- 155
- End Page
- 163
- URI
- http://scholarworks.bwise.kr/ssu/handle/2018.sw.ssu/11462
- ISSN
- 1229-6848
- Abstract
- 다양한 웹 저작 도구 및 새로운 웹 표준의 출현과 웹에 대한 접근성이 보다 편리해지면서 매우 다양한 종류의 웹 콘텐츠들이 아주 빠르게 생산되고 있다. 이와 같은 환경에서, 사용자의 요구에 적합한 웹 서비스를 제공하기 위해서는 웹 문서로부터 광고와 같은 비 본문 영역 등을 제거하고 본문에 적합한 정보만을 정확하고 빠르게 추출하는 것이 중요하다. 이에 본 논문에서는 HTML 형태의 웹 문서로부터 본문 영역을 정확하게 추출하는 방법을 제안한다. 제안한 방법에서는 문서내의 각각의 텍스트 블록들이 본문 영역에 해당하는지 분류하기 위하여 의사결정트리를 생성하고 이용하였으며 분류를 위한 특징으로는 텍스트 블록의 단어 및 링크 밀도와 HTML 태그 분포 및 텍스트 블록간 거리 등을 포함하는 문맥 정보를 사용하였다. 공개된 데이터 및 본 연구팀에서 직접 수집한 데이터를 이용한 실험을 통해 기존의 방법에 비해 F-Measure가 약 19% 향상되었음을 보였다.
- Files in This Item
-
Go to Link
- Appears in
Collections - College of Information Technology > School of Computer Science and Engineering > 1. Journal Articles
Items in ScholarWorks are protected by copyright, with all rights reserved, unless otherwise indicated.