Detailed Information

Cited 0 time in webofscience Cited 0 time in scopus
Metadata Downloads

텍스트 블록 주변의 문맥을 이용한 HTML 문서 본문 추출Contents Extraction from HTML Documents using Text Block Context

Other Titles
Contents Extraction from HTML Documents using Text Block Context
Authors
송원문김우승김명원
Issue Date
Mar-2013
Publisher
한국정보과학회
Keywords
웹 페이지 분석; 본문 추출; 태그 분포; 블록간 거리; 문맥 정보; web document analysis; contents extraction; tag distribution; block distance; context
Citation
정보과학회논문지 : 소프트웨어 및 응용, v.40, no.3, pp.155 - 163
Journal Title
정보과학회논문지 : 소프트웨어 및 응용
Volume
40
Number
3
Start Page
155
End Page
163
URI
http://scholarworks.bwise.kr/ssu/handle/2018.sw.ssu/11462
ISSN
1229-6848
Abstract
다양한 웹 저작 도구 및 새로운 웹 표준의 출현과 웹에 대한 접근성이 보다 편리해지면서 매우 다양한 종류의 웹 콘텐츠들이 아주 빠르게 생산되고 있다. 이와 같은 환경에서, 사용자의 요구에 적합한 웹 서비스를 제공하기 위해서는 웹 문서로부터 광고와 같은 비 본문 영역 등을 제거하고 본문에 적합한 정보만을 정확하고 빠르게 추출하는 것이 중요하다. 이에 본 논문에서는 HTML 형태의 웹 문서로부터 본문 영역을 정확하게 추출하는 방법을 제안한다. 제안한 방법에서는 문서내의 각각의 텍스트 블록들이 본문 영역에 해당하는지 분류하기 위하여 의사결정트리를 생성하고 이용하였으며 분류를 위한 특징으로는 텍스트 블록의 단어 및 링크 밀도와 HTML 태그 분포 및 텍스트 블록간 거리 등을 포함하는 문맥 정보를 사용하였다. 공개된 데이터 및 본 연구팀에서 직접 수집한 데이터를 이용한 실험을 통해 기존의 방법에 비해 F-Measure가 약 19% 향상되었음을 보였다.
Files in This Item
Go to Link
Appears in
Collections
College of Information Technology > School of Computer Science and Engineering > 1. Journal Articles

qrcode

Items in ScholarWorks are protected by copyright, with all rights reserved, unless otherwise indicated.

Altmetrics

Total Views & Downloads

BROWSE