HTML 본문 추출을 위한 새로운 시각적 Featureopen accessNew Visual Features for HTML Main Content Extraction
- Other Titles
- New Visual Features for HTML Main Content Extraction
- Authors
- 정근성; 차재혁
- Issue Date
- Apr-2023
- Publisher
- 한국디지털콘텐츠학회
- Keywords
- Main content extraction; Webpage; Web content extraction; Deep neural net model; Google TabNet; 주요 콘텐츠 추출; 웹페이지; 웹 콘텐츠 추출; 신경망 모델; Google TabNet
- Citation
- 디지털콘텐츠학회논문지, v.24, no.4, pp.691 - 699
- Indexed
- KCI
- Journal Title
- 디지털콘텐츠학회논문지
- Volume
- 24
- Number
- 4
- Start Page
- 691
- End Page
- 699
- URI
- https://scholarworks.bwise.kr/hanyang/handle/2021.sw.hanyang/185904
- DOI
- 10.9728/dcs.2023.24.4.691
- ISSN
- 1598-2009
- Abstract
- HTML 본문 추출이란 웹페이지의 본문 영역과 그 내용을 파악하는 기술이다. 기존 기술들이 본문 구별을 위해 사용하는 feature 는 주로 HTML 노드의 태그로 구성한 구조적 feature 이거나 노드가 포함하는 텍스트의 통계값으로 이루어진 텍스트 feature 이다. 그러나 이 feature 들은 웹페이지 템플릿의 유행, 언어, 지역 등에 의존적이다. 따라서 이 feature 들을 활용한 알고리즘이나 모델은 웹페이지의 언어나 환경으로 인한 성능 편차가 발생할 수 있다. 따라서 본 논문에서는 다국어 웹페이지에 대한 HTML 본문 추출 성능 저하를 최소화한 새로운 시각적 feature 들을 제안한다. 이 feature 들은 브라우저에 렌더링 된 HTML 노드의 결과의 속성에 기원하며, 언어나 지역의 영향이 상대적으로 적다. 본 논문에서는 Google TabNet 심층 신경망 아키텍처를 활용하여 기존의 구조적, 텍스트 feature 만을 학습한 신경망 모델 및 기존 feature 에 새롭게 제시한 시각적 feature 을 추가한 모델을 각각 학습하고 본문 추출 성능을 비교하여 본 논문에서 제시한 시각적 feature 의 성능 개선 효과를 입증하였다.
- Files in This Item
-
- Appears in
Collections - 서울 공과대학 > 서울 컴퓨터소프트웨어학부 > 1. Journal Articles
Items in ScholarWorks are protected by copyright, with all rights reserved, unless otherwise indicated.