Detailed Information

Cited 0 time in webofscience Cited 0 time in scopus
Metadata Downloads

HTML 본문 추출을 위한 새로운 시각적 Featureopen accessNew Visual Features for HTML Main Content Extraction

Other Titles
New Visual Features for HTML Main Content Extraction
Authors
정근성차재혁
Issue Date
Apr-2023
Publisher
한국디지털콘텐츠학회
Keywords
Main content extraction; Webpage; Web content extraction; Deep neural net model; Google TabNet; 주요 콘텐츠 추출; 웹페이지; 웹 콘텐츠 추출; 신경망 모델; Google TabNet
Citation
디지털콘텐츠학회논문지, v.24, no.4, pp.691 - 699
Indexed
KCI
Journal Title
디지털콘텐츠학회논문지
Volume
24
Number
4
Start Page
691
End Page
699
URI
https://scholarworks.bwise.kr/hanyang/handle/2021.sw.hanyang/185904
DOI
10.9728/dcs.2023.24.4.691
ISSN
1598-2009
Abstract
HTML 본문 추출이란 웹페이지의 본문 영역과 그 내용을 파악하는 기술이다. 기존 기술들이 본문 구별을 위해 사용하는 feature 는 주로 HTML 노드의 태그로 구성한 구조적 feature 이거나 노드가 포함하는 텍스트의 통계값으로 이루어진 텍스트 feature 이다. 그러나 이 feature 들은 웹페이지 템플릿의 유행, 언어, 지역 등에 의존적이다. 따라서 이 feature 들을 활용한 알고리즘이나 모델은 웹페이지의 언어나 환경으로 인한 성능 편차가 발생할 수 있다. 따라서 본 논문에서는 다국어 웹페이지에 대한 HTML 본문 추출 성능 저하를 최소화한 새로운 시각적 feature 들을 제안한다. 이 feature 들은 브라우저에 렌더링 된 HTML 노드의 결과의 속성에 기원하며, 언어나 지역의 영향이 상대적으로 적다. 본 논문에서는 Google TabNet 심층 신경망 아키텍처를 활용하여 기존의 구조적, 텍스트 feature 만을 학습한 신경망 모델 및 기존 feature 에 새롭게 제시한 시각적 feature 을 추가한 모델을 각각 학습하고 본문 추출 성능을 비교하여 본 논문에서 제시한 시각적 feature 의 성능 개선 효과를 입증하였다.
Files in This Item
Appears in
Collections
서울 공과대학 > 서울 컴퓨터소프트웨어학부 > 1. Journal Articles

qrcode

Items in ScholarWorks are protected by copyright, with all rights reserved, unless otherwise indicated.

Related Researcher

Researcher Cha, Jae Hyuk photo

Cha, Jae Hyuk
COLLEGE OF ENGINEERING (SCHOOL OF COMPUTER SCIENCE)
Read more

Altmetrics

Total Views & Downloads

BROWSE