Detailed Information

Cited 0 time in webofscience Cited 0 time in scopus
Metadata Downloads

HTML 본문 추출을 위한 새로운 시각적 Feature

Full metadata record
DC Field Value Language
dc.contributor.author정근성-
dc.contributor.author차재혁-
dc.date.accessioned2023-06-01T07:09:32Z-
dc.date.available2023-06-01T07:09:32Z-
dc.date.created2023-05-03-
dc.date.issued2023-04-
dc.identifier.issn1598-2009-
dc.identifier.urihttps://scholarworks.bwise.kr/hanyang/handle/2021.sw.hanyang/185904-
dc.description.abstractHTML 본문 추출이란 웹페이지의 본문 영역과 그 내용을 파악하는 기술이다. 기존 기술들이 본문 구별을 위해 사용하는 feature 는 주로 HTML 노드의 태그로 구성한 구조적 feature 이거나 노드가 포함하는 텍스트의 통계값으로 이루어진 텍스트 feature 이다. 그러나 이 feature 들은 웹페이지 템플릿의 유행, 언어, 지역 등에 의존적이다. 따라서 이 feature 들을 활용한 알고리즘이나 모델은 웹페이지의 언어나 환경으로 인한 성능 편차가 발생할 수 있다. 따라서 본 논문에서는 다국어 웹페이지에 대한 HTML 본문 추출 성능 저하를 최소화한 새로운 시각적 feature 들을 제안한다. 이 feature 들은 브라우저에 렌더링 된 HTML 노드의 결과의 속성에 기원하며, 언어나 지역의 영향이 상대적으로 적다. 본 논문에서는 Google TabNet 심층 신경망 아키텍처를 활용하여 기존의 구조적, 텍스트 feature 만을 학습한 신경망 모델 및 기존 feature 에 새롭게 제시한 시각적 feature 을 추가한 모델을 각각 학습하고 본문 추출 성능을 비교하여 본 논문에서 제시한 시각적 feature 의 성능 개선 효과를 입증하였다.-
dc.language한국어-
dc.language.isoko-
dc.publisher한국디지털콘텐츠학회-
dc.titleHTML 본문 추출을 위한 새로운 시각적 Feature-
dc.title.alternativeNew Visual Features for HTML Main Content Extraction-
dc.typeArticle-
dc.contributor.affiliatedAuthor차재혁-
dc.identifier.doi10.9728/dcs.2023.24.4.691-
dc.identifier.bibliographicCitation디지털콘텐츠학회논문지, v.24, no.4, pp.691 - 699-
dc.relation.isPartOf디지털콘텐츠학회논문지-
dc.citation.title디지털콘텐츠학회논문지-
dc.citation.volume24-
dc.citation.number4-
dc.citation.startPage691-
dc.citation.endPage699-
dc.type.rimsART-
dc.identifier.kciidART002952456-
dc.description.journalClass2-
dc.description.isOpenAccessY-
dc.description.journalRegisteredClasskci-
dc.subject.keywordAuthorMain content extraction-
dc.subject.keywordAuthorWebpage-
dc.subject.keywordAuthorWeb content extraction-
dc.subject.keywordAuthorDeep neural net model-
dc.subject.keywordAuthorGoogle TabNet-
dc.subject.keywordAuthor주요 콘텐츠 추출-
dc.subject.keywordAuthor웹페이지-
dc.subject.keywordAuthor웹 콘텐츠 추출-
dc.subject.keywordAuthor신경망 모델-
dc.subject.keywordAuthorGoogle TabNet-
dc.identifier.urlhttp://journal.dcs.or.kr/_common/do.php?a=full&b=12&bidx=3284&aidx=36513-
Files in This Item
Appears in
Collections
서울 공과대학 > 서울 컴퓨터소프트웨어학부 > 1. Journal Articles

qrcode

Items in ScholarWorks are protected by copyright, with all rights reserved, unless otherwise indicated.

Related Researcher

Researcher Cha, Jae Hyuk photo

Cha, Jae Hyuk
COLLEGE OF ENGINEERING (SCHOOL OF COMPUTER SCIENCE)
Read more

Altmetrics

Total Views & Downloads

BROWSE