Detailed Information

Cited 0 time in webofscience Cited 0 time in scopus
Metadata Downloads

웹 페이지 내용 추출의 평가 프레임워크An Evaluation Framework for Extracting Contents from a Web Page

Other Titles
An Evaluation Framework for Extracting Contents from a Web Page
Authors
문은환박민우정근성차재혁
Issue Date
Nov-2018
Publisher
한국디지털콘텐츠학회
Citation
한국정보기술학회 2018년도 공동학술대회 및 대학생논문경진대회, pp.519 - 523
Indexed
OTHER
Journal Title
한국정보기술학회 2018년도 공동학술대회 및 대학생논문경진대회
Start Page
519
End Page
523
URI
https://scholarworks.bwise.kr/hanyang/handle/2021.sw.hanyang/148966
Abstract
웹 페이지 내용 추출이란 렌더링된 웹 페이지로부터 특정 내용을 추출하는 것을 의미한다. 기존 웹 페이지 내용 추출 알고리즘의 경우 정답 데이터베이스와 내용추출 알고리즘, 그리고 성능 계산 기준을 자체적으로 설정하여 성능 평가를 진행해왔다. 그러나 웹 페이지 내용 추출에 관한 기존 논문들에서는 정답 데이터베이스가 서로 상이하고, 같은 웹 페이지 내용 추출 알고리즘이라도 구현이 다르며, 성능 계산 기준은 면적, DOM 트리구조, 내용 유사도 등 서로 다르게 설정되어있다. 따라서 새로운 알고리즘을 제안할 경우 기존 연구결과를 활용하기 어렵고, 새롭게 평가 프레임워크를 구축해야 하는 문제점이 있다. 본 논문에서는 웹 페이지 내용 추출 알고리즘들의 비교를 위해 평가 프레임워크를 제안하여 실험 환경을 구축하는데 필요한 시간을 절감한다. 제안한 프레임워크를 위해 요구 조건을 제안하고 이에 따라 다른 평가 프레임워크와 비교하였다.
Files in This Item
Go to Link
Appears in
Collections
서울 공과대학 > 서울 컴퓨터소프트웨어학부 > 1. Journal Articles

qrcode

Items in ScholarWorks are protected by copyright, with all rights reserved, unless otherwise indicated.

Related Researcher

Researcher Cha, Jae Hyuk photo

Cha, Jae Hyuk
COLLEGE OF ENGINEERING (SCHOOL OF COMPUTER SCIENCE)
Read more

Altmetrics

Total Views & Downloads

BROWSE