웹 페이지 내용 추출의 평가 프레임워크An Evaluation Framework for Extracting Contents from a Web Page
- Other Titles
- An Evaluation Framework for Extracting Contents from a Web Page
- Authors
- 문은환; 박민우; 정근성; 차재혁
- Issue Date
- Nov-2018
- Publisher
- 한국디지털콘텐츠학회
- Citation
- 한국정보기술학회 2018년도 공동학술대회 및 대학생논문경진대회, pp.519 - 523
- Indexed
- OTHER
- Journal Title
- 한국정보기술학회 2018년도 공동학술대회 및 대학생논문경진대회
- Start Page
- 519
- End Page
- 523
- URI
- https://scholarworks.bwise.kr/hanyang/handle/2021.sw.hanyang/148966
- Abstract
- 웹 페이지 내용 추출이란 렌더링된 웹 페이지로부터 특정 내용을 추출하는 것을 의미한다. 기존 웹 페이지 내용 추출 알고리즘의 경우 정답 데이터베이스와 내용추출 알고리즘, 그리고 성능 계산 기준을 자체적으로 설정하여 성능 평가를 진행해왔다. 그러나 웹 페이지 내용 추출에 관한 기존 논문들에서는 정답 데이터베이스가 서로 상이하고, 같은 웹 페이지 내용 추출 알고리즘이라도 구현이 다르며, 성능 계산 기준은 면적, DOM 트리구조, 내용 유사도 등 서로 다르게 설정되어있다. 따라서 새로운 알고리즘을 제안할 경우 기존 연구결과를 활용하기 어렵고, 새롭게 평가 프레임워크를 구축해야 하는 문제점이 있다. 본 논문에서는 웹 페이지 내용 추출 알고리즘들의 비교를 위해 평가 프레임워크를 제안하여 실험 환경을 구축하는데 필요한 시간을 절감한다. 제안한 프레임워크를 위해 요구 조건을 제안하고 이에 따라 다른 평가 프레임워크와 비교하였다.
- Files in This Item
-
Go to Link
- Appears in
Collections - 서울 공과대학 > 서울 컴퓨터소프트웨어학부 > 1. Journal Articles
Items in ScholarWorks are protected by copyright, with all rights reserved, unless otherwise indicated.