Detailed Information

Cited 0 time in webofscience Cited 0 time in scopus
Metadata Downloads

연구자 홈페이지 내 콘텐츠 유형에 따른 세부적인 정보 블록 분류 및 식별 방법Discovering Informative Blocks and Recognizing Their Content Types from Academic Homepages

Other Titles
Discovering Informative Blocks and Recognizing Their Content Types from Academic Homepages
Authors
신동욱김태환최중민김정선
Issue Date
Apr-2013
Publisher
한국정보과학회
Keywords
웹 페이지 분할; 정보 블록 식별; 콘텐츠 유형 식별; 블록 분류; 연구자 홈페이지; web page segmentation; informative block identification; content type recognition; block classification; academic homepages
Citation
정보과학회논문지 : 소프트웨어 및 응용, v.40, no.4, pp 220 - 232
Pages
13
Indexed
KCI
Journal Title
정보과학회논문지 : 소프트웨어 및 응용
Volume
40
Number
4
Start Page
220
End Page
232
URI
https://scholarworks.bwise.kr/erica/handle/2021.sw.erica/30118
ISSN
1229-6848
Abstract
웹 마이닝과 정보 추출의 성능을 높이기 위해 유용한 정보와 불필요한 데이터가 함께 혼재된 형태의 웹 페이지를 블록으로 분할 후 해당 블록을 주 콘텐츠(primary contents)를 포함하였는지 아닌지 여부에 따라 정보 유형 혹은 비정보 유형으로 분류하고자 하는 연구가 활발히 진행되었다. 본 논문에서는 비정형화된 구조를 가지고 다양한 정보를 포함하는 연구자 홈페이지를 대상으로 콘텐츠 특징을 활용하여 정보 블록을 식별하고 해당 정보 블록을 콘텐츠 유형에 따라 세부적으로 분류하기 위한 DIRTA(Discovering Informative blocks and Recognizing content Types of blocks for Academic homepages)를 제안한다. 또한 실제 웹상의 연구자 홈페이지를 기반한 일련의 실험을 통해 제안한 DIRTA의 효율성을 평가하였다. 블록 분류의 경우 정확률 88%, 재현률 89%, F1-measure 88%로 만족할만한 성능을 보이고 특히 비정보 블록의 분류 성능은 정확률 88%, 재현률 98%, F1-measure 93%로 비정보 블록을 올바르게 필터링하는 것을 확인할 수 있다.
To improve the performance of Web mining and information extraction, previous studies, which segment Web pages consisting of a mixture of useful information and noise data into blocks and then classify those blocks to an informative type or a non-informative type depending on whether a block includes primary contents or not, are actively progressed. In this paper, we propose DIRTA (Discovering Informative blocks and Recognizing content Types of blocks for Academic homepages) in order to discover informative blocks and to classify them into the content types of blocks in detail. Experiments were carried out with the academic homepages that actually exist on the Web and the results are satisfactory in the sense that the precision, recall and F1-measure of block classification of DIRTA are 88%, 89% and 88%, respectively, and in particular, the performance of classifying non-informative blocks shows the precision 88%, recall 98% and F1-measure 93%, which means DIRTA correctly filters non-informative blocks.
Files in This Item
Go to Link
Appears in
Collections
COLLEGE OF COMPUTING > ERICA 컴퓨터학부 > 1. Journal Articles

qrcode

Items in ScholarWorks are protected by copyright, with all rights reserved, unless otherwise indicated.

Related Researcher

Researcher Kim, Jung sun photo

Kim, Jung sun
ERICA 소프트웨어융합대학 (ERICA 컴퓨터학부)
Read more

Altmetrics

Total Views & Downloads

BROWSE