Detailed Information

Cited 0 time in webofscience Cited 0 time in scopus
Metadata Downloads

연구자 홈페이지 내 콘텐츠 유형에 따른 세부적인 정보 블록 분류 및 식별 방법

Full metadata record
DC Field Value Language
dc.contributor.author신동욱-
dc.contributor.author김태환-
dc.contributor.author최중민-
dc.contributor.author김정선-
dc.date.accessioned2021-06-23T05:04:13Z-
dc.date.available2021-06-23T05:04:13Z-
dc.date.issued2013-04-
dc.identifier.issn1229-6848-
dc.identifier.urihttps://scholarworks.bwise.kr/erica/handle/2021.sw.erica/30118-
dc.description.abstract웹 마이닝과 정보 추출의 성능을 높이기 위해 유용한 정보와 불필요한 데이터가 함께 혼재된 형태의 웹 페이지를 블록으로 분할 후 해당 블록을 주 콘텐츠(primary contents)를 포함하였는지 아닌지 여부에 따라 정보 유형 혹은 비정보 유형으로 분류하고자 하는 연구가 활발히 진행되었다. 본 논문에서는 비정형화된 구조를 가지고 다양한 정보를 포함하는 연구자 홈페이지를 대상으로 콘텐츠 특징을 활용하여 정보 블록을 식별하고 해당 정보 블록을 콘텐츠 유형에 따라 세부적으로 분류하기 위한 DIRTA(Discovering Informative blocks and Recognizing content Types of blocks for Academic homepages)를 제안한다. 또한 실제 웹상의 연구자 홈페이지를 기반한 일련의 실험을 통해 제안한 DIRTA의 효율성을 평가하였다. 블록 분류의 경우 정확률 88%, 재현률 89%, F1-measure 88%로 만족할만한 성능을 보이고 특히 비정보 블록의 분류 성능은 정확률 88%, 재현률 98%, F1-measure 93%로 비정보 블록을 올바르게 필터링하는 것을 확인할 수 있다.-
dc.description.abstractTo improve the performance of Web mining and information extraction, previous studies, which segment Web pages consisting of a mixture of useful information and noise data into blocks and then classify those blocks to an informative type or a non-informative type depending on whether a block includes primary contents or not, are actively progressed. In this paper, we propose DIRTA (Discovering Informative blocks and Recognizing content Types of blocks for Academic homepages) in order to discover informative blocks and to classify them into the content types of blocks in detail. Experiments were carried out with the academic homepages that actually exist on the Web and the results are satisfactory in the sense that the precision, recall and F1-measure of block classification of DIRTA are 88%, 89% and 88%, respectively, and in particular, the performance of classifying non-informative blocks shows the precision 88%, recall 98% and F1-measure 93%, which means DIRTA correctly filters non-informative blocks.-
dc.format.extent13-
dc.language한국어-
dc.language.isoKOR-
dc.publisher한국정보과학회-
dc.title연구자 홈페이지 내 콘텐츠 유형에 따른 세부적인 정보 블록 분류 및 식별 방법-
dc.title.alternativeDiscovering Informative Blocks and Recognizing Their Content Types from Academic Homepages-
dc.typeArticle-
dc.publisher.location대한민국-
dc.identifier.bibliographicCitation정보과학회논문지 : 소프트웨어 및 응용, v.40, no.4, pp 220 - 232-
dc.citation.title정보과학회논문지 : 소프트웨어 및 응용-
dc.citation.volume40-
dc.citation.number4-
dc.citation.startPage220-
dc.citation.endPage232-
dc.identifier.kciidART001760632-
dc.description.isOpenAccessN-
dc.description.journalRegisteredClasskci-
dc.subject.keywordAuthor웹 페이지 분할-
dc.subject.keywordAuthor정보 블록 식별-
dc.subject.keywordAuthor콘텐츠 유형 식별-
dc.subject.keywordAuthor블록 분류-
dc.subject.keywordAuthor연구자 홈페이지-
dc.subject.keywordAuthorweb page segmentation-
dc.subject.keywordAuthorinformative block identification-
dc.subject.keywordAuthorcontent type recognition-
dc.subject.keywordAuthorblock classification-
dc.subject.keywordAuthoracademic homepages-
dc.identifier.urlhttps://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE02136370-
Files in This Item
Go to Link
Appears in
Collections
COLLEGE OF COMPUTING > ERICA 컴퓨터학부 > 1. Journal Articles

qrcode

Items in ScholarWorks are protected by copyright, with all rights reserved, unless otherwise indicated.

Related Researcher

Researcher Kim, Jung sun photo

Kim, Jung sun
ERICA 소프트웨어융합대학 (ERICA 컴퓨터학부)
Read more

Altmetrics

Total Views & Downloads

BROWSE