Detailed Information

Cited 0 time in webofscience Cited 0 time in scopus
Metadata Downloads

국가 과학기술 표준분류 체계 기반 연구보고서 문서의 자동 분류 연구Research on Text Classification of Research Reports using KoreaNational Science and Technology Standards Classification Codes

Other Titles
Research on Text Classification of Research Reports using KoreaNational Science and Technology Standards Classification Codes
Authors
최종윤한혁정유철
Issue Date
2020
Publisher
한국산학기술학회
Keywords
Deep Learning; Text Classification; Research Report; Preprocessing; NTIS
Citation
한국산학기술학회논문지, v.21, no.1, pp.169 - 177
Journal Title
한국산학기술학회논문지
Volume
21
Number
1
Start Page
169
End Page
177
URI
https://scholarworks.bwise.kr/kumoh/handle/2020.sw.kumoh/117
DOI
10.5762/KAIS.2020.21.1.169
ISSN
1975-4701
Abstract
과학기술 분야의 연구·개발 결과는 연구보고서 형태로 국가과학기술정보서비스(NTIS)에 제출된다. 각 연구보고서는 국가과학기술 표준 분류체계 (K-NSCC)에 따른 분류코드를 가지고 있는데, 보고서 작성자가 제출 시에 수동으로 입력하게끔 되어있다. 하지만 2000여 개가 넘는 세분류를 가지고 있기에, 분류체계에 대한 정확한 이해가 없이는 부정확한 분류코드를 선택하기 십상이다. 새로이 수집되는 연구보고서의 양과 다양성을 고려해 볼 때, 이들을 기계적으로 보다 정확하게 분류할 수 있다면 보고서 제출자의 수고를 덜어줄 수 있을 뿐만 아니라, 다른 부가 가치적인 분석 서비스들과의 연계가 수월할 것이다. 하지만, 국내에서 과학기술표준 분류체계에 기반을 둔 문서 자동 분류 연구 사례는 거의 없으며 공개된 학습데이터도 전무하다. 본 연구는 KISTI가 보유하고 있는 최근 5년간 (2013년~2017년) NTIS 연구보고서 메타정보를 활용한 최초의 시도로써, 방대한 과학기술표준 분류체계를 기반으로 하는 국내 연구보고서들을 대상으로 높은 성능을 보이는 문서 자동 분류기법을 도출하는 연구를 진행하였다. 이를 위해, 과학기술 표준분류 체계에서 과학기술 분야의 연구보고서를 분류하기에 적합한 중분류 210여 개를 선별하였으며, 연구보고서 메타 데이터의 특성을 고려한 전처리를 진행하였다. 특히, 가장 영향력 있는 필드인 과제명(제목)과 키워드만을 이용한 TK_CNN 기반의 딥러닝 기법을 제안한다. 제안 모델은 텍스트 분류에서 좋은 성능을 보이고 있는 기계학습법들 (예, Linear SVC, CNN, GRU등)과 비교하였으며, Top-3 F1점수 기준으로 1~7%에 이르는 성능 우위를 확인하였다.
Files in This Item
There are no files associated with this item.
Appears in
Collections
Department of Computer Engineering > 1. Journal Articles

qrcode

Items in ScholarWorks are protected by copyright, with all rights reserved, unless otherwise indicated.

Related Researcher

Researcher JUNG, YU CHUL photo

JUNG, YU CHUL
College of Engineering (Department of Computer Engineering)
Read more

Altmetrics

Total Views & Downloads

BROWSE