토픽모델링을 활용한 COVID-19 학술 연구 기반 연구 주제 분류에 관한 연구A study on the classification of research topics based on COVID-19 academic research using Topic modeling
- Other Titles
- A study on the classification of research topics based on COVID-19 academic research using Topic modeling
- Authors
- 유소연; 임규건
- Issue Date
- Mar-2022
- Publisher
- 한국지능정보시스템학회
- Keywords
- 코로나 19; 토픽 모델링; LDA(잠재 디리클레 할당); Word2vec; 키워드 추출; COVID-19; Topic Modeling; LDA(Latent Dirichlet Allocation); Word2vec; Keyword Extraction
- Citation
- 지능정보연구, v.28, no.1, pp.155 - 174
- Indexed
- KCI
- Journal Title
- 지능정보연구
- Volume
- 28
- Number
- 1
- Start Page
- 155
- End Page
- 174
- URI
- https://scholarworks.bwise.kr/hanyang/handle/2021.sw.hanyang/139180
- DOI
- 10.13088/jiis.2022.28.1.155
- ISSN
- 2288-4866
- Abstract
- 2020년 1월부터 2021년 10월 현재까지 COVID-19(치명적인 호흡기 증후군인 코로나바이러스-2)와 관련된 학술 연구 가 500,000편 이상 발표되었다. COVID-19와 관련된 논문의 수가 급격하게 증가함에 따라 의료 전문가와 정책 담당자들 이 중요한 연구를 신속하게 찾는 것에 시간적·기술적 제약이 따르고 있다. 따라서 본 연구에서는 LDA와 Word2vec 알고 리즘을 사용하여 방대한 문헌의 텍스트 자료로부터 유용한 정보를 추출하는 방안을 제시한다. COVID-19와 관련된 논문 에서 검색하고자 하는 키워드와 관련된 논문을 추출하고, 이를 대상으로 세부 주제를 파악하였다. 자료는 Kaggle에 있는 CORD-19 데이터 세트를 활용하였는데, COVID-19 전염병에 대응하기 위해 주요 연구 그룹과 백악관이 준비한 무료 학 술 자료로서 매주 자료가 업데이트되고 있다. 연구 방법은 크게 두 가지로 나뉜다. 먼저, 47,110편의 학술 논문의 초록을 대상으로 LDA 토픽 모델링과 Word2vec 연관어 분석을 수행한 후, 도출된 토픽 중 ‘vaccine’과 관련된 논문 4,555편, ‘treatment’와 관련된 논문 5,791편을 추출한다. 두 번째로 추출된 논문을 대상으로 LDA, PCA 차원 축소 후 t-SNE 기법 을 사용하여 비슷한 주제를 가진 논문을 군집화하고 산점도로 시각화하였다. 전체 논문을 대상으로 찾을 수 없었던 숨겨진 주제를 키워드에 따라 문헌을 분류하여 토픽모델링을 수행한 결과 세부주제를 찾을 수 있었다. 본 연구의 목표는 대량의 문헌에서 키워드를 입력하여 특정 정보에 대한 문헌을 분류할 수 있는 방안을 제시하는 것이다. 본 연구의 목표는 의료 전문가와 정책 담당자들의 소중한 시간과 노력을 줄이고, 신속하게 정보를 얻을 수 있는 방법을 제안하는 것이다. 학술 논문의 초록에서 COVID-19와 관련된 토픽을 발견하고, COVID-19에 대한 새로운 연구 방향을 탐구하도록 도움을 주는 기초자료로 활용될 것으로 기대한다.
- Files in This Item
- There are no files associated with this item.
- Appears in
Collections - 서울 경영대학 > 서울 경영학부 > 1. Journal Articles
Items in ScholarWorks are protected by copyright, with all rights reserved, unless otherwise indicated.