토픽모델링을 활용한 COVID-19 학술 연구 기반 연구 주제 분류에 관한 연구
DC Field | Value | Language |
---|---|---|
dc.contributor.author | 유소연 | - |
dc.contributor.author | 임규건 | - |
dc.date.accessioned | 2022-07-06T07:58:45Z | - |
dc.date.available | 2022-07-06T07:58:45Z | - |
dc.date.created | 2022-04-06 | - |
dc.date.issued | 2022-03 | - |
dc.identifier.issn | 2288-4866 | - |
dc.identifier.uri | https://scholarworks.bwise.kr/hanyang/handle/2021.sw.hanyang/139180 | - |
dc.description.abstract | 2020년 1월부터 2021년 10월 현재까지 COVID-19(치명적인 호흡기 증후군인 코로나바이러스-2)와 관련된 학술 연구 가 500,000편 이상 발표되었다. COVID-19와 관련된 논문의 수가 급격하게 증가함에 따라 의료 전문가와 정책 담당자들 이 중요한 연구를 신속하게 찾는 것에 시간적·기술적 제약이 따르고 있다. 따라서 본 연구에서는 LDA와 Word2vec 알고 리즘을 사용하여 방대한 문헌의 텍스트 자료로부터 유용한 정보를 추출하는 방안을 제시한다. COVID-19와 관련된 논문 에서 검색하고자 하는 키워드와 관련된 논문을 추출하고, 이를 대상으로 세부 주제를 파악하였다. 자료는 Kaggle에 있는 CORD-19 데이터 세트를 활용하였는데, COVID-19 전염병에 대응하기 위해 주요 연구 그룹과 백악관이 준비한 무료 학 술 자료로서 매주 자료가 업데이트되고 있다. 연구 방법은 크게 두 가지로 나뉜다. 먼저, 47,110편의 학술 논문의 초록을 대상으로 LDA 토픽 모델링과 Word2vec 연관어 분석을 수행한 후, 도출된 토픽 중 ‘vaccine’과 관련된 논문 4,555편, ‘treatment’와 관련된 논문 5,791편을 추출한다. 두 번째로 추출된 논문을 대상으로 LDA, PCA 차원 축소 후 t-SNE 기법 을 사용하여 비슷한 주제를 가진 논문을 군집화하고 산점도로 시각화하였다. 전체 논문을 대상으로 찾을 수 없었던 숨겨진 주제를 키워드에 따라 문헌을 분류하여 토픽모델링을 수행한 결과 세부주제를 찾을 수 있었다. 본 연구의 목표는 대량의 문헌에서 키워드를 입력하여 특정 정보에 대한 문헌을 분류할 수 있는 방안을 제시하는 것이다. 본 연구의 목표는 의료 전문가와 정책 담당자들의 소중한 시간과 노력을 줄이고, 신속하게 정보를 얻을 수 있는 방법을 제안하는 것이다. 학술 논문의 초록에서 COVID-19와 관련된 토픽을 발견하고, COVID-19에 대한 새로운 연구 방향을 탐구하도록 도움을 주는 기초자료로 활용될 것으로 기대한다. | - |
dc.language | 한국어 | - |
dc.language.iso | ko | - |
dc.publisher | 한국지능정보시스템학회 | - |
dc.title | 토픽모델링을 활용한 COVID-19 학술 연구 기반 연구 주제 분류에 관한 연구 | - |
dc.title.alternative | A study on the classification of research topics based on COVID-19 academic research using Topic modeling | - |
dc.type | Article | - |
dc.contributor.affiliatedAuthor | 임규건 | - |
dc.identifier.doi | 10.13088/jiis.2022.28.1.155 | - |
dc.identifier.bibliographicCitation | 지능정보연구, v.28, no.1, pp.155 - 174 | - |
dc.relation.isPartOf | 지능정보연구 | - |
dc.citation.title | 지능정보연구 | - |
dc.citation.volume | 28 | - |
dc.citation.number | 1 | - |
dc.citation.startPage | 155 | - |
dc.citation.endPage | 174 | - |
dc.type.rims | ART | - |
dc.identifier.kciid | ART002826766 | - |
dc.description.journalClass | 2 | - |
dc.description.isOpenAccess | N | - |
dc.description.journalRegisteredClass | kci | - |
dc.subject.keywordAuthor | 코로나 19 | - |
dc.subject.keywordAuthor | 토픽 모델링 | - |
dc.subject.keywordAuthor | LDA(잠재 디리클레 할당) | - |
dc.subject.keywordAuthor | Word2vec | - |
dc.subject.keywordAuthor | 키워드 추출 | - |
dc.subject.keywordAuthor | COVID-19 | - |
dc.subject.keywordAuthor | Topic Modeling | - |
dc.subject.keywordAuthor | LDA(Latent Dirichlet Allocation) | - |
dc.subject.keywordAuthor | Word2vec | - |
dc.subject.keywordAuthor | Keyword Extraction | - |
Items in ScholarWorks are protected by copyright, with all rights reserved, unless otherwise indicated.
222, Wangsimni-ro, Seongdong-gu, Seoul, 04763, Korea+82-2-2220-1365
COPYRIGHT © 2021 HANYANG UNIVERSITY.
Certain data included herein are derived from the © Web of Science of Clarivate Analytics. All rights reserved.
You may not copy or re-distribute this material in whole or in part without the prior written consent of Clarivate Analytics.