Detailed Information

Cited 0 time in webofscience Cited 0 time in scopus
Metadata Downloads

Word2vec을 활용한 코로나 19 연구 기반 주제별 문헌 분류에 관한 연구

Authors
유소연임규건
Issue Date
Dec-2021
Publisher
한국지능정보학회
Citation
한국지능정보학회 2021 추계학술대회, pp.103 - 103
Indexed
OTHER
Journal Title
한국지능정보학회 2021 추계학술대회
Start Page
103
End Page
103
URI
https://scholarworks.bwise.kr/hanyang/handle/2021.sw.hanyang/191845
Abstract
2020년 1월부터 2021년 10월 현재까지 COVID-19 (치명적인 호흡기 증후군인 코로나 바이러스-2)와 관련된 학술 연구가 500,000 편 이상 발표되었다. COVID-19와 관련된 논문의 수가 급격하게 증가함 에 따라 의료 전문가와 정책 담당자들이 중요한 연구를 신속하게 찾는 것에 시간적∙기술적 제약이 따르고 있다. 따라서 본 연구에서는 LDA와 Word2vec 알고리즘을 사용하여 방대한 문헌의 텍스트 자료로부터 유용한 정보를 추출하는 방안을 제시한다. COVID-19와 관련된 논문에서 검색하고 자 하는 키워드와 관련된 논문을 추출하고, 이를 대상으로 세부 주제를 파악하였다. 자료는 Kaggle에 있는 CORD-19 데이터 세트를 활용하였는데, COVID-19 전염병에 대응하기 위해 주요 연구 그룹과 백악관이 준비한 무료 학술 자료로서 매주 자료가 업데이트되고 있다. 연구 방법은 크게 두 가지로 나뉜다. 먼저, 47,110 편의 학술 논문의 초록을 대상으로 LDA 토픽 모델링과 Word2vec 연관어 분석을 수행한 후, 도출된 토픽 중 ‘vaccine’과 관련된 논문 4,555편, ‘treatment’와 관련된 논문5,791편을 추출한다. 두 번째로 추출된 논문을 대상으로 LDA, PCA 차원 축소 후 t-SNE 기법을 사용하여 비슷한 주제를 가진 논문을 군집화하고 산점도로 시각화하였다. 전체 논문을 대상으로 찾을 수 없었던 숨겨진 주제를 키워드에 따라 문헌을 분류하여 토픽 모델링을 수행한 결과 세부 주제를 찾을 수 있었다. 본 연구의 목표는 대량의 문헌에서 키워드를 입력하여 특정 정보에 대한 문헌을 분류할 수 있는 방안을 제시하는 것이다. 본연구의 목표는 의료 전문가와 정책 담당자들의 소중한 시간과 노력을 줄이고, 신속하게 정보를 얻을 수 있는 방법을 제안하는 것이다. 학술 논문의 초록에서 COVID-19와 관련된 토픽을 발견하고,COVID-19에 대한 새로운 연구 방향을 탐구하도록 도움을 주는 기초자료로 활용될 것으로 기대한다.
Files in This Item
Go to Link
Appears in
Collections
서울 경영대학 > 서울 경영학부 > 1. Journal Articles

qrcode

Items in ScholarWorks are protected by copyright, with all rights reserved, unless otherwise indicated.

Related Researcher

Researcher Lim, Gyoo Gun photo

Lim, Gyoo Gun
SCHOOL OF BUSINESS (SCHOOL OF BUSINESS ADMINISTRATION)
Read more

Altmetrics

Total Views & Downloads

BROWSE