Detailed Information

Cited 0 time in webofscience Cited 0 time in scopus
Metadata Downloads

온라인 댓글의 주제 분석을 위한 토픽 모델링 : 이슈 포착과 분류에 활용 가능한 LDA와 BTM의 비교와 검증

Full metadata record
DC Field Value Language
dc.contributor.author이신행-
dc.date.accessioned2024-01-09T08:01:43Z-
dc.date.available2024-01-09T08:01:43Z-
dc.date.issued2023-08-
dc.identifier.issn1229-7526-
dc.identifier.issn2586-7369-
dc.identifier.urihttps://scholarworks.bwise.kr/cau/handle/2019.sw.cau/70139-
dc.description.abstract토픽 모델링은 컴퓨터를 이용해 빠르고 쉽게 방대한 양의 정보를 구성하거나 파악하는 모델을 추정하는 비지도 기계학습 방법으로 문서를 비슷한 토픽별로 묶어내거나 토픽의 내용과 분포를 파악하고자 할 때 활용된다. 그런데 토픽 모델링을 미디어 연구에 활용함에 있어 이론적으로 정의된 개념을 타당하고 신뢰할 수 있는 측정하는 방법으로써의 고민이 부족했다는 지적이 최근 제기되고 있다. 대단위 텍스트 자료를 탐색하고 요약하는 도구인 토픽 모델링을 미디어 연구에 활용하기 위해서 방법적 타당성 검증과 신뢰성 확보가 필요하다는 것이다. 더욱이, 온라인 플랫폼을 통해 거대한 규모로 빠르게 발생하고 있는 댓글을 ‘이슈’에 따라 분류하고 그 주요 주제를 요약하는 방법은 사회적 쟁점을 즉각적으로 파악하고 담론 양상을 통시적으로 추적하는데 유용하다. 이러한 이유에서 댓글의 주제를 분석하기 위한 토픽 모델링의 방법적 타당성을 진단하는 시도는 그 의의가 크다고 할 수 있다. 이에 본 연구는 온라인 댓글의 주제 분석을 위한 토픽 모델링 방법을 제시하고 그 성능과 타당성을 다음과 같이 검증했다. 우선, 온라인 댓글의 맥락에서 다뤄지는 ‘이슈’에 대한 개념화를 통해 댓글의 주제 분석이 왜 필요하고 어떠한 함의가 있는 것인지에 대해 논의했다. 그리고 토픽 모델링이 텍스트의 주제를 추정하는 원리와 주제 추정에 영향을 미치는 통계 모델로써의 가정들에 대해 Latent Dirichlet Allocation(LDA) 모델을 중심으로 살펴봤다. 또한 댓글의 주제를 포착하고 ‘이슈’별로 분류하기 위한 토픽 모델링을 제안하고자 LDA와 Biterm Topic Model(BTM)의 성능과 한계를 비교했다. 이상의 이론적 논의를 토대로 9개의 사회적 이슈를 다루고 있는 기사에 달린 9,000건의 온라인 뉴스 댓글을 토픽 모델링으로 분석해 주제를 추정하고 이에 따라 댓글이 뉴스의 ‘이슈’에 따라 분류되는지를 모델별로 비교 검증했다. 그 결과는 다음과 같다. 첫째, BTM에 비해 LDA는 초모수 에 많은 영향을 받았는데 값이 낮아질수록 모델의 성능이 좋아졌다. 둘째, BTM과 LDA 모두 최적의 주제의 개수(K)를 추정할 수 있었으나, BTM이 K값 선정에 따른 성능 변화가 LDA보다 적었고 K값이 최적의 값보다 클 때보다 낮을 때 성능 저하가 심해졌다. 셋째, BTM과 LDA 모두 분석 단어 목록에 단일 형태소와 함께 바이그램(bigram)을 추가할 때 성능이 좋아졌으나 그 차이는 LDA에서 더욱 뚜렸했다. 이러한 검증 결과를 토대로 댓글의 주제 분석을 위한 토픽 모델링의 활용 가능성을 진단하고 그 함의를 논의했다.-
dc.description.abstractUsing computers to rapidly and efficiently build a model to organize massive volumes of textual data, topic modeling is an unsupervised machine learning technique that can be used to classify texts into related themes or to analyze the nature and distribution of topics. However, topic modeling's usage in media research has recently come under fire for failing to take into account reliable and valid measures of theoretically defined concepts. This means that topic modeling needs methodological validation and reliability in order to be employed in media research as a tool for investigating and summarizing massive volumes of textual material. Additionally, it is helpful to be able to group online comments into "issues" and list their important points in order to quickly identify social issues and monitor discourse patterns in real-time on digital platforms. For this reason, attempts to diagnose the methodological validity of topic modeling for analyzing the topics of comments are of great significance. Therefore, this study validates topic modeling for analyzing online comments by verifying its performance as follows. First, we discussed why topic analysis of comments is necessary and what the implications are through the conceptualization of "issues" in the context of online comments. Then, with an emphasis on the Latent Dirichlet Allocation (LDA) model, we reviewed the principle of topic modeling to estimate the topic of text and the assumptions of statistical models that affect topic estimation. Additionally, we contrasted the merits and drawbacks of LDA and the Biterm Topic Model (BTM) to suggest topic modeling as a means of identifying the subject of comments and categorizing them as "issues." Based on the above theoretical discussion, we applied topic modeling to analyze 9,000 online news comments on articles covering nine social issues and validate whether the topics are useful to classify comments according to the "issues" of the news. The results are as follows. First, compared to BTM, LDA is highly dependent on the hyperparameter, , with lower values leading to better model performance. Second, both BTM and LDA were able to estimate the optimal number of topics (K ), but BTM showed less variation in performance with value selection than LDA, and performance degradation was worse when the value was lower than the optimal K than when it was higher. Third, both BTM and LDA performed better when adding bigrams along with unigrams to the vocabulary, but the difference was more pronounced for LDA. Based on these validation results, we assessed the validity of topic modeling for analysis of comments and discussed its implications.-
dc.format.extent35-
dc.language한국어-
dc.language.isoKOR-
dc.publisher한국언론학회-
dc.title온라인 댓글의 주제 분석을 위한 토픽 모델링 : 이슈 포착과 분류에 활용 가능한 LDA와 BTM의 비교와 검증-
dc.title.alternativeTopic Modeling for Analyzing Online Comments : Comparing and Validating LDA and BTM for Capturing and Classifying Issues-
dc.typeArticle-
dc.identifier.bibliographicCitation한국언론학보, v.67, no.4, pp 89 - 123-
dc.identifier.kciidART002991671-
dc.description.isOpenAccessN-
dc.citation.endPage123-
dc.citation.number4-
dc.citation.startPage89-
dc.citation.title한국언론학보-
dc.citation.volume67-
dc.publisher.location대한민국-
dc.subject.keywordAuthorOnline Comment-
dc.subject.keywordAuthorTopic Modeling-
dc.subject.keywordAuthorLDA-
dc.subject.keywordAuthorBTM-
dc.subject.keywordAuthorModel Validation-
dc.subject.keywordAuthor온라인 댓글-
dc.subject.keywordAuthor토픽 모델링-
dc.subject.keywordAuthor타당성 검증-
Files in This Item
There are no files associated with this item.
Appears in
Collections
College of Social Sciences > School of Media & Communication > 1. Journal Articles

qrcode

Items in ScholarWorks are protected by copyright, with all rights reserved, unless otherwise indicated.

Related Researcher

Researcher Lee, Shin Haeng photo

Lee, Shin Haeng
사회과학대학 (미디어커뮤니케이션학부)
Read more

Altmetrics

Total Views & Downloads

BROWSE