스톰 기반의 SNS 분석 모델에 관한 연구A Study on the SNS analysis model based on the Storm
- Other Titles
- A Study on the SNS analysis model based on the Storm
- Authors
- 이현경; 손영성; 김종배
- Issue Date
- Nov-2016
- Publisher
- 사단법인 인문사회과학기술융합학회
- Keywords
- Hadoop; Storm; twitter; counting of keyword; SNS Analysis Model; 하둡; 스톰; 트위터; keyword 카운팅; SNS 분석 모델
- Citation
- 예술인문사회 융합 멀티미디어 논문지, v.6, no.11, pp.529 - 536
- Journal Title
- 예술인문사회 융합 멀티미디어 논문지
- Volume
- 6
- Number
- 11
- Start Page
- 529
- End Page
- 536
- URI
- http://scholarworks.bwise.kr/ssu/handle/2018.sw.ssu/8397
- DOI
- 10.14257/AJMAHS.2016.11.01
- ISSN
- 2383-5281
- Abstract
- 디지털 데이터가 SNS를 중심으로 급속도로 축적됨에 따라 SNS 데이터 분석을 위해 하둡 기반의 키워드 자동 추출 시스템이 광범위하게 활용되고 있다. 하둡은 대용량의 데이터를 처리하기 위해 맵 리듀스라는 병렬 처리 프레임워크를 이용한다. 맵 리듀스 프레임워크는 데이터를 <Key, Value> 형태로 나타내고, 이를 통해 데이터를 변환하는 맵 단계와 변환된 데이터를 키에 따라 정렬하고 모아주는 리듀스 단계로 구성되는 프로세싱 구조를 가지고 있다. 이러한 하둡 프레임워크는 요구하는 사양이 상당히 낮으면서 데이터 신뢰성이 높아 대용량 데이터 처리에 최적화된 파일 시스템으로 평가받아 왔다. 하지만 이러한 시스템은 데이터와 사용자가 실시간으로 변하는 SNS의 특성을 반영하지 못 한다는 단점이 있다. 이에 대한 대안 데이터 분석 플랫폼으로 최근 스톰이 주목 받고 있다. 시간 데이터 분석 및 처리 기능에 중점을 두고 만들어진 스톰은 하둡 기반의 맵 리듀스 기법에 비해 SNS데이터 분석에 여러 강점을 가지고 있다. 이로 인해 스톰은 빠른 데이터 처리 속도, 높은 신뢰성과 확장성, 비교적 낮은 운용 난이도 등과 같은 장점을 가지고 있다. 이러한 스톰의 특징은 트위터에서 생산되는 30테라 바이트 이상의 데이터를 실시간으로 분석하기 위한 플랫폼으로 개발되었기 때문인데, 대용량 데이터에 대한 빠른 처리 요구가 급증함에 따라 새로운 범용 빅 데이터 플랫폼으로 주목 받고 있다. 본 논문에서는 이러한 특징을 가진 스톰을 이용해 대표적인 SNS인 트위터를 분석하고자 한다. 구체적으로 트위터에서 제공하는 Twitter streaming API를 이용해 데이터를 수집하고 이를 스톰을 이용해 취합 분석한 다음, 형태소 분석기를 통하여 keyword를 추출하고, 반복되는 keyword를 카운팅 하는 모델을 제시하고자 한다.
- Files in This Item
-
Go to Link
- Appears in
Collections - Graduate School of Software > Major in Software > 1. Journal Articles
Items in ScholarWorks are protected by copyright, with all rights reserved, unless otherwise indicated.