Detailed Information

Cited 0 time in webofscience Cited 0 time in scopus
Metadata Downloads

클라우드 환경에서 메트릭 로그와 머신러닝을 이용한 지능형 장애 탐지 모델 고찰Examining Intelligent Failure Detection Models Using Metric Logs and Machine Learning in a Cloud Environment

Other Titles
Examining Intelligent Failure Detection Models Using Metric Logs and Machine Learning in a Cloud Environment
Authors
이준호박재표
Issue Date
Jan-2024
Publisher
한국산학기술학회
Keywords
Failure Detection; Server Logs; Machine Learning; Decision Tree Algorithm; Random Forest
Citation
한국산학기술학회논문지, v.25, no.1, pp 773 - 779
Pages
7
Journal Title
한국산학기술학회논문지
Volume
25
Number
1
Start Page
773
End Page
779
URI
https://scholarworks.bwise.kr/ssu/handle/2018.sw.ssu/49145
DOI
10.5762/KAIS.2024.25.1.773
ISSN
1975-4701
2288-4688
Abstract
본 논문에서는 게임 서비스 장애를 예측하기 위해 서버의 메트릭 로그 데이터를 사용하여 머신러닝 모델을 구축하고 최적화하는 과정을 기술했다. 특정 게임에서 실제 운용 중인 334대의 서버 중 크기가 큰 로그 29개를 활용했고장애 중에서 비교적 횟수가 많은 동시 접속 하락을 활용했다. 평균 10억 건 이상의 레코드를 갖고 있는 1년 치의 메트릭로그를 클라우드 서비스에 적재했고 이 중 126개의 메트릭을 선별했다. 장애 빈도가 낮은 관계로 장애 시간 기준 1시간~3시간 전과 1일~3일 전 데이터를 추출하여 머신러닝 원본 데이터 세트를 생성했다. 분류 분석 알고리즘을 이용한머신러닝 수행 결과, 날짜 기반 데이터 세트의 성능이 가장 잘 나왔다. 그 중에 의사 결정 트리 알고리즘과 랜덤 포레스트는 0.98 이상의 예측 성능이 나왔다. 메트릭 4개와 서버 2대를 선별해 머신러닝했을 때 의사 결정 트리 알고리즘과랜덤 포레스트 모두 1.0의 성능이 나왔고 장애 미 탐지 오류 건수는 0건이 나왔다. 과거 연구와 달리 프로그래밍 방식으로 선택한 126개의 메트릭 중 높은 성능을 갖는 예상치 못한 메트릭을 발견할 수 있었고 이 메트릭을 활용함으로써서버 수와 관계없는 높은 예측 성능을 달성할 수 있었다. 이 연구를 통해 특정 시점의 데이터 추출이 장애 예측에 유용한점과 프로그램적 접근을 통해 메트릭을 선별하고 머신러닝 후에 메트릭의 중요도를 재평가하는 방식이 장애 탐지 모델구축에 효과적임을 확인할 수 있었다.
Files in This Item
There are no files associated with this item.
Appears in
Collections
ETC > 1. Journal Articles

qrcode

Items in ScholarWorks are protected by copyright, with all rights reserved, unless otherwise indicated.

Related Researcher

Researcher PARK, JAE PYO photo

PARK, JAE PYO
Graduate School (Graduate School of Information Sciences)
Read more

Altmetrics

Total Views & Downloads

BROWSE