클라우드 환경에서 메트릭 로그와 머신러닝을 이용한 지능형 장애 탐지 모델 고찰Examining Intelligent Failure Detection Models Using Metric Logs and Machine Learning in a Cloud Environment
- Other Titles
- Examining Intelligent Failure Detection Models Using Metric Logs and Machine Learning in a Cloud Environment
- Authors
- 이준호; 박재표
- Issue Date
- Jan-2024
- Publisher
- 한국산학기술학회
- Keywords
- Failure Detection; Server Logs; Machine Learning; Decision Tree Algorithm; Random Forest
- Citation
- 한국산학기술학회논문지, v.25, no.1, pp 773 - 779
- Pages
- 7
- Journal Title
- 한국산학기술학회논문지
- Volume
- 25
- Number
- 1
- Start Page
- 773
- End Page
- 779
- URI
- https://scholarworks.bwise.kr/ssu/handle/2018.sw.ssu/49145
- DOI
- 10.5762/KAIS.2024.25.1.773
- ISSN
- 1975-4701
2288-4688
- Abstract
- 본 논문에서는 게임 서비스 장애를 예측하기 위해 서버의 메트릭 로그 데이터를 사용하여 머신러닝 모델을 구축하고 최적화하는 과정을 기술했다. 특정 게임에서 실제 운용 중인 334대의 서버 중 크기가 큰 로그 29개를 활용했고장애 중에서 비교적 횟수가 많은 동시 접속 하락을 활용했다. 평균 10억 건 이상의 레코드를 갖고 있는 1년 치의 메트릭로그를 클라우드 서비스에 적재했고 이 중 126개의 메트릭을 선별했다. 장애 빈도가 낮은 관계로 장애 시간 기준 1시간~3시간 전과 1일~3일 전 데이터를 추출하여 머신러닝 원본 데이터 세트를 생성했다. 분류 분석 알고리즘을 이용한머신러닝 수행 결과, 날짜 기반 데이터 세트의 성능이 가장 잘 나왔다. 그 중에 의사 결정 트리 알고리즘과 랜덤 포레스트는 0.98 이상의 예측 성능이 나왔다. 메트릭 4개와 서버 2대를 선별해 머신러닝했을 때 의사 결정 트리 알고리즘과랜덤 포레스트 모두 1.0의 성능이 나왔고 장애 미 탐지 오류 건수는 0건이 나왔다. 과거 연구와 달리 프로그래밍 방식으로 선택한 126개의 메트릭 중 높은 성능을 갖는 예상치 못한 메트릭을 발견할 수 있었고 이 메트릭을 활용함으로써서버 수와 관계없는 높은 예측 성능을 달성할 수 있었다. 이 연구를 통해 특정 시점의 데이터 추출이 장애 예측에 유용한점과 프로그램적 접근을 통해 메트릭을 선별하고 머신러닝 후에 메트릭의 중요도를 재평가하는 방식이 장애 탐지 모델구축에 효과적임을 확인할 수 있었다.
- Files in This Item
- There are no files associated with this item.
- Appears in
Collections - ETC > 1. Journal Articles
Items in ScholarWorks are protected by copyright, with all rights reserved, unless otherwise indicated.