대용량 데이터를 위한 전역적 범주화를 이용한 결정 트리의 순차적 생성Incremental Generation of A Decision Tree Using Global Discretization For Large Data
- Other Titles
- Incremental Generation of A Decision Tree Using Global Discretization For Large Data
- Authors
- 한경식; 이수원
- Issue Date
- Aug-2005
- Publisher
- 한국정보처리학회
- Keywords
- Decision Tree; Incremental Learning; Global Discretization; Large Dataset; Data Mining; 결정 트리; 순차적 학습; 전역적 범주화; 대용량 데이터; 데이터 마이닝
- Citation
- 정보처리학회논문지. 소프트웨어 및 데이터 공학, v.12, no.4, pp.487 - 498
- Journal Title
- 정보처리학회논문지. 소프트웨어 및 데이터 공학
- Volume
- 12
- Number
- 4
- Start Page
- 487
- End Page
- 498
- URI
- http://scholarworks.bwise.kr/ssu/handle/2018.sw.ssu/19529
- ISSN
- 2287-5905
- Abstract
- 최근 들어, 대용량의 데이터를 처리할 수 있는 트리 생성 방법에 많은 관심이 집중되고 있다. 그러나 대용량 데이터를 위한 대부분의 알고리즘은 일괄처리 방식으로 데이터를 처리하기 때문에 새로운 데이터가 추가되면 이 데이터를 반영한 결정 트리를 생성하기 위해 처음부터 트리를 다시 생성해야 하다. 이러한 재생성에 따른 비용문제에 보다 효율적인 접근 방법은 결정 트리를 순차적으로 생성하는 접근 방법이다. 대표적인 알고리즘으로 BOAT와 ITI를 들 수 있으며 이들 알고리즘은 수치형 데이터 처리를 위해 지역적 범주화를 이용한다. 그러나 범주화는 정렬된 형태의 수치형 데이터를 요구하기 때문에 대용량 데이터를 처리해야하는 상황에서 전체 데이터에 대해 한번만 정렬을 수행하는 전역적 범주화 기법이 모든 노드에서 매번 정렬을 수행하는 지역적 범주화보다 적합하다. 본 논문은 수치형 데이터 처리를 위해 전역적 범주화를 이용하여 생성된 트리를 효율적으로 재생성하는 순차적 트리 생성 방법을 제안한다. 새로운 데이터가 추가될 경우, 전역적 범주화에 기반 한 트리를 순차적으로 생성하기 위해서는 첫째, 이 새로운 데이터가 반영된 범주를 재생성해야 하며, 둘째, 범주 변화에 맞게 트리의 구조를 변화시켜야한다. 본 논문에서는 효율적인 범주 재생성을 위해 샘플 분할 포인트를 추출하고 이로부터 범주화를 수행하는 기법을 제안하며 범주 변화에 맞는 트리 구조 변화를 위해 신뢰구간과 트리 재구조화기법을 이용한다. 본 논문에서 피플 데이터베이스를 이용하여 기존의 지역적 범주화를 이용한 경우와 비교 실험하였다.
- Files in This Item
-
Go to Link
- Appears in
Collections - College of Information Technology > School of Software > 1. Journal Articles
![qrcode](https://api.qrserver.com/v1/create-qr-code/?size=55x55&data=https://scholarworks.bwise.kr/ssu/handle/2018.sw.ssu/19529)
Items in ScholarWorks are protected by copyright, with all rights reserved, unless otherwise indicated.