Detailed Information

Cited 0 time in webofscience Cited 0 time in scopus
Metadata Downloads

QR분해를 사용한 RHadoop의 맵리듀스 기반 다중선형회귀모형 추정 알고리즘RHadoop-based Algorithm Utilizing QR Factorization for Multiple Linear Regression Analysis

Other Titles
RHadoop-based Algorithm Utilizing QR Factorization for Multiple Linear Regression Analysis
Authors
강민수조상훈
Issue Date
Feb-2023
Publisher
한국자료분석학회
Keywords
Bigdata; RHadoop; MapReduce; linear regression; QR factorization.; 빅데이터; RHadoop; 맵리듀스; 선형회귀; QR분해.
Citation
Journal of The Korean Data Analysis Society, v.25, no.1, pp.99 - 113
Journal Title
Journal of The Korean Data Analysis Society
Volume
25
Number
1
Start Page
99
End Page
113
URI
http://scholarworks.bwise.kr/ssu/handle/2018.sw.ssu/43298
DOI
10.37727/jkdas.2022.25.1.99
ISSN
1229-2354
Abstract
하둡은 대용량 자료의 분산 저장 및 병렬 처리 작업을 지원하는 자바 기반 오픈 소스 소프트웨어 플랫폼이다. RHadoop은 R 프로그래밍 환경에서 하둡의 핵심 프로젝트인 HDFS와 맵리듀스에 접속할 수 있는 인터페이스를 제공하여 R 사용자들에게 대용량 자료 분석에 효율적인 분산 컴퓨팅 환경을 지원한다. 본고에서는 변수의 수에 비해 자료의 수가 훨씬 더 많은 대용량 자료에 QR분해를 사용하여 다중선형회귀모형을 추정하는데 사용할 수 있는 RHadoop 기반 맵리듀스 프로그래밍 모델을 제안한다. 본 연구에서 제안하는 알고리즘은 Benson, Gleich, Demmel(2013)이 제안한 DirectQR 방법을 활용하되 대용량 자료를 사용하여 반복 연산하는 과정 없이 맵리듀스 단일 과정을 통해 모형을 추정하며, 컴바인 단계를 통해 맵 단계의 중간 결과물을 취합하여 네트워크를 통해 리듀스 단계로 전송할 중간 결과물의 양을 축소시킨다. 본 연구에서 제안하는 알고리즘의 성능을 측정하기 위해 이전 연구를 통해 제안된 알고리즘과 비교 평가하는 모의실험을 수행한다. 실제 자료와 유사한 모의자료를 생성하기 위해 뉴욕 도시 택시·리무진 위원회에 보고되는 뉴욕 엘로우 택시 운행 자료를 활용하며, 변수 간의 상관관계 및 오차항에 대한 여러 가정 하에서 각 알고리즘의 모수 추정 속도와 정확도를 평가한다.
Files in This Item
Go to Link
Appears in
Collections
ETC > 1. Journal Articles

qrcode

Items in ScholarWorks are protected by copyright, with all rights reserved, unless otherwise indicated.

Related Researcher

Researcher Cho, Sang hoon photo

Cho, Sang hoon
College of Natural Sciences (Department of Statistics and Actuarial Science)
Read more

Altmetrics

Total Views & Downloads

BROWSE