하둡 플랫폼을 이용한 대량의 스몰파일 처리방법Processing Method of Mass Small File Using Hadoop Platform
- Other Titles
- Processing Method of Mass Small File Using Hadoop Platform
- Authors
- 김창복; 정재필
- Issue Date
- 2014
- Publisher
- 한국항행학회
- Keywords
- Big data; CombineFileInputFormat; Hadoop distributed file system; MapReduce; Small file
- Citation
- 한국항행학회논문지, v.18, no.4, pp.401 - 408
- Journal Title
- 한국항행학회논문지
- Volume
- 18
- Number
- 4
- Start Page
- 401
- End Page
- 408
- URI
- https://scholarworks.bwise.kr/gachon/handle/2020.sw.gachon/13468
- DOI
- 10.12673/jant.2014.18.4.401
- ISSN
- 1226-9026
- Abstract
- 하둡(Hadoop)은 맵리듀스(MapReduce) 분산처리 프로그래밍 모델과 HDFS(Hadoop distributed file system) 분산 파일시스템으로 구성된다. 하둡은 빅데이터 처리에 적합한 프레임워크로서, 대량의 스몰파일 처리에 문제점이 있다. 하둡에서 대량의 스몰파일 처리는 하나의 파일마다 매퍼가 생성되며, 파일의 메타정보를 저장하기 위해 많은 메모리가 필요한 문제점이 있다. 본 논문은 하둡 플랫폼에서 다양한 방법으로 대량의 스몰파일 처리방법을 비교 검토하였다. 일반 압축은 데이터의 크기와 상관없이 하나의 매퍼로 처리해야 하기 때문에, 하둡 처리 포맷으로 적절하지 않다. 시퀀스 와 하둡 아카이브 파일의 처리는 스몰파일을 압축 및 병합을 통해 네임노드의 메모리 문제가 제거되었다. 하둡 아카이브 파일은 스몰파일의 병합시간이 시퀀스 파일보다 빠른 속도를 보였다. CombineFileInputFormat 클래스를 이용한 처리는 병합과정이 필요 없으며, 빅데이터 처리방법과 유사한 속도를 보였다.
- Files in This Item
- There are no files associated with this item.
- Appears in
Collections - IT융합대학 > 전자공학과 > 1. Journal Articles
- IT융합대학 > 에너지IT학과 > 1. Journal Articles
![qrcode](https://api.qrserver.com/v1/create-qr-code/?size=55x55&data=https://scholarworks.bwise.kr/gachon/handle/2020.sw.gachon/13468)
Items in ScholarWorks are protected by copyright, with all rights reserved, unless otherwise indicated.