트랜스포머 기반의 다중 시점 3차원 인체자세추정(Multi-View 3D Human Pose Estimation Based on Transformer)
- Other Titles
- (Multi-View 3D Human Pose Estimation Based on Transformer)
- Authors
- 최승욱; 이진영; 김계영
- Issue Date
- Dec-2023
- Publisher
- (사)한국스마트미디어학회
- Keywords
- multi-view 3D human pose estimation; transformer; monocular multi-frame model; 다중 시점 3차원 인체자세추정; 트랜스포머; 단안 시점 다중 프레임 모델
- Citation
- 스마트미디어저널, v.12, no.11, pp 48 - 56
- Pages
- 9
- Journal Title
- 스마트미디어저널
- Volume
- 12
- Number
- 11
- Start Page
- 48
- End Page
- 56
- URI
- https://scholarworks.bwise.kr/ssu/handle/2018.sw.ssu/49146
- DOI
- 10.30693/SMJ.2023.12.11.48
- ISSN
- 2287-1322
2288-9671
- Abstract
- 3차원 인체자세추정은 스포츠, 동작인식, 영상매체의 특수효과 등의 분야에서 널리 활용되고 있는 기술이다. 이를 위한 여러 방법들 중 다중 시점 3차원 인체자세추정은 현실의 복잡한 환경에서도 정밀한 추정을 하기 위해 필수적인 방법이다. 하지만 기존 다중 시점 3차원 인체자세추정 모델들은 3차원 특징 맵을 사용함에 따라 시간 복잡도가 높은 단점이 있다. 본 논문은 계산 복잡도가 적은 트랜스포머 기반 기존 단안 시점 다중 프레임 모델을 다중 시점에 대한 3차원 인체자세추정으로 확장하는 방법을 제안한다. 다중 시점으로 확장하기 위하여 먼저 2차원 인체자세 검출자 CPN(Cascaded Pyramid Network)을 활용하여 획득한 4개 시점의 17가지 관절에 대한 2차원 관절좌표를 연결한 8차원 관절좌표를 생성한다. 그 다음 이들을 패치 임베딩 한 뒤 17×32 데이터로 변환하여 트랜스포머 모델에 입력한다. 마지막으로, 인체자세를 출력하는 MLP(Multi-Layer Perceptron) 블록을 매 반복 마다 사용한다. 이를 통해 4개 시점에 대한 3차원 인체자세추정을 동시에 수정한다. 입력 프레임 길이 27을 사용한 Zheng[5]의 방법과 비교했을 때 제안한 방법의 모델 매개변수의 수는 48.9%, MPJPE(Mean Per Joint Position Error)는 20.6mm(43.8%) 감소했으며, 학습 횟수 당 평균 학습 소요 시간은 20배 이상 빠르다.
- Files in This Item
-
Go to Link
- Appears in
Collections - College of Information Technology > School of Software > 1. Journal Articles
Items in ScholarWorks are protected by copyright, with all rights reserved, unless otherwise indicated.