시공간 그래프 랜덤워크를 활용한 비디오 의미구조 이해Understanding Video Semantic Structure with Spatiotemporal Graph Random Walk
- Other Titles
- Understanding Video Semantic Structure with Spatiotemporal Graph Random Walk
- Authors
- 윤호영; 김민서; 김은솔
- Issue Date
- Sep-2024
- Publisher
- 한국정보과학회
- Keywords
- video understanding; compositional learning; spatiotemporal graph; random walk; semantic unit; 비디오 이해; 구성적 학습; 시공간 그래프; 랜덤워크; 의미단위
- Citation
- 정보과학회논문지, v.51, no.9, pp 801 - 806
- Pages
- 6
- Indexed
- KCI
- Journal Title
- 정보과학회논문지
- Volume
- 51
- Number
- 9
- Start Page
- 801
- End Page
- 806
- URI
- https://scholarworks.bwise.kr/hanyang/handle/2021.sw.hanyang/211103
- DOI
- 10.5626/JOK.2024.51.9.801
- ISSN
- 2383-630X
2383-6296
- Abstract
- 긴 비디오 이해는 비디오 내 다양한 의미단위들을 찾고, 이들 간 복잡한 관계 해석에 초점을 맞춘다. 기존 방식은 합성곱 신경망이나 transformer 기반 모델을 활용하여 짧은 클립들에 대한 문맥정보를 인코딩하고, 이들 간의 시간적 관계를 고려한다. 그러나 해당 방식으로는 비디오 내부에 존재하는 의미 단위들간 복잡한 관계 포착이 어렵다. 본 논문에서는 이러한 의미단위들 간 관계를 명시적으로 표현하기 위해 객체를 정점, 객체들 간 시공간 관계를 간선으로 하는 시공간 그래프로 비디오 입력을 재표현한다. 또한, 해당 그래프에서 시공간 랜덤워크를 통해 얻은 고차원적 의미관계(high-order relationship) 정보를 활용하여, 주요 의미단위를 더 작은 단위들의 구성으로 표현하는 새로운 방법을 제안한다. 다양한 물체들의 복잡한 행동에 관련된 비디오 데이터셋 CATER를 활용한 실험으로, 제안하는 방식이 효과적인 의미단위 포착능력을 가짐을 입증하였다.
Understanding a long video focuses on finding various semantic units present in the video and interpreting complex relationships among them. Conventional approaches utilize models based on CNNs or transformers to encode contextual information for short clips and then consider temporal relationships among them. However, such approaches struggle to capture complex relationships among smaller semantic units within video clips. In this paper, we present video inputs using a spatiotemporal graph with objects as vertices and relative space-time information between objects as edges, to explicitly express relationships among these semantic units. Additionally, we proposed a novel method to represent major semantic units as compositions of smaller units using high-order relationship information obtained by spatiotemporal random walks on the graph. Through experiments on CATER dataset, which involved complex actions of multiple objects, we demonstrated that our approach exhibited effective semantic unit capturing capabilities.
- Files in This Item
-
Go to Link
- Appears in
Collections - 서울 공과대학 > 서울 컴퓨터소프트웨어학부 > 1. Journal Articles

Items in ScholarWorks are protected by copyright, with all rights reserved, unless otherwise indicated.