시각적 관계 예측을 위한 계산 효율적인 조합적 전이 표현 학습법Efficient Compositional Translation Embedding for Visual Relationship Detection
- Other Titles
- Efficient Compositional Translation Embedding for Visual Relationship Detection
- Authors
- 허유정; 김은솔; 최우석; 온경운; 장병탁
- Issue Date
- Jul-2022
- Publisher
- 한국정보과학회
- Keywords
- 장면 그래프 생성; 시각적 관계 예측; 이미지 캡션 검색; 전이 표현; scene graph generation; visual relationship detection; image caption retrieval; translation embedding
- Citation
- 정보과학회논문지, v.49, no.7, pp 544 - 554
- Pages
- 11
- Indexed
- KCI
- Journal Title
- 정보과학회논문지
- Volume
- 49
- Number
- 7
- Start Page
- 544
- End Page
- 554
- URI
- https://scholarworks.bwise.kr/hanyang/handle/2021.sw.hanyang/194545
- DOI
- 10.5626/JOK.2022.49.7.544
- ISSN
- 2383-630X
2383-6296
- Abstract
- 장면 그래프는 이미지에 존재하는 객체 사이의 고차원 시각 관계를 표현하기 위해 널리 활용된다. 본 논문에서는 장면 그래프를 자동으로 구축하기위해 객체 사이의 시각 관계를 감지하고 그 관계를 술어로 예측하는 알고리즘을 제안한다. 우리는 기존에 제시된 텍스트 기반 지식 그래프 임베딩 TransR에서 영감을 받아 i) 시각적 관계의 구성적 관점을 고려하기 위한 잠재 관계 부분 공간을 정의하고 ii) 각 부분 공간에서 객체 표현 사이의 전이적 제약을 적용하는 CompTransR을 제시한다. 장면 그래프 생성을 위한 대표적인 벤치마크 데이터인 VRD, VG200 및 VrR-VG에서 제안하는 방법론은 기제시된 모델과 비교하여 학습 복잡도를 줄이는 동시에 우수한 성능을 보였다. 또한, 높은 수준의 시각-언어 추론을 요구하는 문제 중 하나인 이미지 캡션 검색에 장면 그래프가 효과적으로 적용될 수 있음을 보이고, 제안하는 알고리즘으로 예측된 술어 표현이 검색 성능을 높이는데 도움이 됨을 확인하였다.
Scene graphs are widely used to express high-order visual relationships between objects present in an image. To generate the scene graph automatically, we propose an algorithm that detects visual relationships between objects and predicts the relationship as a predicate. Inspired by the well-known knowledge graph embedding method TransR, we present the CompTransR algorithm that i) defines latent relational subspaces considering the compositional perspective of visual relationships and ii) encodes predicate representations by applying transitive constraints between the object representations in each subspace. Our proposed model not only reduces computational complexity but also outperformed previous state-of-the-art performance in predicate detection tasks in three benchmark datasets: VRD, VG200, and VrR-VG. We also showed that a scene graph could be applied to the image-caption retrieval task, which is one of the high-level visual reasoning tasks, and the scene graph generated by our model increased retrieval performance.
- Files in This Item
-
Go to Link
- Appears in
Collections - 서울 공과대학 > 서울 컴퓨터소프트웨어학부 > 1. Journal Articles

Items in ScholarWorks are protected by copyright, with all rights reserved, unless otherwise indicated.