Detailed Information

Cited 0 time in webofscience Cited 0 time in scopus
Metadata Downloads

비구조화 문서에서 위치 정보를 활용한 멀티모달 이미지 검색 기법Multimodal Image Retrieval Method Using Positional Information in Unstructured Documents

Other Titles
Multimodal Image Retrieval Method Using Positional Information in Unstructured Documents
Authors
이동호
Issue Date
Dec-2024
Publisher
한국정보과학회
Citation
2024 한국소프트웨어종합학술대회 (KSC2024), pp 1508 - 1510
Pages
3
Indexed
DOMESTIC
Journal Title
2024 한국소프트웨어종합학술대회 (KSC2024)
Start Page
1508
End Page
1510
URI
https://scholarworks.bwise.kr/erica/handle/2021.sw.erica/125421
Abstract
본 연구는 멀티모달 검색 증강(Multimodal Retrieval-Augmented Generation, MRAG) 시스템에서 사용자의 질문과 관련된 이미지를 정확하게 검색하는 문제를 다룬다. 특히, 제품 사용설명서와 같은 문서에서는 텍스트와 이미지를 함께 이해해야 하므로, 관련 이미지 검색이 매우 중요하다. 기존 멀티모달 검색 기법은 표나 차트와 같은 구조적 데이터를 잘 처리하지만, 사용설명서의 기계 조작법이나 설치 가이드 사진과 같은 구조화되지 않고, 유사한 이미지를 많이 포함하고 있는 문서에서 이미지를 정확하게 검색하는 데에는 한계가 있다. 본 연구는 이러한 문제를 해결하기 위해 문서 내 텍스트와 이미지의 위치 정보(bbox)를 활용하는 방법을 제안한다. 문서 내 텍스트와 이미지가 물리적으로 가까운 위치에 배치되는 특성을 고려하여, 위치 정보를 기반으로 이미지와 텍스트를 매치하여 검색하는 접근 방식을 제시한다. 실험 결과, 이 방법은 기존 멀티모달 모델에 비해 비구조화된 문서에 대해 더 높은 정확도의 이미지 검색 성능을 보임을 확인했다.
Files in This Item
There are no files associated with this item.
Appears in
Collections
COLLEGE OF COMPUTING > DEPARTMENT OF ARTIFICIAL INTELLIGENCE > 1. Journal Articles

qrcode

Items in ScholarWorks are protected by copyright, with all rights reserved, unless otherwise indicated.

Related Researcher

Researcher Lee, Dong Ho photo

Lee, Dong Ho
ERICA 소프트웨어융합대학 (DEPARTMENT OF ARTIFICIAL INTELLIGENCE)
Read more

Altmetrics

Total Views & Downloads

BROWSE