히스토그램 매칭 방식을 이용한 효율적인 전자문서 유사도 분석 방안에 관한 연구open accessA Study on the Efficient Electronic Document Similarity Analysis using Histogram Matching Method
- Other Titles
- A Study on the Efficient Electronic Document Similarity Analysis using Histogram Matching Method
- Authors
- 김영식; 백종경; 박재표
- Issue Date
- Aug-2022
- Publisher
- 한국산학기술학회
- Keywords
- Histogram Matching; Binary Imaging; Similarity Analysis; Documents Plagiarism; Paraphrasing
- Citation
- 한국산학기술학회논문지, v.23, no.8, pp.664 - 672
- Journal Title
- 한국산학기술학회논문지
- Volume
- 23
- Number
- 8
- Start Page
- 664
- End Page
- 672
- URI
- http://scholarworks.bwise.kr/ssu/handle/2018.sw.ssu/42736
- DOI
- 10.5762/KAIS.2022.23.8.664
- ISSN
- 1975-4701
- Abstract
- 지식재산권의 보호가 중요시하게 여겨지는 현대 사회에서 전자문서 유사도 분석은 필수이지만, 여러 상용 소프트웨어는 전자문서 유사도 분석을 인위적으로 회피하면 검출률이 매우 낮아진다. 본 논문에서는 상용 소프트웨어의 기존 분석 방법을 개선하기 위해서 컴퓨터 비전을 활용해 전자문서를 분석한다. 제안 시스템은 전자문서를 문장 단위로 구분하고, 각 문장을 바이너리 이미지로 인식하며, 이렇게 만들어진 이미지를 히스토그램으로 비교 분석할 수 있다. 시료는 총 세 가지 유형으로 분류하였으며, 전자문서 971개 안에 문장 37,960개를 비교 데이터로 활용한다. 세 가지 유형은 어절의 순서만 변형한 유형, 단어의 뜻은 같으나 음절 단위로 단어를 변형한 유형, 비슷한 의미의 단어로 대체한 유형으로 분류한다. 전체적인 평균 수치를 분석하면 제안 시스템을 활용하여 유사도 검사를 했을 때 검출률이 상용 소프트웨어보다 18.3 % 높은 수치를 보였다. 제안 시스템은 추후 전자문서 유사도 분석뿐만 아니라 전자문서의 색인화 및 분류, 서식 인식 등 전자문서가 활용되는 모든 분야에서 활용할 수 있다.
- Files in This Item
-
Go to Link
- Appears in
Collections - ETC > 1. Journal Articles
Items in ScholarWorks are protected by copyright, with all rights reserved, unless otherwise indicated.