Detailed Information

Cited 0 time in webofscience Cited 0 time in scopus
Metadata Downloads

히스토그램 매칭 방식을 이용한 효율적인 전자문서 유사도 분석 방안에 관한 연구open accessA Study on the Efficient Electronic Document Similarity Analysis using Histogram Matching Method

Other Titles
A Study on the Efficient Electronic Document Similarity Analysis using Histogram Matching Method
Authors
김영식백종경박재표
Issue Date
Aug-2022
Publisher
한국산학기술학회
Keywords
Histogram Matching; Binary Imaging; Similarity Analysis; Documents Plagiarism; Paraphrasing
Citation
한국산학기술학회논문지, v.23, no.8, pp.664 - 672
Journal Title
한국산학기술학회논문지
Volume
23
Number
8
Start Page
664
End Page
672
URI
http://scholarworks.bwise.kr/ssu/handle/2018.sw.ssu/42736
DOI
10.5762/KAIS.2022.23.8.664
ISSN
1975-4701
Abstract
지식재산권의 보호가 중요시하게 여겨지는 현대 사회에서 전자문서 유사도 분석은 필수이지만, 여러 상용 소프트웨어는 전자문서 유사도 분석을 인위적으로 회피하면 검출률이 매우 낮아진다. 본 논문에서는 상용 소프트웨어의 기존 분석 방법을 개선하기 위해서 컴퓨터 비전을 활용해 전자문서를 분석한다. 제안 시스템은 전자문서를 문장 단위로 구분하고, 각 문장을 바이너리 이미지로 인식하며, 이렇게 만들어진 이미지를 히스토그램으로 비교 분석할 수 있다. 시료는 총 세 가지 유형으로 분류하였으며, 전자문서 971개 안에 문장 37,960개를 비교 데이터로 활용한다. 세 가지 유형은 어절의 순서만 변형한 유형, 단어의 뜻은 같으나 음절 단위로 단어를 변형한 유형, 비슷한 의미의 단어로 대체한 유형으로 분류한다. 전체적인 평균 수치를 분석하면 제안 시스템을 활용하여 유사도 검사를 했을 때 검출률이 상용 소프트웨어보다 18.3 % 높은 수치를 보였다. 제안 시스템은 추후 전자문서 유사도 분석뿐만 아니라 전자문서의 색인화 및 분류, 서식 인식 등 전자문서가 활용되는 모든 분야에서 활용할 수 있다.
Files in This Item
Go to Link
Appears in
Collections
ETC > 1. Journal Articles

qrcode

Items in ScholarWorks are protected by copyright, with all rights reserved, unless otherwise indicated.

Related Researcher

Researcher PARK, JAE PYO photo

PARK, JAE PYO
Graduate School (Graduate School of Information Sciences)
Read more

Altmetrics

Total Views & Downloads

BROWSE