Detailed Information

Cited 0 time in webofscience Cited 0 time in scopus
Metadata Downloads

언어 모델 기반 음성 특징 추출을 활용한 생성 음성 탐지Voice Synthesis Detection Using Language Model-Based Speech Feature Extraction

Other Titles
Voice Synthesis Detection Using Language Model-Based Speech Feature Extraction
Authors
김승민박소희최대선
Issue Date
Jun-2024
Publisher
한국정보보호학회
Keywords
BERT; Audio codec; Voice Features Extraction; Speech Synthesis; Generated voice detection
Citation
정보보호학회논문지, v.34, no.3, pp 439 - 449
Pages
11
Journal Title
정보보호학회논문지
Volume
34
Number
3
Start Page
439
End Page
449
URI
https://scholarworks.bwise.kr/ssu/handle/2018.sw.ssu/49833
DOI
10.13089/JKIISC.2024.34.3.439
ISSN
1598-3986
2288-2715
Abstract
최근 음성 생성 기술의 급격한 발전으로, 텍스트만으로도 자연스러운 음성 합성이 가능해졌다. 이러한 발전은 타인의 음성을 생성하여 범죄에 이용하는 보이스피싱과 같은 악용 사례를 증가시키는 결과를 낳고 있다. 음성 생성 여부를 탐지하는 모델은 많이 개발되고 있으며, 일반적으로 음성의 특징을 추출하고 이러한 특징을 기반으로 음성 생성 여부를 탐지한다. 본 논문은 생성 음성으로 인한 악용 사례에 대응하기 위해 새로운 음성 특징 추출 모델을 제안한다. 오디오를 입력으로 받는 딥러닝 기반 오디오 코덱 모델과 사전 학습된 자연어 처리 모델인 BERT를 사용하여 새로운 음성 특징 추출 모델을 제안하였다. 본 논문이 제안한 음성 특징 추출 모델이 음성 탐지에 적합한지 확인하기 위해 추출된 특징을 활용하여 4가지 생성 음성 탐지 모델을 만들어 성능평가를 진행하였다. 성능 비교를 위해 기존 논문에서 제안한 Deepfeature 기반의 음성 탐지 모델 3개와 그 외 모델과 정확도 및 EER을 비교하였다. 제안한 모델은 88.08%로 기존 모델보다 높은 정확도와 11.79%의 낮은 EER을 보였다. 이를 통해 본 논문에서 제안한 음성 특징 추출 방법이 생성 음성과 실제 음성을 판별하는 효과적인 도구로 사용될 수 있음을 확인하였다.
Files in This Item
Go to Link
Appears in
Collections
College of Information Technology > School of Software > 1. Journal Articles

qrcode

Items in ScholarWorks are protected by copyright, with all rights reserved, unless otherwise indicated.

Related Researcher

Researcher Choi, Daeseon photo

Choi, Daeseon
College of Information Technology (School of Software)
Read more

Altmetrics

Total Views & Downloads

BROWSE