SimKoR: 한국어 리뷰 데이터를 활용한 문장 유사도 데이터셋 제안 및 대조학습에서의 활용 방안
DC Field | Value | Language |
---|---|---|
dc.contributor.author | 김재민 | - |
dc.contributor.author | 나요한 | - |
dc.contributor.author | 김강민 | - |
dc.contributor.author | 이상락 | - |
dc.contributor.author | 채동규 | - |
dc.date.accessioned | 2023-08-07T07:50:57Z | - |
dc.date.available | 2023-08-07T07:50:57Z | - |
dc.date.created | 2023-07-20 | - |
dc.date.issued | 2022-10 | - |
dc.identifier.uri | https://scholarworks.bwise.kr/hanyang/handle/2021.sw.hanyang/188943 | - |
dc.description.abstract | 최근 자연어 처리 분야에서 문맥적 의미를 반영하기 위한 대조학습 (contrastive learning) 에 대한 연구가 활발히이뤄지고 있다. 이 때 대조학습을 위한 양질의 학습 (training) 데이터와 검증 (validation) 데이터를 이용하는 것이 중요하다. 그러나 한국어의 경우 대다수의 데이터셋이 영어로 된 데이터를 한국어로 기계 번역하여 검토 후제공되는 데이터셋 밖에 존재하지 않는다. 이는 기계번역의 성능에 의존하는 단점을 갖고 있다. 본 논문에서는한국어 리뷰 데이터로 임베딩의 의미 반영 정도를 측정할 수 있는 간단한 검증 데이터셋 구축 방법을 제안하고,이를 활용한 데이터셋인 SimKoR (Similarity Korean Review dataset) 을 제안한다. 제안하는 검증 데이터셋을 이용해서 대조학습을 수행하고 효과성을 보인다. | - |
dc.language | 한국어 | - |
dc.language.iso | ko | - |
dc.publisher | 한국정보과학회 | - |
dc.title | SimKoR: 한국어 리뷰 데이터를 활용한 문장 유사도 데이터셋 제안 및 대조학습에서의 활용 방안 | - |
dc.type | Article | - |
dc.contributor.affiliatedAuthor | 채동규 | - |
dc.identifier.bibliographicCitation | 제34회 한글 및 한국어 정보처리 학술대회 (HCLT 2022), pp.245 - 248 | - |
dc.relation.isPartOf | 제34회 한글 및 한국어 정보처리 학술대회 (HCLT 2022) | - |
dc.citation.title | 제34회 한글 및 한국어 정보처리 학술대회 (HCLT 2022) | - |
dc.citation.startPage | 245 | - |
dc.citation.endPage | 248 | - |
dc.type.rims | ART | - |
dc.type.docType | Proceeding | - |
dc.description.journalClass | 3 | - |
dc.description.isOpenAccess | N | - |
dc.description.journalRegisteredClass | other | - |
dc.subject.keywordAuthor | 자연어처리 | - |
dc.subject.keywordAuthor | 대조학습 | - |
dc.subject.keywordAuthor | 평가지표 | - |
dc.subject.keywordAuthor | 감정분석 | - |
dc.subject.keywordAuthor | 평가 데이터셋 | - |
dc.identifier.url | http://www.hclt.kr/symp/?lnb=conference | - |
Items in ScholarWorks are protected by copyright, with all rights reserved, unless otherwise indicated.
222, Wangsimni-ro, Seongdong-gu, Seoul, 04763, Korea+82-2-2220-1365
COPYRIGHT © 2021 HANYANG UNIVERSITY.
Certain data included herein are derived from the © Web of Science of Clarivate Analytics. All rights reserved.
You may not copy or re-distribute this material in whole or in part without the prior written consent of Clarivate Analytics.