임베딩 모델을 활용한 텍스트 분류 실험 연구

정종균; 강한훈; 장진희; 신용태

216.73.216.207

개인회원 가입

개인회원
기관회원

개인회원 로그인

개인회원 가입으로 더욱 편리하게 이용하세요. 개인회원 가입

아이디/비밀번호를 잊으셨나요? 아이디/비밀번호 찾기

기관회원 로그인

소속기관에서 검색되지 않는 기관은 무료원문다운이 불가능합니다. 개인회원 가입 후 유료구매를 하시거나 소속기관 도서관에 이용문의해 주세요.

Home

임베딩 모델을 활용한 텍스트 분류 실험 연구
Experimental Study on Text Classification Using Embedding Models

발행기관

한국융합보안학회 바로가기
간행물

융합보안논문지 KCI 등재 바로가기
통권

제24권 제4호 (2024.10)바로가기
페이지

pp.109-116
저자

정종균, 강한훈, 장진희, 신용태
언어

한국어(KOR)
URL

https://www.earticle.net/Article/A458102

※ 기관로그인 시 무료 이용이 가능합니다.

4,000원

원문정보

초록

영어: This paper presents an experiment comparing the performance of sparse vectors, such as those based on Term Frequency-Inverse Document Frequency (TF-IDF), with dense vectors computed through embedding models in text classification tasks. Traditionally, sparse vectors using TF-IDF have been commonly applied in conventional machine learning algorithms such as Support Vector Machines (SVM) and Random Forest. However, with the recent advancements in embedding models, the level of semantic understanding of sentences has significantly improved, and these models have been increasingly employed for solving domain-specific problems. In this study, we calculate dense vector representations using embedding models and apply them as feature values to traditional machine learning algorithms. The experiment was conducted using a spam/non-spam email dataset, and we validated the models through 10-fold cross-validation, utilizing five embedding models and four classification algorithms. The experimental results demonstrate a 2.6% improvement in the F-score when applying dense vectors with SVM, compared to using sparse vectors. This confirms the effectiveness of dense vectors generated by embedding models in text classification tasks.

한국어: 본 논문에서는 텍스트 분류 작업에서 TF-IDF(Term Frequency-Inverse Document Frequency)와 같은 희소 벡터(sparse vector)와 임베딩 모델을 통해 계산하는 밀집 벡터(dense vector)의 성능 차이를 비교하기 위해 실험을 수행한다. 과거에는 SVM, RandomForest와 같은 전통적인 머신 러닝 알고리즘에 TF-IDF 기반의 희소 벡터를 주로 사용하였으나, 최근에는 임베딩 모델의 발전으로 문장의 의미적 이해의 수준이 높아져 도메인별 문제 해결에 많이 활용되어 오고 있다. 본 논문에서는 임베딩 모델을 활 용하여 밀집 벡터 값을 계산하고, 이를 특징 값으로 하여 전통적인 머신러닝 알고리즘에 적용하여 실험을 수행하였다. 실험 데이 터 셋으로는 이메일 스팸/비스팸 데이터셋을 사용하였고, 5가지의 임베딩 모델과 4가지 분류 알고리즘으로 10 폴드 교차 검증 (10-fold cross validation)으로 검증하였다. 실험 결과에서 SVM에 희소 벡터 값을 사용했을 때 보다, SVM에 밀집 벡터 값을 사 용했을 때, F-Score 기준으로 2.6%의 향상이 있었다. 이로써 텍스트 분류에 있어 임베딩 모델을 활용한 밀집 벡터가 효과가 있 음을 알아냈다.

키워드

Text Classification Embedding Models Dense Vector Sparse Vector Spam Filtering

저자

정종균 [ Jong-Kyun Jung | 숭실대학교 IT정책경영학과 ]
강한훈 [ Hanhoon Kang | 세종대학교 컴퓨터공학과 ]
장진희 [ Jin-Hee Jang | 숭실대학교 IT정책경영학과 ]
신용태 [ Yong-Tae Shin | 숭실대학교 컴퓨터학부 ] 교신저자

참고문헌

자료제공 : 네이버학술정보

간행물 정보

발행기관

발행기관명

한국융합보안학회 [Korea Information Assurance Society]
설립연도
2001
분야
공학>전자/정보통신공학
소개
본 학회는 사이버테러 및 정보전에 관한 학문연구ㆍ기술 개발ㆍ기반 구축을 도모하고 국내ㆍ외 관계기관과 학술교류와 정보교환을 통하여 회원 상호간의 전문지식을 배양하고, 궁극적으로는 국가 중요 정보기반구조를 보호함을 그 목적으로 한다.

간행물

간행물명

융합보안논문지 [Jouranl of Information and Security]
간기
연5회
pISSN
1598-7329
수록기간
2001~2026
등재여부
KCI 등재
십진분류
KDC 005 DDC 005

이 권호 내 다른 논문 / 융합보안논문지 제24권 제4호

피인용수 : 0건 (자료제공 : 네이버학술정보)

함께 이용한 논문 이 논문을 다운로드한 분들이 이용한 다른 논문입니다.

출처 : 네이버학술정보

0개의 논문이 장바구니에 담겼습니다.

페이지 저장

소속기관 조회

이용자님의 소속기관(단체)이 서비스에 가입되어 있는지 확인해 보십시오.
기관회원에 소속되어 있는 이용자는 원문을 무료로 이용할 수 있습니다.

상호: 주식회사 학술교육원 I 대표: 노방용 I 사업자등록번호: 122-81-88227 I 통신판매업신고번호: 제2008-인천부평-00176호 I 정보보호책임자: 이두영
주소: (21319)인천광역시 부평구 영성중로 50 미래타워 701호 I 전화: 0505-555-0740 I 팩스: 0505-555-0741 I 이메일: earticle@earticle.net

음성지원 및 돋보기 서비스

Earticle

임베딩 모델을 활용한 텍스트 분류 실험 연구
Experimental Study on Text Classification Using Embedding Models

원문정보

초록

목차

키워드

저자

참고문헌

간행물 정보

발행기관

간행물

이 권호 내 다른 논문 / 융합보안논문지 제24권 제4호

피인용수 : 0건 (자료제공 : 네이버학술정보)

함께 이용한 논문 이 논문을 다운로드한 분들이 이용한 다른 논문입니다.

Earticle

임베딩 모델을 활용한 텍스트 분류 실험 연구 Experimental Study on Text Classification Using Embedding Models

원문정보

초록

목차

키워드

저자

참고문헌

간행물 정보

발행기관

간행물

이 권호 내 다른 논문 / 융합보안논문지 제24권 제4호

피인용수 : 0건 (자료제공 : 네이버학술정보)

함께 이용한 논문 이 논문을 다운로드한 분들이 이용한 다른 논문입니다.

임베딩 모델을 활용한 텍스트 분류 실험 연구
Experimental Study on Text Classification Using Embedding Models