시간 및 주파수 영역 특징 기반 양방향 LSTM 모델을 이용한 음성감정인식 기법

민동진; 김덕환

216.73.216.95

개인회원 가입

개인회원
기관회원

개인회원 로그인

개인회원 가입으로 더욱 편리하게 이용하세요. 개인회원 가입

아이디/비밀번호를 잊으셨나요? 아이디/비밀번호 찾기

기관회원 로그인

소속기관에서 검색되지 않는 기관은 무료원문다운이 불가능합니다. 개인회원 가입 후 유료구매를 하시거나 소속기관 도서관에 이용문의해 주세요.

Home

시간 및 주파수 영역 특징 기반 양방향 LSTM 모델을 이용한 음성감정인식 기법
Speech Emotion Recognition using Time and Frequency Domain Feature based Bidirectional LSTM Model

발행기관

한국차세대컴퓨팅학회 바로가기
간행물

한국차세대컴퓨팅학회 논문지 KCI 등재 바로가기
통권

Vol.19 No.6 (2023.12)바로가기
페이지

pp.18-29
저자

민동진, 김덕환
언어

한국어(KOR)
URL

https://www.earticle.net/Article/A441131

원문정보

초록

영어: Currently, various studies are actively underway to understand emotional states in speech, recognizing emotional features such as emphasis, pitch changes, and context. This paper aims to develop a neural network model that extracts various features from the time and frequency domains in speech data and recognizes emotions through emphasis and pitch changes. To prevent underfitting and overfitting due to limited datasets, data augmentation techniques commonly used in computer vision were applied. Additionally, preprocessing of the speech data was performed and the time domain features such as Zero Crossing Rate(ZCR) and Root Mean Square(RMS) energy were extracted. Similarly, the frequency domain spectral features such as Mel-frequency cepstral coefficients(MFCCs), Spectral Bandwidth, Spectral Centroid, and Spectral Rolloff Max and Min were extracted. To effectively handle discontinuous speech data by storing past and future information, a bidirectional LSTM model was proposed. On the RAVDESS dataset, which includes eight types of emotional expressions(neutral, calm, happy, sad, angry, fearful, disgusted, surprised), and the TESS dataset, which includes seven types of emotional expressions(neutral, happy, sad, angry, fearful, disgusted, surprised), we confirmed accuracies of 99.21% and 98.24%, respectively. In future research, we plan to address one of the major challenges in the field of speech emotion recognition, the scarcity of datasets, by utilizing meta-learning techniques.

한국어: 현재 음성에서 감정 상태를 이해하기 위해 강조, 음높이 변화 및 맥락과 같은 감정적 특징을 인식하는 다양한 음성 감정인식(Speech Emotion Recognition)연구가 활성화 되고 있다. 본 논문은 음성 데이터에서 감정적 단서를 찾 기 위해 시간 영역과 주파수 영역의 다양한 특징을 추출하고 강조, 음높이 변화를 통해 감정을 인식하는 신경망 모 델을 개발하고자 한다. 부족한 데이터 셋으로 인한 과대적합을 예방하기 위해 컴퓨터 비전 분야에서 활용되는 데이 터 증강 기법을 적용하였다. 또한 음성 데이터의 전처리를 수행하고 시간 영역에서 ZCR(Zero Crossing Rate)과 RMS(Root Mean Square) 에너지 특징을 추출하였고 주파수 영역에서 MFCC(Mel-Frequency Cepstral Coefficient), 주파수 대역폭(Spectral Bandwidth), 주파수 중심(Spectral Centroid), 주파수 롤오프의 최대, 최소 값(Spectral Rolloff Max and Min) 같은 스펙트럴 특징을 추출하였다. 과거와 미래의 정보를 저장할 수 있 어 불연속적인 음성 데이터의 과거와 미래의 정보를 효과적으로 학습할 수 있는 양방향 LSTM 신경망 모델을 제안 하였으며, 8가지 감정표현(중립, 차분함, 행복, 슬픔, 분노, 두려움, 혐오, 놀람)이 포함되어 있는 RAVDESS와 7 가지 감정표현(중립, 행복, 슬픔, 분노, 두려움, 혐오, 놀람)이 포함되어 있는 TESS 데이터 셋에 대하여 각각 99.21%, 98.24%의 정확도를 확인하였다. 향후 연구에서는 음성 감정 인식 분야의 주요 어려움 중 하나인 적은 데이터 셋 문제를 메타러닝 기법을 활용하여 해결할 계획이다.

요약
Abstract
1. 서론
2. 관련연구
3. 제안한 방법
3.1. 데이터 증강
3.2. 데이터 전처리
3.3. 특징 추출
3.4. SER을 위해 제안한 Bi-LSTM 모델
4. 실험 결과
4.1 데이터 셋
4.2 전처리
4.3 시간 및 주파수 영역의 특징 추출
4.4 실험 결과
5. 결론
Acknowledgements
참고문헌

키워드

음성 감정 인식 컴퓨터 상호 작용 데이터 증강 시간 및 주파수 특징 양방향 LSTM Speech emotion recognition human-computer interaction data augmentation time and frequency domain features Bidirectional LSTM

저자

민동진 [ Dong Jin Min | 인하대학교 전기컴퓨터공학과, 전자공학과 ]
김덕환 [ Deok-Hwan Kim | 인하대학교 전기컴퓨터공학과, 전자공학과 ] 교신저자

참고문헌

자료제공 : 네이버학술정보

간행물 정보

발행기관

발행기관명

한국차세대컴퓨팅학회 [Korean Institute of Next Generation Computing]
설립연도
2005
분야
공학>컴퓨터학
소개
본 학회는 차세대 PC 및 그 관련분야의 학술활동을 통하여 차세대 PC의 학문 및 기술발전을 도모하고 산업발전 및 국제협력 증진을 목적으로 한다.

간행물

간행물명

한국차세대컴퓨팅학회 논문지 [THE JOURNAL OF KOREAN INSTITUTE OF NEXT GENERATION COMPUTING]
간기
격월간
pISSN
1975-681X
수록기간
2005~2026
등재여부
KCI 등재
십진분류
KDC 566 DDC 004

이 권호 내 다른 논문 / 한국차세대컴퓨팅학회 논문지 Vol.19 No.6

피인용수 : 0건 (자료제공 : 네이버학술정보)

함께 이용한 논문 이 논문을 다운로드한 분들이 이용한 다른 논문입니다.

출처 : 네이버학술정보

0개의 논문이 장바구니에 담겼습니다.

페이지 저장

소속기관 조회

이용자님의 소속기관(단체)이 서비스에 가입되어 있는지 확인해 보십시오.
기관회원에 소속되어 있는 이용자는 원문을 무료로 이용할 수 있습니다.

상호: 주식회사 학술교육원 I 대표: 노방용 I 사업자등록번호: 122-81-88227 I 통신판매업신고번호: 제2008-인천부평-00176호 I 정보보호책임자: 이두영
주소: (21319)인천광역시 부평구 영성중로 50 미래타워 701호 I 전화: 0505-555-0740 I 팩스: 0505-555-0741 I 이메일: earticle@earticle.net

음성지원 및 돋보기 서비스

Earticle

시간 및 주파수 영역 특징 기반 양방향 LSTM 모델을 이용한 음성감정인식 기법
Speech Emotion Recognition using Time and Frequency Domain Feature based Bidirectional LSTM Model

원문정보

초록

목차

키워드

저자

참고문헌

간행물 정보

발행기관

간행물

이 권호 내 다른 논문 / 한국차세대컴퓨팅학회 논문지 Vol.19 No.6

피인용수 : 0건 (자료제공 : 네이버학술정보)

함께 이용한 논문 이 논문을 다운로드한 분들이 이용한 다른 논문입니다.

Earticle

시간 및 주파수 영역 특징 기반 양방향 LSTM 모델을 이용한 음성감정인식 기법 Speech Emotion Recognition using Time and Frequency Domain Feature based Bidirectional LSTM Model

원문정보

초록

목차

키워드

저자

참고문헌

간행물 정보

발행기관

간행물

이 권호 내 다른 논문 / 한국차세대컴퓨팅학회 논문지 Vol.19 No.6

피인용수 : 0건 (자료제공 : 네이버학술정보)

함께 이용한 논문 이 논문을 다운로드한 분들이 이용한 다른 논문입니다.

시간 및 주파수 영역 특징 기반 양방향 LSTM 모델을 이용한 음성감정인식 기법
Speech Emotion Recognition using Time and Frequency Domain Feature based Bidirectional LSTM Model