Earticle

현재 위치 Home

기술

음성 에너지 분포 처리와 에너지 파라미터를 융합한 음성 인식 성능 향상
Voice Recognition Performance Improvement using a convergence of Voice Energy Distribution Process and Parameter

첫 페이지 보기
  • 발행기관
    한국디지털정책학회 바로가기
  • 간행물
    디지털융복합연구 KCI 등재 바로가기
  • 통권
    제13권 제10호 (2015.10)바로가기
  • 페이지
    pp.313-318
  • 저자
    오상엽
  • 언어
    한국어(KOR)
  • URL
    https://www.earticle.net/Article/A256439

※ 기관로그인 시 무료 이용이 가능합니다.

4,000원

원문정보

초록

영어
A traditional speech enhancement methods distort the sound spectrum generated according to estimation of the remaining noise, or invalid noise is a problem of lowering the speech recognition performance. In this paper, we propose a speech detection method that convergence the sound energy distribution process and sound energy parameters. The proposed method was used to receive properties reduce the influence of noise to maximize voice energy. In addition, the smaller value from the feature parameters of the speech signal The log energy features of the interval having a more of the log energy value relative to the region having a large energy similar to the log energy feature of the size of the voice signal containing the noise which reducing the mismatch of the training and the recognition environment recognition experiments Results confirmed that the improved recognition performance are checked compared to the conventional method. Car noise environment of Pause Hit Rate is in the 0dB and 5dB lower SNR region showed an accuracy of 97.1% and 97.3% in the high SNR region 10dB and 15dB 98.3%, showed an accuracy of 98.6%.
한국어
전통적인 음성 향상 방법은 잘못된 잡음의 추정에 따라 남아있는 잡음이 발생하여 음성 스펙트럼을 왜곡하거나 음성 프레임을 찾지 못하여 음성 인식 성능을 저하시키는 문제가 발생된다. 본 논문에서는 음성 에너지 분포 처리와 음성 에너지 파라미터를 융합한 음성 검출 방법을 제안하였다. 제안한 방법은 음성 에너지를 최대화시켜 잡음의 영향을 적게 받는 특성을 이용하였다. 또한, 음성 신호의 특징 파라미터 중에서 작은 값을 가지는 로그에너지 특징의 구간에서는 큰 에너지를 가지는 구간에 비해 상대적으로 로그에너지 값을 더 많이 키워서 잡음이 포함한 음성신호의 로그에너지 특징의 크기와 비슷하게 하여 훈련과 인식 환경의 불일치를 융합으로 인해 줄여준다. 인식 실험 결과 기존 방법에 비해 향상된 인식 성능을 확인할 수 있었으며, car 잡음 환경의 음성 구간 적중률은 낮은 SNR구간인 0dB과 5dB에서는 97.1%와 97.3%의 정확도를 보였으며, 높은 SNR구간인 10dB와 15dB에서는 98.3%, 98.6%의 정확도를 보였다.

목차

요약
 Abstract
 1. 서론
 2. 관련 연구
  2.1 HMM, CHMM, GMM 모델
  2.2 주파수 마스킹
 3. 시스템 모델
  3.1 음성 에너지 분포와 음성 검출
  3.2 음성 에너지 파라미터
 4. 실험 결과
 5. 결론
 REFERENCES

키워드

음성 인식 음성 분포 음성 에너지 파라미터 음성 검출 Voice recognition Voice distribution Voice energy parameter voice detectin

저자

  • 오상엽 [ Sang-Yeob Oh | 가천대학교 IT대학 컴퓨터공학과 ] Corresponding Author

참고문헌

자료제공 : 네이버학술정보

간행물 정보

발행기관

  • 발행기관명
    한국디지털정책학회 [The Society of Digital Policy & Management]
  • 설립연도
    2003
  • 분야
    복합학>과학기술학
  • 소개
    디지털기술 및 산업정책, 디지털경제, 관련 산업의 연구, 전자정부, 디지털정치에 관한 제도적, 정책적 연구, 디지털경영, 전자상거래, e-비즈니스에 관한 실용적 연구, 학술연구지 발간 및 학술대회 개최 등을 통하여 디지털경제 및 디지털경영에 관련되는 국가정책 분야의 연구 및 교류를 촉진하고 국가 및 기업 정보화와 디지털산업의 발전에 공헌한다.

간행물

  • 간행물명
    디지털융복합연구 [Journal of Digital Convergence]
  • 간기
    계간
  • pISSN
    2713-6434
  • eISSN
    2713-6442
  • 수록기간
    2003~2026
  • 등재여부
    KCI 등재후보
  • 십진분류
    KDC 569 DDC 620

이 권호 내 다른 논문 / 디지털융복합연구 제13권 제10호

    피인용수 : 0(자료제공 : 네이버학술정보)

    함께 이용한 논문 이 논문을 다운로드한 분들이 이용한 다른 논문입니다.

      페이지 저장