Earticle

현재 위치 Home

기술

발화구간 검출을 위해 학습된 CNN 기반 입 모양 인식 방법
Lip Reading Method Using CNN for Utterance Period Detection

첫 페이지 보기
  • 발행기관
    한국디지털정책학회 바로가기
  • 간행물
    디지털융복합연구 KCI 등재 바로가기
  • 통권
    제14권 제8호 (2016.08)바로가기
  • 페이지
    pp.233-243
  • 저자
    김용기, 임종관, 김미혜
  • 언어
    한국어(KOR)
  • URL
    https://www.earticle.net/Article/A283056

※ 기관로그인 시 무료 이용이 가능합니다.

4,200원

원문정보

초록

영어
Due to speech recognition problems in noisy environment, Audio Visual Speech Recognition (AVSR) system, which combines speech information and visual information, has been proposed since the mid-1990s,. and lip reading have played significant role in the AVSR System. This study aims to enhance recognition rate of utterance word using only lip shape detection for efficient AVSR system. After preprocessing for lip region detection, Convolution Neural Network (CNN) techniques are applied for utterance period detection and lip shape feature vector extraction, and Hidden Markov Models (HMMs) are then used for the recognition. As a result, the utterance period detection results show 91% of success rates, which are higher performance than general threshold methods. In the lip reading recognition, while user-dependent experiment records 88.5%, user-independent experiment shows 80.2% of recognition rates, which are improved results compared to the previous studies.
한국어
소음환경에서의 음성인식 문제점으로 인해 1990년대 중반부터 음성정보와 영상정보를 결합한 AVSR(Audio Visual Speech Recognition) 시스템이 제안되었고, Lip Reading은 AVSR 시스템에서 시각적 특징으로 사용되었다. 본 연구는 효율적인 AVSR 시스템을 구축하기 위해 입 모양만을 이용한 발화 단어 인식률을 극대화하는데 목적이 있다. 본 연구에서는 입 모양 인식을 위해 실험단어를 발화한 입력 영상으로부터 영상의 전처리 과정을 수행하고 입술 영역을 검출 한다. 이후 DNN(Deep Neural Network)의 일종인 CNN(Convolution Neural Network)을 이용하여 발화구간을 검출하고, 동일한 네트워크를 사용하여 입 모양 특징 벡터를 추출하여 HMM(Hidden Markov Model)으로 인식 실험을 진행하였다. 그 결과 발화구간 검출 결과는 91%의 인식률을 보임으로써 Threshold를 이용한 방법에 비해 높은 성능을 나타냈다. 또한 입모양 인식 실험에서 화자종속 실험은 88.5%, 화자 독립 실험은 80.2%로 이전 연구들에 비해 높은 결과를 보였다.

목차

요약
 Abstract
 1. 서론
 2. 이전 연구들의 분석
 3. 발화구간 검출 CNN을 이용한 입 모양 인식 방법
  3.1 전처리 및 입술 영역 검출
  3.2 발화구간 검출
  3.3 CNN을 이용한 특징 생성 및 인식
 4. 실험 및 결과
  4.1 실험 DB
  4.2 실험 내용
  4.3 실험 결과
 5. 결론
 REFERENCES

키워드

이미지 프로세싱 시청각음성인식 입모양 인식 발화구간검출 심화신경망 Image Processing AVSR Lip Reading Motion Segmentation DNN

저자

  • 김용기 [ Kim Yong-Ki | 충북대학교 컴퓨터공학과 ]
  • 임종관 [ Jong Gwan Lim | KAIST ]
  • 김미혜 [ Mi-Hye Kim | 충북대학교 컴퓨터공학과 ] Corresponding author

참고문헌

자료제공 : 네이버학술정보

간행물 정보

발행기관

  • 발행기관명
    한국디지털정책학회 [The Society of Digital Policy & Management]
  • 설립연도
    2003
  • 분야
    복합학>과학기술학
  • 소개
    디지털기술 및 산업정책, 디지털경제, 관련 산업의 연구, 전자정부, 디지털정치에 관한 제도적, 정책적 연구, 디지털경영, 전자상거래, e-비즈니스에 관한 실용적 연구, 학술연구지 발간 및 학술대회 개최 등을 통하여 디지털경제 및 디지털경영에 관련되는 국가정책 분야의 연구 및 교류를 촉진하고 국가 및 기업 정보화와 디지털산업의 발전에 공헌한다.

간행물

  • 간행물명
    디지털융복합연구 [Journal of Digital Convergence]
  • 간기
    계간
  • pISSN
    2713-6434
  • eISSN
    2713-6442
  • 수록기간
    2003~2026
  • 등재여부
    KCI 등재후보
  • 십진분류
    KDC 569 DDC 620

이 권호 내 다른 논문 / 디지털융복합연구 제14권 제8호

    피인용수 : 0(자료제공 : 네이버학술정보)

    함께 이용한 논문 이 논문을 다운로드한 분들이 이용한 다른 논문입니다.

      페이지 저장