Earticle

현재 위치 Home

CNN(Convolutional Neural Network) 알고리즘을 활용한 음성신호 중 비음성 구간 탐지 모델 연구
A Study on a Non-Voice Section Detection Model among Speech Signals using CNN Algorithm

첫 페이지 보기
  • 발행기관
    중소기업융합학회 바로가기
  • 간행물
    융합정보논문지(구 중소기업융합학회논문지) KCI 등재 바로가기
  • 통권
    제11권 제6호 (2021.06)바로가기
  • 페이지
    pp.33-39
  • 저자
    이후영
  • 언어
    한국어(KOR)
  • URL
    https://www.earticle.net/Article/A395868

※ 기관로그인 시 무료 이용이 가능합니다.

4,000원

원문정보

초록

영어
Speech recognition technology is being combined with deep learning and is developing at a rapid pace. In particular, voice recognition services are connected to various devices such as artificial intelligence speakers, vehicle voice recognition, and smartphones, and voice recognition technology is being used in various places, not in specific areas of the industry. In this situation, research to meet high expectations for the technology is also being actively conducted. Among them, in the field of natural language processing (NLP), there is a need for research in the field of removing ambient noise or unnecessary voice signals that have a great influence on the speech recognition recognition rate. Many domestic and foreign companies are already using the latest AI technology for such research. Among them, research using a convolutional neural network algorithm (CNN) is being actively conducted. The purpose of this study is to determine the non-voice section from the user's speech section through the convolutional neural network. It collects the voice files (wav) of 5 speakers to generate learning data, and utilizes the convolutional neural network to determine the speech section and the non-voice section. A classification model for discriminating speech sections was created. Afterwards, an experiment was conducted to detect the non-speech section through the generated model, and as a result, an accuracy of 94% was obtained.
한국어
음성인식 기술은 딥러닝과 결합되며 빠른 속도로 발전하고 있다. 특히 음성인식 서비스가 인공지능 스피커, 차량 용 음성인식, 스마트폰 등의 각종 기기와 연결되며 음성인식 기술이 산업의 특정 분야가 아닌 다양한 곳에 활용되고 있다. 이러한 상황에서 해당 기술에 대한 높은 기대 수준을 맞추기 위한 연구 역시 활발히 진행되고 있다. 그중에서 자연어처리 (NLP, Natural Language Processing)분야에서 음성인식 인식률에 많은 영향을 주는 주변의 소음이나 불필요한 음성신 호를 제거하는 분야에 연구가 필요한 상황이다. 이미 많은 국내외 기업에서 이러한 연구를 위해 최신의 인공지능 기술을 활용하고 있다. 그중에서 합성곱신경망 알고리즘(CNN)을 활용한 연구가 활발하게 진행되고 있다. 본 연구의 목적은 합성 곱 신경망을 통해서 사용자의 발화구간에서 비음성 구간을 판별하는 것으로 5명의 발화자의 음성파일(wav)을 수집하여 학습용 데이터를 생성하고 이를 합성곱신경망을 활용하여 음성 구간과 비음성 구간을 판별하는 분류 모델을 생성하였다. 이후 생성된 모델을 통해 비음성 구간을 탐지하는 실험을 진행한 결과 94%의 정확도를 얻었다.

목차

요약
Abstract
1. 서론
1.1 연구의 동기
1.2 연구 목적 및 방법
2. 관련연구
2.1. 합성곱 신경망
2.2. WAV(Waveform Audio File Format)
3. 제안 모델
3.1 연구 프로세스
3.2 음성/비음성 신호의 특징
3.3 신경망 모델 구성
4. 실험 및 고찰
5. 결론 및 향후 연구 방향
REFERENCES

키워드

음성인식 딥러닝 합성곱신경망 인공지능 NLP Speech Recognition Deep-Learning CNN Artificial-Intelligence NLP

저자

  • 이후영 [ Hoo-Young Lee | 이르테크 기업부설연구소 ] Corresponding Author

참고문헌

자료제공 : 네이버학술정보

간행물 정보

발행기관

  • 발행기관명
    중소기업융합학회 [Convergence Society for SMB]
  • 설립연도
    2011
  • 분야
    공학>공학일반
  • 소개
    본 회는 정보기술을 다양한 산업 분야에 융합하는 정책 및 관련 기술들을 개발하고 보급함으로써 중소기업 발전은 물론 이를 통한 국가발전과 국제협력 증진에 기여하고자 한다.

간행물

  • 간행물명
    융합정보논문지(구 중소기업융합학회논문지) [Journal of Convergence for Information Technology]
  • 간기
    월간
  • pISSN
    2586-1816
  • eISSN
    2586-4440
  • 수록기간
    2011~2022
  • 십진분류
    KDC 004 DDC 004

이 권호 내 다른 논문 / 융합정보논문지(구 중소기업융합학회논문지) 제11권 제6호

    피인용수 : 0(자료제공 : 네이버학술정보)

    함께 이용한 논문 이 논문을 다운로드한 분들이 이용한 다른 논문입니다.

      페이지 저장