Earticle

현재 위치 Home

Back TranScription(BTS)기반 데이터 구축 검증 연구
A Study on Verification of Back TranScription(BTS)-based Data Construction

첫 페이지 보기
  • 발행기관
    한국융합학회 바로가기
  • 간행물
    한국융합학회논문지 KCI 등재 바로가기
  • 통권
    제12권 제11호 (2021.11)바로가기
  • 페이지
    pp.109-117
  • 저자
    박찬준, 서재형, 이설화, 문현석, 어수경, 임희석
  • 언어
    한국어(KOR)
  • URL
    https://www.earticle.net/Article/A403158

※ 기관로그인 시 무료 이용이 가능합니다.

4,000원

원문정보

초록

영어
Recently, the use of speech-based interfaces is increasing as a means for human-computer interaction (HCI). Accordingly, interest in post-processors for correcting errors in speech recognition results is also increasing. However, a lot of human-labor is required for data construction. in order to manufacture a sequence to sequence (S2S) based speech recognition post-processor. To this end, to alleviate the limitations of the existing construction methodology, a new data construction method called Back TranScription (BTS) was proposed. BTS refers to a technology that combines TTS and STT technology to create a pseudo parallel corpus. This methodology eliminates the role of a phonetic transcriptor and can automatically generate vast amounts of training data, saving the cost. This paper verified through experiments that data should be constructed in consideration of text style and domain rather than constructing data without any criteria by extending the existing BTS research.
한국어
최근 인간과 컴퓨터의 상호작용(HCI)을 위한 수단으로 음성기반 인터페이스의 사용률이 높아지고 있다. 이에 음성인식 결과에 오류를 교정하기 위한 후처리기에 대한 관심 또한 높아지고 있다. 그러나 sequence to sequence(S2S)기반의 음성인식 후처리기를 제작하기 위해서는 데이터 구축을 위해 human-labor가 많이 소요된다. 최근 기존의 구축 방법론의 한계를 완화하기 위하여 음성인식 후처리기를 위한 새로운 데이터 구축 방법론인 Back TranScription(BTS)이 제안되었다. BTS란 TTS와 STT 기술을 결합하여 pseudo parallel corpus를 생성하는 기술을 의미한다. 해당 방법론은 전사자(phonetic transcriptor)의 역할을 없애고 방대한 양의 학습 데이터를 자동으로 생성 할 수 있기에 데이터 구축에 있어서 시간과 비용을 단축할 수 있다. 본 논문은 기존의 BTS 연구를 확장하여 어떠한 기준 없이 데이터를 구축하는 것보다 어투와 도메인을 고려하여 데이터 구축을 해야함을 실험을 통해 검증을 진행하였다.

목차

요약
Abstract
1. 서론
2. 음성인식 후처리기 연구
3. 음성인식 서비스의 4대 한계점
4. Back TranScription(BTS) 이란?
5. 실험 및 실험결과
5.1 데이터
5.2 모델
5.3 도메인을 고려한 실험
5.4 어투를 고려한 실험
6. 결론
REFERENCES

키워드

기계번역 BackTranScription 병렬말뭉치 음성인식 딥러닝 언어융합 Machine translation BackTranscription Parallel corpus Speech recognition Deep learning Language convergence

저자

  • 박찬준 [ Chanjun Park | 고려대학교 컴퓨터학과 석·박사통합과정 ]
  • 서재형 [ Jaehyung Seo | 고려대학교 컴퓨터학과 석·박사통합과정 ]
  • 이설화 [ Seolhwa Lee | 고려대학교 컴퓨터학과 석·박사통합과정 ]
  • 문현석 [ Hyeonseok Moon | 고려대학교 컴퓨터학과 석·박사통합과정 ]
  • 어수경 [ Sugyeong Eo | 고려대학교 컴퓨터학과 석·박사통합과정 ]
  • 임희석 [ Heuiseok Lim | 고려대학교 컴퓨터학과 교수 ] Corresponding Author

참고문헌

자료제공 : 네이버학술정보

간행물 정보

발행기관

  • 발행기관명
    한국융합학회 [Korea Convergence Society]
  • 설립연도
    2011
  • 분야
    복합학>학제간연구
  • 소개
    본회는 융합학문 및 융합기술을 교류를 통한 학문기술의 확대․발전․보급 및 기술개발 전략에 과학적으로 접근하여 융합학문 및 기술을 더욱 활성화하고, 회원 상호간의 정보 교류를 도모함으로써 지역과 나라발전에 기여함을 목적으로 한다.

간행물

  • 간행물명
    한국융합학회논문지 [Journal of the Korea Convergence Society]
  • 간기
    월간
  • pISSN
    2233-4890
  • 수록기간
    2010~2022
  • 십진분류
    KDC 530 DDC 620

이 권호 내 다른 논문 / 한국융합학회논문지 제12권 제11호

    피인용수 : 0(자료제공 : 네이버학술정보)

    함께 이용한 논문 이 논문을 다운로드한 분들이 이용한 다른 논문입니다.

      페이지 저장