Earticle

다운로드

DCGAN 의 잠재 벡터 보간을 활용한 두 음성 합성 방법
A method of mixing two audio signals using interpolation of latent vectors with DCGAN.

  • 간행물
    한국차세대컴퓨팅학회 학술대회 바로가기
  • 권호(발행년)
    2023 한국차세대컴퓨팅학회 춘계학술대회 (2023.06) 바로가기
  • 페이지
    pp.76-79
  • 저자
    허찬영, 정재희
  • 언어
    한국어(KOR)
  • URL
    https://www.earticle.net/Article/A433515

원문정보

초록

한국어
기계 학습 및 딥러닝 기술의 발전은 문학 분야를 비롯한 다양한 예술 분야에서 인공지능이 그림을 그리고 소설을 쓰거나 음악을 작곡, 작사하는 것과 같이 큰 영향력을 끼치고 있다. 이 중 인공지능이 음악을 작곡, 작사하는 음성을 생성하는 분야에서도 이미지 생성에 특화된 GANs(Generative Adversarial Nets) 모델을 사용하여 음성을 생성하는 연구를 적용할 수 있다. 하지만 음성 데이터 자체로 학습하여 음성을 생성하는 데에는 GANs를 사용할 경우 적절한 음성 생성의 결과를 얻지 못한다. 따라서 음성을 이미지로 변환하여 GANs을 학습한 후, 이미지를 생성하여 이를 다시 음성으로 생성하는 방법으로 음성 생성을 할 수 있다. 본 연구에서는 CNN(Convolution Neural Network) 기반의 GANs 모델인 DCGAN(Deep Convolutional Generative Adversarial Network) 모델을 활용하여, 두 개의 생성된 음성 이미지에서 추출된 잠재 벡터 z들의 보간의 정도에 따라 생성된 이미지가 부드럽게 변하는 특징을 적용하여 음성 합성 방법을 제안한다. 두 개의 서로 다른 음성 포맷인 midi 파일과 wav 파일을 각각 이미지로 변환 후 모델을 학습시켰다. 두 포맷 모두 두개의 음성 이미지의 잠재 벡터의 보간 정도에 따라 생성된 이미지가 부드럽게 변환되었고, 각 보간 값의 정도에 따라 생성된 이미지들을 다시 음성으로 변환시켜 적절히 합성된 음성을 확인할 수 있었다.

목차

요약
1. 서론
2. 관련연구
3. 실험방법
3.1. Data
3.2. 보간 방법
4. 실험결과
5. 결론
참고문헌

저자

  • 허찬영 [ 정보통신공학과 명지대학교 ]
  • 정재희 [ 정보통신공학과 명지대학교 ] 교신저자

참고문헌

자료제공 : 네이버학술정보

    간행물 정보

    • 간행물
      한국차세대컴퓨팅학회 학술대회
    • 간기
      반년간
    • 수록기간
      2021~2025
    • 십진분류
      KDC 566 DDC 004