Earticle

다운로드

CycleGAN을 이용한 편향 테이블 데이터 (Imbalanced Table Data) 오버샘플링 (Oversampling) 문제 해결 방안에 대한 연구 : 금융사기를 중심으로

  • 간행물
    한국경영정보학회 정기 학술대회 바로가기
  • 권호(발행년)
    2019년 경영정보관련 추계학술대회 (2019.11) 바로가기
  • 페이지
    pp.436-440
  • 저자
    노정담, 최병구
  • 언어
    한국어(KOR)
  • URL
    https://www.earticle.net/Article/A366320

원문정보

초록

한국어
현대 사회는 사람의 행동 하나가 데이터가 되며 이는 곧 엄청난 데이터의 흐름을 만든다. 20년 전 인터넷 속 전체 데이터의 양이 현대 사회속에서는 1초마다 저장된다. 이러한 추세는 앞으로 더욱 더 심화될 것이며 이러한 빅데이터를 활용하기에 따라서 엄청난 이점을 줄 수 있을 것으로 판단된다. 이러한 데이터의 분석을 위해서는 편향되지 않은 데이터가 필요한데 대부분의 빅데이터는 한쪽으로 편향인 불균형 상태며 이는 분석의 정확도를 떨어뜨리는 원인 중 하나이다. 또한 2종 오류의 비용이 큰 분야에서는 불균형 데이터를 사용한 분석을 믿을 수 없는 실정이기 때문에 이러한 문제점을 해결하는 것은 매우 중요하다. 정형 데이터 분야에서는 이러한 문제점을 해결하기 위해서 전통적인 통계 기법 방식의 오버샘플링이 발전해왔고 비정형 데이터에서는 딥러닝의 발전과 더불어 발전한 생성 모델이 불균형 문제의 해결책으로 떠올랐다. 본 연구에서는 비정형 데이터에서 오버샘플링을 하기 위해 자주 사용하는 생성 모델 중 CycleGAN을 정형 데이터에 맞게 변형시킬 것이다. 또한 GMM을 이용해 혼합 분포를 각각의 단일 분포로 분해하여 CycleGAN이 데이터의 특징을 더 잘 학습하게 만들 것이며 CycleGAN에 Classifier를 추가하여 좀 더 현실적인 데이터를 만드는 오버샘플링 기법을 만들고자 한다. 본 논문에서 제안하고자하는 오버샘플링 기법을 실험하기 위해 실제 금융사기에 관한 데이터를 PCA로 변조하여 개인정보를 가린 불균형 데이터를 사용할 것이다.

목차

Abstract
Introduction
Related work
통계 기반 샘플링
GAN
Method
Data
Expected Results
References

저자

  • 노정담 [ 국민대학교 일반대학원 데이터 사이언스 ]
  • 최병구 [ 국민대학교 경영학부 교수 ] 교신저자

참고문헌

자료제공 : 네이버학술정보

    간행물 정보

    • 간행물
      한국경영정보학회 정기 학술대회 [KMIS Conference]
    • 간기
      반년간
    • 수록기간
      1990~2025
    • 십진분류
      KDC 325 DDC 658