데이터 불균형 해소를 위한 유전알고리즘 기반 최적의 오버샘플링 비율

신승수; 조휘연; 김용혁

216.73.216.207

개인회원 가입

개인회원
기관회원

개인회원 로그인

개인회원 가입으로 더욱 편리하게 이용하세요. 개인회원 가입

아이디/비밀번호를 잊으셨나요? 아이디/비밀번호 찾기

기관회원 로그인

소속기관에서 검색되지 않는 기관은 무료원문다운이 불가능합니다. 개인회원 가입 후 유료구매를 하시거나 소속기관 도서관에 이용문의해 주세요.

Home

데이터 불균형 해소를 위한 유전알고리즘 기반 최적의 오버샘플링 비율
Optimal Ratio of Data Oversampling Based on a Genetic Algorithm for Overcoming Data Imbalance

발행기관

한국융합학회 바로가기
간행물

한국융합학회논문지 KCI 등재 바로가기
통권

제12권 제1호 (2021.01)바로가기
페이지

pp.49-55
저자

신승수, 조휘연, 김용혁
언어

한국어(KOR)
URL

https://www.earticle.net/Article/A389475

※ 기관로그인 시 무료 이용이 가능합니다.

4,000원

원문정보

초록

영어: Recently, with the development of database, it is possible to store a lot of data generated in finance, security, and networks. These data are being analyzed through classifiers based on machine learning. The main problem at this time is data imbalance. When we train imbalanced data, it may happen that classification accuracy is degraded due to over-fitting with majority class data. To overcome the problem of data imbalance, oversampling strategy that increases the quantity of data of minority class data is widely used. It requires to tuning process about suitable method and parameters for data distribution. To improve the process, In this study, we propose a strategy to explore and optimize oversampling combinations and ratio based on various methods such as synthetic minority oversampling technique and generative adversarial networks through genetic algorithms. After sampling credit card fraud detection which is a representative case of data imbalance, with the proposed strategy and single oversampling strategies, we compare the performance of trained classifiers with each data. As a result, a strategy that is optimized by exploring for ratio of each method with genetic algorithms was superior to previous strategies.

한국어: 최근에는 데이터베이스의 발달로 금융, 보안, 네트워크 등에서 생성된 많은 데이터가 저장 가능하며, 기계학습 기반 분류기를 통해 분석이 이루어지고 있다. 이 때 주로 야기되는 문제는 데이터 불균형으로, 학습 시 다수 범주의 데이터들로 과적합이 되어 분류 정확도가 떨어지는 경우가 발생한다. 이를 해결하기 위해 소수 범주의 데이터 수를 증가 시키는 오버샘플링 전략이 주로 사용되며, 데이터 분포에 적합한 기법과 인자들을 다양하게 조절하는 과정이 필요하다. 이러한 과정의 개선을 위해 본 연구에서는 스모트와 생성적 적대 신경망 등 다양한 기법 기반의 오버샘플링 조합과 비율을 유전알고리즘을 통해 탐색하고 최적화 하는 전략을 제안한다. 제안된 전략과 단일 오버샘플링 기법으로 신용카 드 사기 탐지 데이터를 샘플링 한 뒤, 각각의 데이터들로 학습한 분류기의 성능을 비교한다. 그 결과 유전알고리즘으로 기법별 비율을 탐색하여 최적화 한 전략의 성능이 기존 전략들 보다 우수했다.

요약
Abstract
1. 서론
2. 관련 연구
2.1 스모트
2.2 생성적 적대 신경망
3. 최적의 오버샘플링 비율 탐색을 위한 유전알고리즘
3.1 인코딩
3.2 적합도
3.3 교차 연산
3.4 변이 연산
3.5 선택 및 대치 연산
4. 연구방법 및 재료
4.1 신용카드 사기 탐지 데이터
4.2 데이터 분류
4.3 전략별 성능 비교
5. 실험 결과
6. 결론
REFERENCES

키워드

데이터 분석 데이터 불균형 오버샘플링 유전알고리즘 최적화 Data analysis Data imbalance Oversampling Genetic algorithm Optimization

저자

신승수 [ Seung-Soo Shin | 광운대학교 소프트웨어학부 학사과정 ]
조휘연 [ Hwi-Yeon Cho | 광운대학교 컴퓨터과학과 석사 ]
김용혁 [ Yong-Hyuk Kim | 광운대학교 소프트웨어학부 교수 ] Corresponding Author

참고문헌

자료제공 : 네이버학술정보

간행물 정보

발행기관

발행기관명

한국융합학회 [Korea Convergence Society]
설립연도
2011
분야
복합학>학제간연구
소개
본회는 융합학문 및 융합기술을 교류를 통한 학문기술의 확대․발전․보급 및 기술개발 전략에 과학적으로 접근하여 융합학문 및 기술을 더욱 활성화하고, 회원 상호간의 정보 교류를 도모함으로써 지역과 나라발전에 기여함을 목적으로 한다.

간행물

간행물명

한국융합학회논문지 [Journal of the Korea Convergence Society]
간기
월간
pISSN
2233-4890
수록기간
2010~2022
십진분류
KDC 530 DDC 620

이 권호 내 다른 논문 / 한국융합학회논문지 제12권 제1호

피인용수 : 0건 (자료제공 : 네이버학술정보)

함께 이용한 논문 이 논문을 다운로드한 분들이 이용한 다른 논문입니다.

출처 : 네이버학술정보

0개의 논문이 장바구니에 담겼습니다.

페이지 저장

소속기관 조회

이용자님의 소속기관(단체)이 서비스에 가입되어 있는지 확인해 보십시오.
기관회원에 소속되어 있는 이용자는 원문을 무료로 이용할 수 있습니다.

상호: 주식회사 학술교육원 I 대표: 노방용 I 사업자등록번호: 122-81-88227 I 통신판매업신고번호: 제2008-인천부평-00176호 I 정보보호책임자: 이두영
주소: (21319)인천광역시 부평구 영성중로 50 미래타워 701호 I 전화: 0505-555-0740 I 팩스: 0505-555-0741 I 이메일: earticle@earticle.net

음성지원 및 돋보기 서비스

Earticle

데이터 불균형 해소를 위한 유전알고리즘 기반 최적의 오버샘플링 비율
Optimal Ratio of Data Oversampling Based on a Genetic Algorithm for Overcoming Data Imbalance

원문정보

초록

목차

키워드

저자

참고문헌

간행물 정보

발행기관

간행물

이 권호 내 다른 논문 / 한국융합학회논문지 제12권 제1호

피인용수 : 0건 (자료제공 : 네이버학술정보)

함께 이용한 논문 이 논문을 다운로드한 분들이 이용한 다른 논문입니다.

Earticle

데이터 불균형 해소를 위한 유전알고리즘 기반 최적의 오버샘플링 비율 Optimal Ratio of Data Oversampling Based on a Genetic Algorithm for Overcoming Data Imbalance

원문정보

초록

목차

키워드

저자

참고문헌

간행물 정보

발행기관

간행물

이 권호 내 다른 논문 / 한국융합학회논문지 제12권 제1호

피인용수 : 0건 (자료제공 : 네이버학술정보)

함께 이용한 논문 이 논문을 다운로드한 분들이 이용한 다른 논문입니다.

데이터 불균형 해소를 위한 유전알고리즘 기반 최적의 오버샘플링 비율
Optimal Ratio of Data Oversampling Based on a Genetic Algorithm for Overcoming Data Imbalance