With the advent of the era of the 4th Industrial Revolution, the development and utilization of the artificial intelligence(AI) technologies becomes more important than ever. Data mining is a traditional information processing field which is the basis of the 4th Industrial Revolution and AI era. It is necessary to develop a system or methodology that can be efficiently executed in a big data environment in order to perform various information analysis and incorporate into artificial intelligence technology. In a big data environment, since data is generated very fast and its volume is large, it is impossible to process the method with a general single server approach. To solve this problem, this paper proposes a distributed parallel processing approach for data mining process. The proposed method consists of three steps: dividing the transaction into several shards, distributed frequent itemsets mining process with the internal and external patterns in parallel, and merging the previously generated set with newly updated results. Through this process, the accuracy is slightly decreased, however the set of frequent itemsets can be quickly and approximately explored without multiple scans. The proposed method can gradually find the resulting sets using the Hadoop MapReduce technique and provide flexibility and scalability.
한국어
본격적인 4차 산업혁명 시대가 도래하면서 인공지능 기반의 기술 개발과 활용은 그 어느 때보다 중요해지고 있다. 데이터 마이닝은 4차 산업혁명과 인공지능 시대의 초석이라고 할 수 있는 전통적인 정보 처리 분야이며, 이러한 데이터 마이닝을 기반으로 다양한 정보 분석을 수행하고 인공지능 기술에 접목하기 위해서는 빅데이터 환경에서 효율적으로 실행 가능한 체계 또는 방법론이 필요하 다. 빅데이터 환경에서는 데이터의 발생 속도가 매우 빠르고 용량이 크기 때문에 일반적인 단일 서버 방식으로는 데이터 마이닝이 불가능하다. 이러한 문제를 해결하기 위해, 본 논문에서는 빅데이터 처리를 할 수 있는 분산 병렬 처리 기반의 데이터 마이닝 기법 을 제안한다. 제안하는 방법은 트랜잭션을 여러 개의 샤드로 분할하고, 빈발 항목집합 탐사 과정을 내부 및 외부 패턴으로 구분하여 분산 병렬 처리한 뒤, 이전에 생성된 집합과 새로 갱신된 결과를 병합하여 최종 결과를 도출하는 3단계로 구성된다. 이 과정에서 상대적으로 정확도는 약간 감소하지만 다중 스캔 없이 빠르게 근사적으로 클러스터 내의 빈발 항목집합을 탐사한다. 제안하는 방법 을 통해 하둡 맵리듀스 환경에서 점진적으로 마이닝 결과를 탐사하고 단일 서버에서는 제공하지 못하는 안정적인 유연성과 확장성 을 확보할 수 있다.
목차
요약 ABSTRACT I. 서론 II. 관련 연구 III. 본론 1. 점진적 샤딩 2. 분산 FIM 3. 패턴 통합 IV. 평가 V. 결론 References
키워드
빅데이터데이터 마이닝분산 병렬 처리big datadata miningdistributed parallel processing
저자
우호진 [ Ho Jin Woo | 연성대학교 컴퓨터소프트웨어과 ]
Corresponding Author
한국인공지능교육학회 [Korean Association of Artificial Intelligence Education]
설립연도
2019
분야
사회과학>교육학
소개
인공지능 기반의 융합 사회의 도래로 사회 전반에서 인공지능의 소양과 역량에 대한 요구가 증가하고 있습니다. 알파고 이후 인공지능은 우리 생활의 일부가 되고 있고 인공지능 기술이 융합 산업의 핵심으로 대두되었습니다. 인공지능기술이 다른 분야를 만났을 때 창출되는 가치는 자동차, 반도체, 스마트폰의 부가가치를 모두 합친 것보다 초월하고 있고 인공지능 역량을 가진 인재는 세상의 변화를 주도하는 막강한 영향력을 갖게 되었습니다.
이러한 인재의 양성은 혁신 기업의 존망을 좌우하게 되었고 국가의 경쟁력으로 이어지고 있습니다. 이것이 인공지능교육의 필요성이며 이를 이끌 단체로서 인공지능교육학회가 있습니다.
한국인공지능교육학회는 인공지능 기술과 융합적 역량을 가진 인재를 양성하고 미래 사회에서 인공지능이 인간을 위한 기술로 전개될 수 있도록 교육의 기반을 마련하고자 합니다. 학회에서는 인공지능에 관한 산학연 연계의 학문을 발전시키고 국가 발전에 기여하는 인재를 양성하는 등 다양한 방면에서 인공지능교육의 발전을 위해 노력하겠습니다. 또한 글로벌 인공지능과 융합 기술 분야에서 우리나라가 선도할 수 있도록 다양한 연구와 학술활동 그리고 국내외 공유의 장을 만들어 가도록 하겠습니다 .
간행물
간행물명
인공지능연구 논문지 [Journal of The Korean Association of Artificial Intelligence Education]