전 세계적으로 인공지능(AI)을 구현하려는 움직임이 많아지고 있다. AI구현에서는 많은 양의 데이터, 목적에 맞는 데이터의 분류 등 데이터의 중요성을 뺄 수 없다. 이러한 데이터를 생성하고 가공하는 기술에는 사물인 터넷(IOT)과 빅데이터(Big-data) 분석이 있으며 4차 산업을 이끌어 가는 원동력이라 할 수 있다. 또한 이러한 기술은 국가와 개인 차원에서 많이 활용되고 있으며, 특히나 특정분야에 집결되는 데이터를 기준으로 빅데이 터 분석에 활용함으로써 새로운 모델을 발견하고, 그 모델로 새로운 값을 추론하고 예측함으로써 미래비전을 제시하려는 시도가 많아지고 있는 추세이다. 데이터 분석을 통한 결론은 데이터가 가지고 있는 정보의 정확성 에 따라 많은 변화를 가져올 수 있으며, 그 변화에 따라 잘못된 결과를 발생시킬 수도 있다. 이렇듯 데이터의 분석은 데이터가 가지는 정보 또는 분석 목적에 맞는 데이터 분류가 매우 중요하다는 것을 알 수 있다. 또한 빅데이터 분석결과 통계량의 신뢰성과 정교함을 얻기 위해서는 각 변수의 의미와 변수들 간의 상관관계, 다중 공선성 등을 고려하여 분석해야 한다. 즉, 빅데이터 분석에 앞서 분석목적에 맞도록 데이터의 분류가 잘 이루 어지도록 해야 한다. 이에 본 고찰에서는 AI기술을 구현하는 머신러닝(machine learning, ML) 기법에 속하는 분류분석(classification analysis, CA) 중 의사결정트리(decision tree, DT)기법, 랜덤포레스트(random forest, RF) 기법, 선형분류분석(linear discriminant analysis, LDA), 이차선형분류분석(quadratic discriminant analysis, QDA)을 이용하여 데이터를 분류한 후 데이터의 분류정도를 평가함으로써 데이터의 분류 분석률 향상을 위한 방안을 모색하려 한다.
목차
요약 1. 서론 2. 분류분석 2.1 의사결정트리(DT) 2.2 랜덤포레스트(Random Forest) 2.3 판별분석(Discriminant Analysis) 3. 분류분석 실험 3.1 실험대상 및 실험방법 3.2 의사결정트리를 이용한 분류분석 3.3 랜덤포레스트를 이용한 분류분석 3.4 LDA를 이용한 판별분석 3.5 QDA를 이용한 판별분석 4. 결론 참고문헌
조선대학교 기초과학연구원 [The Natural Science Research Institute of Chosun]
설립연도
2008
분야
자연과학>자연과학일반
소개
본 연구원은 기초과학을 진흥하기 위한 연구·교육 및 그 보급을 목적으로 한다. 이 목적을 달성하기 위하여 다음 각 호의 사업을 수행한다.
1. 기초과학 제 분야에 관한 조사와 연구
2. 기초과학에 관한 학술행사(학술대회, 학술세미나, 심포지엄, 초청강연회 등) 개최
3. 학문후속세대 및 일반인을 위한 기초과학 교육
4. 기관지『조선자연과학논문지』 발간
5. 『자연과학연구총서』, 『자연과학번역총서』 등 단행본 발간
6. 기타 본 연구원의 목적과 관련된 사업
간행물
간행물명
통합자연과학논문집(구 조선자연과학논문집) [Journal of Integrative Natural Science]