This study aims to verify the performance of an AI-based Convolutional Neural Network (CNN)-based EfficientNetB0 model in binary classification of skin cancer into malignant and benign categories using the HAM10000 skin lesion image dataset, and to exploratorily compare its diagnostic accuracy with the visual reading results of four plastic surgeons. During data preprocessing, image integrity verification was performed using the PIL library, removing one corrupted image, and a final dataset of 10,014 images was used. To address class imbalance, 50:50 balanced sampling was applied only to the training data, and the model was trained using transfer learning with ImageNet pre-trained weights and full-layer fine-tuning with 10-Fold cross-validation. The experimental results show that the EfficientNetB0 model achieved a mean accuracy of 77.95% (maximum 82.48%, minimum 74.09%, standard deviation 2.36%), with sensitivity 54.68%, specificity 82.46%, F1-Score 44.59%, and AUC-ROC 0.7777 on the full HAM10000 dataset of 10,014 images via 10-Fold cross-validation. Furthermore, to ensure comparability, the AI model was additionally evaluated on the same 40 images reviewed by four plastic surgeons using 10-Fold ensemble inference, achieving an accuracy of 82.50% and sensitivity of 95.00%, which is 19.40%p higher than the mean accuracy of four plastic surgeons (63.10%). This study exploratorily demonstrates the potential of AI-based skin cancer screening systems to be utilized as auxiliary tools in general health checkup programs in non-specialist medical environments.
한국어
본 연구는 HAM10000 피부 병변 이미지 데이터셋을 활용하여 인공지능 기반의 합성곱 신경망(CNN) 기반의 EfficientNetB0 모델이 피부암을 악성(Malignant)과 양성(Benign)으로 이진 분류하는 성능을 검증하고, 이를 성형외과 전문의 4인의 육안 판독 결 과와 탐색적으로 비교하는 데 목적이 있다. 데이터 전처리 단계에서 PIL 라이브러리를 활용한 이미지 무결성 검증을 수행하여 손상된 이미지 1장을 제거하였으며, 최종 10,014장의 이미지를 사용하였다. 클래스 불균형 해소를 위해 학습 데이터에서만 50:50 균형 샘플링을 적용하였고, ImageNet 사전학습 가중치를 활용한 전이학습(Transfer Learning) 및 전체 레이어 미세조정(Fine-tuning) 방식으로 10-Fold 교차검증을 수행하였다. 실험 결과, EfficientNetB0 모델은 HAM10000 전체 10,014장 기준 10-Fold 교차검증에서 평균 정확도 77.95%(최고 82.48%, 최저 74.09%, 표준편차 2.36%), 민감도 54.68%, 특이도 82.46%, F1-Score 44.59%, AUC-ROC 0.7777을 달성하였다. 또한 비교의 동등성을 확보하기 위해 성형외과 전문의 4인이 판독한 동일 40장에 대해 10-Fold 모델 앙상블 추론을 수행한 결과, AI 모델은 정확도 82.50%, 민감도 95.00%를 기록하여 전문의 평균(정확도 63.10%) 대비 19.40%p 높은 성능을 보였다. 본 연구는 AI 기반 피부암 스크리닝 시스템이 비전문 의료 환경의 일반 건강검진 프로그램에서 보조 도구로 활용될 수 있는 가능성을 탐색적으로 제시한다.
목차
요약 Abstract 1. 서론 2. 선행연구 2.1 CNN 기반 의료 영상 진단 2.2 피부암 진단에서의 AI와 의료인 비교 2.3 HAM10000 데이터셋 기반 피부암 분류 연구 2.4 EfficientNetB0 및 최신 딥러닝 모델 적용 연구 3. 연구방법 3.1 연구개요 3.2 데이터셋 구성 및 전처리 3.3 모델 설계 및 학습 3.4 모델 평가: 10-Fold 교차검증 3.5 두 평가 집단의 탐색적 데이터 분석(EDA) 3.6 성형외과 전문의 판독 비교 3.7 통계 분석 방법 4. 연구결과 4.1 연구개요 4.2 성형외과 전문의 판독 결과 4.3 AI 모델과 성형외과 전문의 비교 5. 결론 REFERENCES