Earticle

다운로드

치매 조기 진단을 위한 음성 기반 AI 성능 비교 연구
A Comparative Study on the Performance of Voice-Based AI for Early Diagnosis of Dementia

  • 간행물
    차세대융합기술학회논문지 KCI 등재 바로가기
  • 권호(발행년)
    제9권 11호 (2025.11) 바로가기
  • 페이지
    pp.2843-2852
  • 저자
    장관종
  • 언어
    한국어(KOR)
  • URL
    https://www.earticle.net/Article/A476298

원문정보

초록

한국어
본 논문은 치매 조기 진단을 위해 어르신의 음성 데이터를 Mel-Spectrogram으로 변환하여 CNN, ViT(Vision Transformer), Random Forest 등 다양한 인공지능 모델의 분류 성능을 비교하였다. 데이터는 영어 권 공개 데이터셋(ADReSS-2020 등)에서 수집하였으며, Mel-Spectrogram 이미지로 변환 후 모델에 입력하였다. 모든 모델의 정확도는 약 61~62%, F1-score는 0.60 내외로, 전반적으로 유사한 성능을 보였다. ViT 모델이 AUC 0.72로 가장 높은 분류력을 보였으나, 모든 모델에서 치매군과 정상군의 오진률이 임상적으로 유의미한 수준으로 나타났다. 연구 결과, 단일 음향 특성만으로는 치매의 조기 진단에 한계가 있음을 확인하였다. 따라서 데이터 규모 확대, 다양한 특성(언어·음향·인지정보) 융합, 딥러닝 구조의 고도화가 필요함을 시사하였다. 향후 연구에서는 한국 어 등 다양한 언어와 환경에서의 데이터수집, 실시간 진단 및 임상 적용성 검증이 추가적으로 요구된다.
영어
This study compares the classification performance of various artificial intelligence models—CNN, ViT (Vision Transformer), and Random Forest—for early dementia diagnosis by converting elderly speech data into Mel-Spectrograms. The data were collected from publicly available English-language datasets (such as ADReSS-2020) and transformed into Mel-Spectrogram images for model input. All models achieved an accuracy of approximately 61–62%, with F1-scores around 0.60, indicating generally similar performance. The ViT model demonstrated the highest discriminative power with an AUC of 0.72, but the misclassification rates for both dementia and normal groups were clinically significant across all models. The findings confirm that relying solely on acoustic features has limitations for early dementia diagnosis. Therefore, expanding dataset size, integrating multiple features (linguistic, acoustic, cognitive), and advancing deep learning architectures are necessary. Future studies should focus on collecting data in various languages and environments, as well as verifying real-time diagnostic and clinical applicability.

목차

요약
Abstract
Ⅰ. 서론
Ⅱ. 이론적 고찰
2.1 음성 기반 치매 진단 연구의 동향
2.2 언어적 및 음향적 특징 변화
2.3 음성 기반 AI 진단 연구 사례
Ⅲ. 연구 설계
3.1 연구개요
3.2 연구 절차
3.3 데이터 수집 및 전처리
3.4 AI 기반 분류기 모델 설계
3.5 모델 학습 및 성능 평가
Ⅳ. 연구 결과
4.1 합성곱신경망(CNN)
4.2 ViT(Vision Transformer)
4.3 랜덤 포레스트(Random Forest)
4.4 종합 비교
Ⅴ. 결론
REFERENCES

저자

  • 장관종 [ Kwanjong Chang | 호서대학교 벤처대학원 융합공학과 초빙교수 ] Corresponding Author

참고문헌

자료제공 : 네이버학술정보

    간행물 정보

    • 간행물
      차세대융합기술학회논문지 [The Journal of Next-generation Convergence Technology Association]
    • 간기
      월간
    • pISSN
      2508-8270
    • 수록기간
      2017~2026
    • 등재여부
      KCI 등재
    • 십진분류
      KDC 506 DDC 606