Earticle

현재 위치 Home

딥러닝 기반 영상 데이터의 객체 추적과 감정 인식 통합 프레임워크
Deep Learning-Based Integrated Framework for Object Tracking and Emotion Recognition in Video Data

첫 페이지 보기
  • 발행기관
    한국창업융합컨설팅학회 바로가기
  • 간행물
    창업융합컨설팅연구 바로가기
  • 통권
    제5권 제1호 (2026.03)바로가기
  • 페이지
    pp.93-105
  • 저자
    김형균
  • 언어
    한국어(KOR)
  • URL
    https://www.earticle.net/Article/A482332

※ 기관로그인 시 무료 이용이 가능합니다.

4,500원

원문정보

초록

영어
This paper proposes a deep learning-based integrated framework that simultaneously performs object tracking and emotion recognition in video data. Existing systems operate these two tasks independently, resulting in computational inefficiency and information inconsistency when processing both tasks from a single video stream. To address these limitations, the proposed framework employs a pre-trained ResNet50-based CNN model for spatial feature extraction and a Stacked LSTM model for temporal dependency learning, enabling simultaneous prediction of object positions and emotions through a unified multi-task recognition architecture. In the post-processing stage, Kalman Filter and Hungarian Algorithm-based object ID management, along with IoU-based emotion-object matching, ensure tracking stability in multi-object environments. Evaluated on the CK+, AFEW emotion datasets and the MOT17 object tracking dataset demonstrate that the proposed system achieves a MOTA of 72.6% for object tracking, 73.4% accuracy for video-based emotion recognition (on AFEW), and a real-time processing speed of 28.3 FPS, with a 34.2% reduction in computational load compared to independent pipeline approaches. Ablation studies validate the contribution of each module, and the proposed framework demonstrates practical applicability in surveillance systems, smart retail, and human-computer interaction.
한국어
본 논문은 영상 데이터에서 객체 추적과 감정 인식을 동시에 수행할 수 있는 딥러닝 기반 통합 프레임워크를 제안한다. 기존 시스템에서는 객체 추적과 감정 인식이 독립적으로 운영되어, 하 나의 영상에서 두 작업을 동시에 처리할 때 연산 비효율성과 정보 불일치가 발생하는 한계가 있었 다. 이를 해결하기 위해 본 연구에서는 사전 학습된 ResNet50 기반 CNN 모델을 통해 공간적 특징 을 추출하고, Stacked LSTM 모델을 통해 시간적 의존성을 학습하여 객체 위치와 감정을 동시에 예 측하는 멀티태스크 통합 인식 구조를 설계하였다. 후처리 단계에서는 칼만 필터와 헝가리안 알고리 즘을 활용한 객체 ID 관리 및 IoU 기반 감정-객체 매칭을 수행하여 다중 객체 환경에서의 추적 안 정성을 확보하였다. CK+, AFEW 감정 데이터셋과 MOT17 객체 추적 데이터셋을 활용한 실험 결과, 제안 시스템은 객체 추적 MOTA 72.6%, 비디오 감정 인식 정확도 73.4%(AFEW 기준), 통합 처리 시 실시간 처리 속도 28.3 FPS를 달성하였으며, 기존 독립 파이프라인 대비 연산량 34.2% 절감 효과를 확인하였다. 절제 실험을 통해 각 모듈의 기여도를 검증하였으며, 본 연구는 감시 시스템, 스마트 리 테일, 인간-컴퓨터 상호작용 등 다양한 분야에 실용적으로 적용 가능하다.

목차

[요약]
Abstract
Ⅰ. 서론
Ⅱ. 이론적 배경 및 관련 연구
2.1 객체 추적 기술
2.2 감정 인식 기술
2.3 CNN-LSTM 결합 모델 및 멀티태스크 러닝
Ⅲ. CNN-LSTM 기반 객체 추적 및 감정인식 통합 프레임워크 설계
3.1 시스템 구조 개요
3.2 전처리부 설계
3.3 통합 인식부 설계
3.4 후처리부 설계
Ⅳ. 실험 및 결과 분석
4.1 실험 환경 및 데이터셋
4.2 학습 설정
4.3 실험 결과 분석
4.4 절제 실험 (Ablation Study)
Ⅴ. 결론 및 제언
REFERENCES

키워드

객체 추적 감정 인식 CNN-LSTM 딥러닝 멀티태스크 러닝 실시간 영상 분석 Object Tracking Emotion Recognition CNN-LSTM Deep Learning Multi-task Learning Real-time Video Analysis

저자

  • 김형균 [ Hyeong-Gyun Kim | 국민대학교 소프트웨어학부 교수 ] Corresponding Author

참고문헌

자료제공 : 네이버학술정보

간행물 정보

발행기관

  • 발행기관명
    한국창업융합컨설팅학회 [Korea Startup Convergence Consulting Society]
  • 설립연도
    2022
  • 분야
    복합학>학제간연구

간행물

  • 간행물명
    창업융합컨설팅연구 [Journal of Startup Convergence & Consulting]
  • 간기
    계간
  • eISSN
    2950-8967
  • 수록기간
    2022~2026
  • 십진분류
    KDC 325 DDC 658

이 권호 내 다른 논문 / 창업융합컨설팅연구 제5권 제1호

    피인용수 : 0(자료제공 : 네이버학술정보)

    함께 이용한 논문 이 논문을 다운로드한 분들이 이용한 다른 논문입니다.

      페이지 저장