This paper proposes a deep learning-based integrated framework that simultaneously performs object tracking and emotion recognition in video data. Existing systems operate these two tasks independently, resulting in computational inefficiency and information inconsistency when processing both tasks from a single video stream. To address these limitations, the proposed framework employs a pre-trained ResNet50-based CNN model for spatial feature extraction and a Stacked LSTM model for temporal dependency learning, enabling simultaneous prediction of object positions and emotions through a unified multi-task recognition architecture. In the post-processing stage, Kalman Filter and Hungarian Algorithm-based object ID management, along with IoU-based emotion-object matching, ensure tracking stability in multi-object environments. Evaluated on the CK+, AFEW emotion datasets and the MOT17 object tracking dataset demonstrate that the proposed system achieves a MOTA of 72.6% for object tracking, 73.4% accuracy for video-based emotion recognition (on AFEW), and a real-time processing speed of 28.3 FPS, with a 34.2% reduction in computational load compared to independent pipeline approaches. Ablation studies validate the contribution of each module, and the proposed framework demonstrates practical applicability in surveillance systems, smart retail, and human-computer interaction.
한국어
본 논문은 영상 데이터에서 객체 추적과 감정 인식을 동시에 수행할 수 있는 딥러닝 기반 통합 프레임워크를 제안한다. 기존 시스템에서는 객체 추적과 감정 인식이 독립적으로 운영되어, 하 나의 영상에서 두 작업을 동시에 처리할 때 연산 비효율성과 정보 불일치가 발생하는 한계가 있었 다. 이를 해결하기 위해 본 연구에서는 사전 학습된 ResNet50 기반 CNN 모델을 통해 공간적 특징 을 추출하고, Stacked LSTM 모델을 통해 시간적 의존성을 학습하여 객체 위치와 감정을 동시에 예 측하는 멀티태스크 통합 인식 구조를 설계하였다. 후처리 단계에서는 칼만 필터와 헝가리안 알고리 즘을 활용한 객체 ID 관리 및 IoU 기반 감정-객체 매칭을 수행하여 다중 객체 환경에서의 추적 안 정성을 확보하였다. CK+, AFEW 감정 데이터셋과 MOT17 객체 추적 데이터셋을 활용한 실험 결과, 제안 시스템은 객체 추적 MOTA 72.6%, 비디오 감정 인식 정확도 73.4%(AFEW 기준), 통합 처리 시 실시간 처리 속도 28.3 FPS를 달성하였으며, 기존 독립 파이프라인 대비 연산량 34.2% 절감 효과를 확인하였다. 절제 실험을 통해 각 모듈의 기여도를 검증하였으며, 본 연구는 감시 시스템, 스마트 리 테일, 인간-컴퓨터 상호작용 등 다양한 분야에 실용적으로 적용 가능하다.
목차
[요약] Abstract Ⅰ. 서론 Ⅱ. 이론적 배경 및 관련 연구 2.1 객체 추적 기술 2.2 감정 인식 기술 2.3 CNN-LSTM 결합 모델 및 멀티태스크 러닝 Ⅲ. CNN-LSTM 기반 객체 추적 및 감정인식 통합 프레임워크 설계 3.1 시스템 구조 개요 3.2 전처리부 설계 3.3 통합 인식부 설계 3.4 후처리부 설계 Ⅳ. 실험 및 결과 분석 4.1 실험 환경 및 데이터셋 4.2 학습 설정 4.3 실험 결과 분석 4.4 절제 실험 (Ablation Study) Ⅴ. 결론 및 제언 REFERENCES
키워드
객체 추적감정 인식CNN-LSTM딥러닝멀티태스크 러닝실시간 영상 분석Object TrackingEmotion RecognitionCNN-LSTMDeep LearningMulti-task LearningReal-time Video Analysis
저자
김형균 [ Hyeong-Gyun Kim | 국민대학교 소프트웨어학부 교수 ]
Corresponding Author