홀로그래픽 광학 소자를 사용한 디스플레이와 사용자간 인터랙션을 위한 손 제스처 인식 시스템에 대한 ViT 적용 가능성 연구
Applicability of Vision Transformer for Hand Gesture Recognition in Interactions with Holographic Optical Element Displays
This study explores the feasibility of a Vision Transformer (ViT)-based hand gesture recognition system for intuitive content manipulation in next-generation displays utilizing Holographic Optical Elements (HOEs). HOEs are optical components designed to alter the path of light at specific wavelengths. When integrated into immersive displays using HOE films, traditional input methods such as physical buttons or voice commands are often inadequate for delivering natural and intuitive user experiences. Instead, touchless 4D interaction systems are more suitable for enabling seamless interaction between users and holographic content. To address this, we propose a ViT-based hand gesture recognition system. Unlike conventional convolutional neural networks (CNNs), ViTs adopt a transformer architecture—originally developed for natural language processing—and apply global self-attention mechanisms to learn relationships across the entire input image without using local filters. In this work, we collect a custom RGB-D dataset using the Intel RealSense D455 sensor and compare the performance of ViT and CNN models under identical training conditions. We then evaluate the real-time recognition performance and practical applicability of the ViT-based system for immersive holographic interfaces.
한국어
본 연구는 홀로그래픽 광학 소자(Holographic Optical Element, HOE)를 사용한 차세대 디스플레이에서의 실감형 콘텐츠 조작을 위한 비전 트랜스포머(Vision Transformer, ViT) 기반의 손 제스처 인식 시스템 사용 가능성 을 탐색한다. HOE는 특정 파장의 빛의 경로를 바꾸는 동작을 수행하도록 설계된 광학 소자이다. HOE 필름을 사용 하여 제작한 실감 디스플레이와 사용자간 인터랙션을 위해서는 기존의 사용자와 디스플레이간 인터랙션에 사용하던 물리적 버튼이나 음성 인식을 통한 조작보다는 비접촉식 조작 시스템을 사용한 4D 조작을 통해 더 직관적인 사용 자 경험을 제공하는 것이 중요하다. 이를 위해 본 논문에서는 ViT 기반의 손 제스처 인식 시스템을 제안한다. ViT 는 기존의 자연어 처리 문제에서 사용되던 트랜스포머 구조를 이미지 처리 영역으로 확장한 것이다. ViT는 이미지 분류 문제에 있어 주로 사용되는 CNN과는 필터를 사용하지 않고 전역적인 Self-Attention을 통해 입력 전체의 상호 작용 및 관계를 학습한다는 점에서 차별성을 가진다. 이 연구에서는 Intel RealSense D455 센서를 사용해 RGB값과 Depth값을 동시에 추출하여 생성한 커스텀 데이터셋을 이용해 학습한 ViT 모델과 CNN 모델을 동일한 학습환경에 서 비교하여 ViT를 사용한 실시간 환경에서의 제스처 인식을 구현하고 실사용 가능성을 평가한다.
목차
요약 Abstract Ⅰ. 서론 Ⅱ. 이론 1. 실험용 디퓨징 시스템 구성 2. 센서 및 데이터셋 수집 환경 구성 3. 손 제스처 인식 모델 설계 4. HOE 콘텐츠 조작 방식 Ⅲ. 연구방법 1. 데이터셋 구축 2. CNN 기반 비교 모델 3. 성능 평가 지표 Ⅳ. 실험 및 결과 1. 손 제스처를 통한 인터랙션 후 HOE 출력 결과 2. 각 모델 별 학습 성능 분석 3. 실시간 환경내 손제스처 인식 결과 Ⅴ. 결론 References
국제문화기술진흥원 [The International Promotion Agency of Culture Technology]
설립연도
2009
분야
공학>공학일반
소개
본 진흥원은 문화기술(Culture Technology) 관련 산·학·연·관으로 구성된 비영리 단체이다. 문화기술(CT)은 정보통신기술(ICT), 문화적 사고 기반의 예술, 인문학, 디자인, 사회과학기술이 접목된 신융합기술(New Convergence Technology, NCT)로 정의한다. 인간의 삶의 질을 향상시키고, 진보된 방향으로 변화시키고, 문화기술 관련 분야의 학술 및 기술의 발전과 진흥에 공헌하기 위하여, 제3조의 필요한 사업을 행함을 그 목적으로 한다.
간행물
간행물명
The Journal of the Convergence on Culture Technology (JCCT) [문화기술의 융합]
간기
격월간
pISSN
2384-0358
eISSN
2384-0366
수록기간
2015~2025
등재여부
KCI 등재
십진분류
KDC 600DDC 700
이 권호 내 다른 논문 / The Journal of the Convergence on Culture Technology (JCCT) Vol.11 No.5