홀로그래픽 광학 소자를 사용한 디스플레이와 사용자간 인터랙션을 위한 손 제스처 인식 시스템에 대한 ViT 적용 가능성 연구

여광호; 김가온; 황이환

216.73.217.178

개인회원 가입

개인회원
기관회원

개인회원 로그인

개인회원 가입으로 더욱 편리하게 이용하세요. 개인회원 가입

아이디/비밀번호를 잊으셨나요? 아이디/비밀번호 찾기

기관회원 로그인

소속기관에서 검색되지 않는 기관은 무료원문다운이 불가능합니다. 개인회원 가입 후 유료구매를 하시거나 소속기관 도서관에 이용문의해 주세요.

Home

기술 융합(TC)

홀로그래픽 광학 소자를 사용한 디스플레이와 사용자간 인터랙션을 위한 손 제스처 인식 시스템에 대한 ViT 적용 가능성 연구
Applicability of Vision Transformer for Hand Gesture Recognition in Interactions with Holographic Optical Element Displays

발행기관

국제문화기술진흥원 바로가기
간행물

The Journal of the Convergence on Culture Technology (JCCT) KCI 등재 바로가기
통권

Vol.11 No.5 (2025.09)바로가기
페이지

pp.727-734
저자

여광호, 김가온, 황이환
언어

한국어(KOR)
URL

https://www.earticle.net/Article/A474082

※ 원문제공기관과의 협약기간이 종료되어 열람이 제한될 수 있습니다.

원문정보

초록

영어: This study explores the feasibility of a Vision Transformer (ViT)-based hand gesture recognition system for intuitive content manipulation in next-generation displays utilizing Holographic Optical Elements (HOEs). HOEs are optical components designed to alter the path of light at specific wavelengths. When integrated into immersive displays using HOE films, traditional input methods such as physical buttons or voice commands are often inadequate for delivering natural and intuitive user experiences. Instead, touchless 4D interaction systems are more suitable for enabling seamless interaction between users and holographic content. To address this, we propose a ViT-based hand gesture recognition system. Unlike conventional convolutional neural networks (CNNs), ViTs adopt a transformer architecture—originally developed for natural language processing—and apply global self-attention mechanisms to learn relationships across the entire input image without using local filters. In this work, we collect a custom RGB-D dataset using the Intel RealSense D455 sensor and compare the performance of ViT and CNN models under identical training conditions. We then evaluate the real-time recognition performance and practical applicability of the ViT-based system for immersive holographic interfaces.

한국어: 본 연구는 홀로그래픽 광학 소자(Holographic Optical Element, HOE)를 사용한 차세대 디스플레이에서의 실감형 콘텐츠 조작을 위한 비전 트랜스포머(Vision Transformer, ViT) 기반의 손 제스처 인식 시스템 사용 가능성 을 탐색한다. HOE는 특정 파장의 빛의 경로를 바꾸는 동작을 수행하도록 설계된 광학 소자이다. HOE 필름을 사용 하여 제작한 실감 디스플레이와 사용자간 인터랙션을 위해서는 기존의 사용자와 디스플레이간 인터랙션에 사용하던 물리적 버튼이나 음성 인식을 통한 조작보다는 비접촉식 조작 시스템을 사용한 4D 조작을 통해 더 직관적인 사용 자 경험을 제공하는 것이 중요하다. 이를 위해 본 논문에서는 ViT 기반의 손 제스처 인식 시스템을 제안한다. ViT 는 기존의 자연어 처리 문제에서 사용되던 트랜스포머 구조를 이미지 처리 영역으로 확장한 것이다. ViT는 이미지 분류 문제에 있어 주로 사용되는 CNN과는 필터를 사용하지 않고 전역적인 Self-Attention을 통해 입력 전체의 상호 작용 및 관계를 학습한다는 점에서 차별성을 가진다. 이 연구에서는 Intel RealSense D455 센서를 사용해 RGB값과 Depth값을 동시에 추출하여 생성한 커스텀 데이터셋을 이용해 학습한 ViT 모델과 CNN 모델을 동일한 학습환경에 서 비교하여 ViT를 사용한 실시간 환경에서의 제스처 인식을 구현하고 실사용 가능성을 평가한다.

요약
Abstract
Ⅰ. 서론
Ⅱ. 이론
1. 실험용 디퓨징 시스템 구성
2. 센서 및 데이터셋 수집 환경 구성
3. 손 제스처 인식 모델 설계
4. HOE 콘텐츠 조작 방식
Ⅲ. 연구방법
1. 데이터셋 구축
2. CNN 기반 비교 모델
3. 성능 평가 지표
Ⅳ. 실험 및 결과
1. 손 제스처를 통한 인터랙션 후 HOE 출력 결과
2. 각 모델 별 학습 성능 분석
3. 실시간 환경내 손제스처 인식 결과
Ⅴ. 결론
References

키워드

홀로그래픽 광학 소자 비전트랜스포머 합성곱 신경망 컴퓨터 비전 손 인식 Holographic Optical Element Vision Transformer CNN Computer Vision Hand Detection

저자

여광호 [ Gwangho Yeo | 정회원, 광운대학교 실감융합콘텐츠학과 석사과정 ] 제1저자
김가온 [ Kaon Kim | 정회원, 광운대학교 실감융합콘텐츠학과 석사과정 ] 참여저자
황이환 [ Leehwan Hwang | 정회원, 광운대학교 실감융합콘텐츠학과 조교수 ] 교신저자

참고문헌

자료제공 : 네이버학술정보

간행물 정보

발행기관

발행기관명

국제문화기술진흥원 [The International Promotion Agency of Culture Technology]
설립연도
2009
분야
공학>공학일반
소개
본 진흥원은 문화기술(Culture Technology) 관련 산·학·연·관으로 구성된 비영리 단체이다. 문화기술(CT)은 정보통신기술(ICT), 문화적 사고 기반의 예술, 인문학, 디자인, 사회과학기술이 접목된 신융합기술(New Convergence Technology, NCT)로 정의한다. 인간의 삶의 질을 향상시키고, 진보된 방향으로 변화시키고, 문화기술 관련 분야의 학술 및 기술의 발전과 진흥에 공헌하기 위하여, 제3조의 필요한 사업을 행함을 그 목적으로 한다.

간행물

간행물명

The Journal of the Convergence on Culture Technology (JCCT) [문화기술의 융합]
간기
격월간
pISSN
2384-0358
eISSN
2384-0366
수록기간
2015~2025
등재여부
KCI 등재
십진분류
KDC 600 DDC 700

이 권호 내 다른 논문 / The Journal of the Convergence on Culture Technology (JCCT) Vol.11 No.5

피인용수 : 0건 (자료제공 : 네이버학술정보)

함께 이용한 논문 이 논문을 다운로드한 분들이 이용한 다른 논문입니다.

출처 : 네이버학술정보

0개의 논문이 장바구니에 담겼습니다.

페이지 저장

소속기관 조회

이용자님의 소속기관(단체)이 서비스에 가입되어 있는지 확인해 보십시오.
기관회원에 소속되어 있는 이용자는 원문을 무료로 이용할 수 있습니다.

상호: 주식회사 학술교육원 I 대표: 노방용 I 사업자등록번호: 122-81-88227 I 통신판매업신고번호: 제2008-인천부평-00176호 I 정보보호책임자: 이두영
주소: (21319)인천광역시 부평구 영성중로 50 미래타워 701호 I 전화: 0505-555-0740 I 팩스: 0505-555-0741 I 이메일: earticle@earticle.net

음성지원 및 돋보기 서비스

Earticle

홀로그래픽 광학 소자를 사용한 디스플레이와 사용자간 인터랙션을 위한 손 제스처 인식 시스템에 대한 ViT 적용 가능성 연구
Applicability of Vision Transformer for Hand Gesture Recognition in Interactions with Holographic Optical Element Displays

원문정보

초록

목차

키워드

저자

참고문헌

간행물 정보

발행기관

간행물

이 권호 내 다른 논문 / The Journal of the Convergence on Culture Technology (JCCT) Vol.11 No.5

피인용수 : 0건 (자료제공 : 네이버학술정보)

함께 이용한 논문 이 논문을 다운로드한 분들이 이용한 다른 논문입니다.

Earticle

홀로그래픽 광학 소자를 사용한 디스플레이와 사용자간 인터랙션을 위한 손 제스처 인식 시스템에 대한 ViT 적용 가능성 연구 Applicability of Vision Transformer for Hand Gesture Recognition in Interactions with Holographic Optical Element Displays

원문정보

초록

목차

키워드

저자

참고문헌

간행물 정보

발행기관

간행물

이 권호 내 다른 논문 / The Journal of the Convergence on Culture Technology (JCCT) Vol.11 No.5

피인용수 : 0건 (자료제공 : 네이버학술정보)

함께 이용한 논문 이 논문을 다운로드한 분들이 이용한 다른 논문입니다.

홀로그래픽 광학 소자를 사용한 디스플레이와 사용자간 인터랙션을 위한 손 제스처 인식 시스템에 대한 ViT 적용 가능성 연구
Applicability of Vision Transformer for Hand Gesture Recognition in Interactions with Holographic Optical Element Displays