다중헤드 선택 전역 평균 풀링

Oral Session Ⅳ 인공지능 및 기계학습

다중헤드 선택 전역 평균 풀링
MHS-GAP : Multi-Head Select Global Average Pooling

한국어: Vision Transformer (ViT) 기반 모델들은 이미지 분류 등 다양한 시각적 인식 작업에서 강력한 성능 을 보이지만, 모든 토큰을 동일하게 활용하는 방식은 불필요한 연산 증가와 중요한 정보 희석 문제를 초래할 수 있다. 특히, Global Average Pooling (GAP)은 모든 토큰을 평균화하여 특징을 요약하는데, 이 과정에서 핵심 정보 손실 위험이 존재한다. 본 논문에서는 GAP 과정에서 중요한 토큰만을 선별적으로 샘플링하여 활용하는 새로운 방법을 제안한다. 이 방법은 추가적인 학습 가능한 파라미터 없이 동작하 며, 연산량을 줄이면서도 효과적인 특징 요약이 가능함을 실험을 통해 확인하였다.

자료제공 : 네이버학술정보