Vision Transformer (ViT) 기반 모델들은 이미지 분류 등 다양한 시각적 인식 작업에서 강력한 성능 을 보이지만, 모든 토큰을 동일하게 활용하는 방식은 불필요한 연산 증가와 중요한 정보 희석 문제를 초래할 수 있다. 특히, Global Average Pooling (GAP)은 모든 토큰을 평균화하여 특징을 요약하는데, 이 과정에서 핵심 정보 손실 위험이 존재한다. 본 논문에서는 GAP 과정에서 중요한 토큰만을 선별적으로 샘플링하여 활용하는 새로운 방법을 제안한다. 이 방법은 추가적인 학습 가능한 파라미터 없이 동작하 며, 연산량을 줄이면서도 효과적인 특징 요약이 가능함을 실험을 통해 확인하였다.
목차
요약 1. 서론 2. 관련 연구 3. 실험방법 3.1. 방법론 4. 실험결과 4.1 MHS-GAP의 성능 4.2 샘플링 비율에 따른 MHS-GAP 분석 4.3 샘플링 방법에 따른 MHS-GAP 분석 5. 결과 참고문헌