인터넷 상의 성적으로 음란한 콘텐츠가 무분별적으로 유포되어 여러가지 문제를 초래하고 있다. 행동 검 출 네트워크를 통해 성적 행위가 포함된 콘텐츠를 분류하여 이러한 문제를 해결할 수 있을 것이다. 행동 검출 네트워크로 Vision Transformer를 기반하여 설계된 Video Masked Autoencdoer를 이용하여 성적 행위를 검출하고자 한다. Pornography-2k 데이터셋에 대한 Video Masked Autoencoder의 성능 평가 결과 tube 형식의 90%비율의 마스킹 방식에서 0.9의 정확도로 가장 우수한 검출 성능을 보였다