본 논문은 연안 해역의 CCTV 영상 데이터를 분석하여 위험 상황(예: 고립된 요구조자, 산불, 태풍 등)을 인지하고, 이를 자연어로 설명할 수 있는 경량 비전-언어 모델(VLM) 개발을 목표로 한다. 대규 모 라벨링 없이도 학습 가능한 자기지도학습(Self-Supervised Learning) 기법을 적용하여, 해양 환경 특화 영상 표현을 학습하고, 이후 생성형 언어모델을 결합해 장면을 기술하는 시스템을 제안한다. 특 히, MoCo, DINOv2 등 최신 대조학습 기반 자기지도 모델과 BLIP, Flamingo 등 멀티모달 학습 기법 을 분석하고, 이를 경량화 전략(지식 증류, 양자화 등)과 연계하여 실시간 추론이 가능한 구조를 설계 한다. 문헌 기반 실험 고찰을 통해, 제안된 방법이 적은 라벨로도 높은 설명 성능을 보일 가능성이 높 으며, 실제 연안 감시 시스템에 적용할 경우 위험 탐지 신뢰성과 맥락 이해력이 향상될 것으로 기대된 다. 향후 실제 구현과 도메인 특화 데이터 확보, 시간적 서술 확장 등 과제를 논의하며 본 연구의 실 용성과 확장성을 제시한다.
목차
요약 1. 서론 2. 관련 연구 2.1 자기지도 학습을 통한 시각 표현 학습 2.2 멀티모달 비전-언어 모델 2.3 경량 비전-언어 모델 3. 제안 방법론 3.1. 문제 정의 및 전체 개요 3.2. 자기지도학습 기반 사전훈련 3.3 비전-언어 결합 및 세부 학습 전략 4. 실험적 고찰 5. 결과 참고문헌
키워드
비전-언어 모델자기지도학습경량화연안 CCTV 영상상황 인지
저자
이효재 [ Hyo Jae Lee | 한국폴리텍대학 성남캠퍼스 인공지능소프트웨어과 ]
우덕건 [ Deok-Gun Woo | 한국폴리텍대학 충주캠퍼스, 지능형기계과 ]
김형오 [ Hyung O Kim | 한국폴리텍대학 성남캠퍼스 인공지능소프트웨어과 ]
교신저자