온프레미스 VLM 기반 자율주행 데이터 자동 캡셔닝을 위한 프롬프트 설계 및 품질 분석
Prompt Design and Quality Analysis for Automated Captioning of Autonomous Driving Data in an On-Premises VLM Environment
The acceleration of large-scale driving data collection driven by advances in AI-based autonomous driving technology has heightened the importance of data curation technology for efficiently managing vast amounts of training data. In particular, while manual captioning is expensive and inconsistent, leading to a growing demand for AI-based automation, the use of Vision-Language Models (VLMs) that can be deployed in on-premises environments rather than via cloud APIs is attracting attention as an alternative because of data security and cost concerns. In this study, a four-stage prompting strategy was designed for high-quality automatic captioning of driving data in an on-premises VLM environment, and its performance was verified by applying it to GPT-5.2, GPT-4o, and InternVL2.5-8B. An analysis of the captions generated by each model using three metrics(text similarity, embedding similarity, and LLM-as-a-Judge)confirmed that the prompts proposed in this study achieved a level of performance suitable for practical application in on-premises VLM-based captioning. These results can be used to automatically generate metadata for vast amounts of driving data at low cost and are expected to help establish a data curation system, including efficient training data management.
한국어
AI 기반 자율주행 기술의 발전으로 대규모 주행 데이터 수집이 가속화됨에 따라 방대한 학 습 데이터를 효율적으로 관리하기 위한 데이터 큐레이션 기술의 중요성이 커지고 있다. 특히 수작업 캡셔닝은 비용이 높고 일관성이 낮아 AI 기반 자동화 요구가 커지고 있으나, 데이터 보안과 비용 문제로 클라우드 API보다 온프레미스(On-premises) 환경에서 실행 가능한 VLM (Vision-Language Model) 활용이 대안으로 주목받고 있다. 본 연구에서는 온프레미스 VLM 환 경에서 주행 데이터에 대한 고품질의 자동 캡셔닝을 위해 4단계 프롬프트 전략을 설계하였으 며, GPT-5.2, GPT-4o, InternVL2.5-8B에 적용하여 성능을 검증하였다. 각 모델에서 생성된 캡션 을 텍스트 유사도, 임베딩 유사도, LLM-as-a-Judge의 세 가지 지표로 분석한 결과 본 연구에서 제안하는 프롬프트가 온프레미스 VLM 기반 캡셔닝 실무에 활용 가능한 수준의 성능을 확보 했음을 확인하였다. 본 연구의 결과는 방대한 주행 데이터에 대해 저비용의 자동 메타정보 생 성에 활용할 수 있으며, 효율적인 데이터 관리 등 학습 데이터 큐레이션 체계 구축에 기여할 것으로 기대된다.
목차
요약 ABSTRACT Ⅰ. 서론 Ⅱ. 관련 연구 1. 입력 데이터와 출력 구조 정의 2. 비교 환경 및 실험 절차 3. 제안하는 프롬프트 전략 4. 캡션 품질 평가 방법 Ⅳ. 실험 결과 및 분석 1. 프롬프트 전략별 캡션 생성 예시 2. 텍스트 유사도 실험 결과 3. 임베딩 유사도 실험 결과 4. LLM-as-a-Judge 실험 결과 5. 종합 분 Ⅴ. 결론 ACKNOWLEDGEMENTS REFERENCES