Earticle

현재 위치 Home

자동차IT

온프레미스 VLM 기반 자율주행 데이터 자동 캡셔닝을 위한 프롬프트 설계 및 품질 분석
Prompt Design and Quality Analysis for Automated Captioning of Autonomous Driving Data in an On-Premises VLM Environment

첫 페이지 보기
  • 발행기관
    한국ITS학회 바로가기
  • 간행물
    한국ITS학회논문지 KCI 등재 바로가기
  • 통권
    제25권 제2호 통권124호 (2026.04)바로가기
  • 페이지
    pp.179-192
  • 저자
    임소정, 김주완, 이정우, 최정단
  • 언어
    한국어(KOR)
  • URL
    https://www.earticle.net/Article/A484046

※ 기관로그인 시 무료 이용이 가능합니다.

4,600원

원문정보

초록

영어
The acceleration of large-scale driving data collection driven by advances in AI-based autonomous driving technology has heightened the importance of data curation technology for efficiently managing vast amounts of training data. In particular, while manual captioning is expensive and inconsistent, leading to a growing demand for AI-based automation, the use of Vision-Language Models (VLMs) that can be deployed in on-premises environments rather than via cloud APIs is attracting attention as an alternative because of data security and cost concerns. In this study, a four-stage prompting strategy was designed for high-quality automatic captioning of driving data in an on-premises VLM environment, and its performance was verified by applying it to GPT-5.2, GPT-4o, and InternVL2.5-8B. An analysis of the captions generated by each model using three metrics(text similarity, embedding similarity, and LLM-as-a-Judge)confirmed that the prompts proposed in this study achieved a level of performance suitable for practical application in on-premises VLM-based captioning. These results can be used to automatically generate metadata for vast amounts of driving data at low cost and are expected to help establish a data curation system, including efficient training data management.
한국어
AI 기반 자율주행 기술의 발전으로 대규모 주행 데이터 수집이 가속화됨에 따라 방대한 학 습 데이터를 효율적으로 관리하기 위한 데이터 큐레이션 기술의 중요성이 커지고 있다. 특히 수작업 캡셔닝은 비용이 높고 일관성이 낮아 AI 기반 자동화 요구가 커지고 있으나, 데이터 보안과 비용 문제로 클라우드 API보다 온프레미스(On-premises) 환경에서 실행 가능한 VLM (Vision-Language Model) 활용이 대안으로 주목받고 있다. 본 연구에서는 온프레미스 VLM 환 경에서 주행 데이터에 대한 고품질의 자동 캡셔닝을 위해 4단계 프롬프트 전략을 설계하였으 며, GPT-5.2, GPT-4o, InternVL2.5-8B에 적용하여 성능을 검증하였다. 각 모델에서 생성된 캡션 을 텍스트 유사도, 임베딩 유사도, LLM-as-a-Judge의 세 가지 지표로 분석한 결과 본 연구에서 제안하는 프롬프트가 온프레미스 VLM 기반 캡셔닝 실무에 활용 가능한 수준의 성능을 확보 했음을 확인하였다. 본 연구의 결과는 방대한 주행 데이터에 대해 저비용의 자동 메타정보 생 성에 활용할 수 있으며, 효율적인 데이터 관리 등 학습 데이터 큐레이션 체계 구축에 기여할 것으로 기대된다.

목차

요약
ABSTRACT
Ⅰ. 서론
Ⅱ. 관련 연구
1. 입력 데이터와 출력 구조 정의
2. 비교 환경 및 실험 절차
3. 제안하는 프롬프트 전략
4. 캡션 품질 평가 방법
Ⅳ. 실험 결과 및 분석
1. 프롬프트 전략별 캡션 생성 예시
2. 텍스트 유사도 실험 결과
3. 임베딩 유사도 실험 결과
4. LLM-as-a-Judge 실험 결과
5. 종합 분
Ⅴ. 결론
ACKNOWLEDGEMENTS
REFERENCES

키워드

자율주행 데이터 이미지 캡셔닝 시각 언어 모델 프롬프트 설계 Autonomouse driving data Image captioning Vision-language model Prompt design

저자

  • 임소정 [ Sojeong Lim | 한국전자통신연구원 자율주행지능연구실 연구연수생 ] 주저자
  • 김주완 [ Juwan Kim | 한국전자통신연구원 자율주행지능연구실 책임연구원 ] 교신저자
  • 이정우 [ Jeong-Woo Lee | 한국전자통신연구원 자율주행지능연구실 책임연구원 ] 공저자
  • 최정단 [ JeongDan Choi | 한국전자통신연구원 AI로봇연구본부 본부장 ] 공저자

참고문헌

자료제공 : 네이버학술정보

간행물 정보

발행기관

  • 발행기관명
    한국ITS학회 [The Korean Society of Intelligent Transport Systems]
  • 설립연도
    2002
  • 분야
    공학>교통공학
  • 소개
    ◈ 전문분야간 공동협의, 공동연구를 통한 ITS의 학술적 발전 ◈ 산·학·연 협동체계 구축으로 기술개발 지원 ◈ 정부정책 및 제도 방향에 대한 기술적 자문 ◈ 외국 ITS 관련 학술단체와 기술교류 ◈ 관련전문가 및 기술자의 교육 및 양성

간행물

  • 간행물명
    한국ITS학회논문지 [The Journal of The Korean Society of Intelligent Transport Systems]
  • 간기
    격월간
  • pISSN
    1738-0774
  • eISSN
    2384-1729
  • 수록기간
    2003~2026
  • 등재여부
    KCI 등재
  • 십진분류
    KDC 326 DDC 338

이 권호 내 다른 논문 / 한국ITS학회논문지 제25권 제2호 통권124호

    피인용수 : 0(자료제공 : 네이버학술정보)

    함께 이용한 논문 이 논문을 다운로드한 분들이 이용한 다른 논문입니다.

      페이지 저장