다중 모달리티 활용을 위한 심층적 프롬프트 엔지니어링 분석

Oral Session Ⅴ 차세대컴퓨팅 전 분야

다중 모달리티 활용을 위한 심층적 프롬프트 엔지니어링 분석
In-Depth Prompt Engineering Analysis for Multi-modality Utilization

한국어: 최근 멀티모달 연구가 활발해지면서, 이미지-텍스트, 영상-텍스트, 오디오-텍스트 등 다양한 개념을 통합하여 인간처럼 사물을 받아들이는 기술이 발전하고 있다. 그 중에서도, contrastive languageimage pretraining 은 제로샷 학습과 대조 학습을 통해 라벨을 학습하지 않고도 이미지와 텍스트 간의 관계를 학습하여 이미지 분류를 하는 대표적인 대규모 언어 모델로, 다양한 분야에서 활용되고 있다. 그러나, 대규모 언어 모델의 성능은 프롬프트 엔지니어링에 크게 영향을 받는다. 이에 따라, 본 논문에서는 contrastive language-image pretraining 의 추론 과정에서 프롬프트 엔지니어링을 분석하고, 능숙한 활용을 위한 필수 고려 사항과 전략을 제시한다. 이를 통해, 사용자들이 contrastive language-image pretraining 을 더욱 효과적으로 활용할 수 있을 것으로 기대된다

자료제공 : 네이버학술정보