요약
Abstract
1. 서론
2. 관련 연구
2.1 이미지 검색 방법론
2.2 비지도 학습 기반 이미지 임베딩
2.3 Vision-Large Language Models
2.4 텍스트 임베딩 기반 검색
3. 제안하는 방법
3.1 데이터셋 수집
3.2 시스템 개요 및 문제 정의
3.3 Vision-LLM 기반 회화 설명 생성
3.4 문장 임베딩을 통한 의미론적 표현
3.5 유사도 기반 검색
4. 실험
4.1 실험 설정
4.2 실험 결과
5. 결론
Acknowledgements
참고문헌