회화 이미지 검색을 위한 언어 기반 의미론적 임베딩

논문

회화 이미지 검색을 위한 언어 기반 의미론적 임베딩
Language-Based Semantic Embedding for Artwork Image Retrieval

간행물

한국차세대컴퓨팅학회 논문지 KCI 등재 바로가기
권호(발행년)

Vol.21 No.3 (2025.06) 바로가기
페이지

pp.74-88
저자

김유현, 김태섭, 박효빈, 이지원, 최동걸
언어

한국어(KOR)
URL

https://www.earticle.net/Article/A468717

원문정보

초록

한국어: 문화유산 보존과 접근성 향상을 위한 디지털화가 가속화됨에 따라, 효과적인 회화 이미지 검색 시스템의 중요성이 증가하고 있다. 그러나 라벨이 부족한 데이터셋과 미세한 시각적 차이가 완전히 다른 예술 장르를 나타내는 회화 도 메인의 특성으로 인해, DINOv2와 같은 기존의 비지도 학습 기반 이미지 임베딩 방법은 제한적인 성능을 보인다. 본 연구에서는 이러한 한계를 극복하기 위해 Vision-LLM을 활용하여 회화 이미지에 대한 풍부한 텍스트 설명을 생성하고, 이를 문장 임베딩 모델을 통해 벡터화하여 의미론적 유사도 기반 검색을 수행하는 새로운 접근법을 제안 한다. 다양한 Vision-LLM 모델과 문장 임베딩 모델, 유사도 측정 방법을 체계적으로 비교한 결과, 제안된 방법은 accuracy 79.17%, mAP 0.6771로 기존 비지도 학습 기반 접근법인 DINOv2 대비 Accuracy에서 171.41%, mAP에서 211.45% 향상된 성능을 보였다. 특히 Qwen2.5-VL-3B-Instruct 모델과 문맥 인식 임베딩 모델 조합 이 가장 우수한 성능을 달성했으며, 이는 언어 기반 의미론적 접근법이 시각적 특징만으로는 포착하기 어려운 회화 의 맥락적, 의미론적, 상징적 특성을 효과적으로 활용할 수 있음을 시사한다.

영어: As the digitization of cultural heritage accelerates to improve preservation and accessibility, the importance of effective artwork image retrieval systems is increasing. However, existing unsupervised learning-based image embedding methods such as DINOv2 show limited performance in the artwork domain, which is characterized by datasets lacking labels and subtle visual differences that represent completely different artistic genres. This study proposes a novel approach to overcome these limitations by utilizing Vision-LLMs to generate rich textual descriptions of artwork images, vectorizing them through sentence embedding models, and performing semantic similarity-based retrieval. Through systematic comparison of various Vision-LLM models, sentence embedding models, and similarity measurement methods, the proposed approach achieved 79.17% accuracy and 0.6771 mAP, demonstrating a 171.41% improvement in accuracy and 211.45% improvement in mAP compared to the existing unsupervised learning-based approach DINOv2. In particular, the combination of the Qwen2.5-VL-3B-Instruct model and context-aware embedding models achieved the best performance, suggesting that language-based semantic approaches can effectively leverage contextual, semantic, and symbolic characteristics of artworks that are difficult to capture through visual features alone.

요약
Abstract
1. 서론
2. 관련 연구
2.1 이미지 검색 방법론
2.2 비지도 학습 기반 이미지 임베딩
2.3 Vision-Large Language Models
2.4 텍스트 임베딩 기반 검색
3. 제안하는 방법
3.1 데이터셋 수집
3.2 시스템 개요 및 문제 정의
3.3 Vision-LLM 기반 회화 설명 생성
3.4 문장 임베딩을 통한 의미론적 표현
3.5 유사도 기반 검색
4. 실험
4.1 실험 설정
4.2 실험 결과
5. 결론
Acknowledgements
참고문헌

저자

김유현 [ Yuhyun Kim | 국립한밭대학교 정보통신공학과 ]
김태섭 [ Taeseop Kim | 국립한밭대학교 정보통신공학과 ]
박효빈 [ Hyobin Park | 국립한밭대학교 정보통신공학과 ]
이지원 [ Jiwon Lee | 한국전자통신연구원 콘텐츠인식연구실 ]
최동걸 [ Dong-Geol Choi | 국립한밭대학교 정보통신공학과 ] 교신저자

참고문헌

자료제공 : 네이버학술정보

간행물 정보

간행물

한국차세대컴퓨팅학회 논문지 [THE JOURNAL OF KOREAN INSTITUTE OF NEXT GENERATION COMPUTING]
간기
격월간
pISSN
1975-681X
수록기간
2005~2026
등재여부
KCI 등재
십진분류
KDC 566 DDC 004

Earticle

회화 이미지 검색을 위한 언어 기반 의미론적 임베딩
Language-Based Semantic Embedding for Artwork Image Retrieval

원문정보

초록

목차

저자

참고문헌

간행물 정보

Earticle

회화 이미지 검색을 위한 언어 기반 의미론적 임베딩 Language-Based Semantic Embedding for Artwork Image Retrieval

원문정보

초록

목차

저자

참고문헌

간행물 정보

회화 이미지 검색을 위한 언어 기반 의미론적 임베딩
Language-Based Semantic Embedding for Artwork Image Retrieval