회화 이미지 검색을 위한 언어 기반 의미론적 임베딩

김유현; 김태섭; 박효빈; 이지원; 최동걸

216.73.216.223

개인회원 가입

개인회원
기관회원

개인회원 로그인

개인회원 가입으로 더욱 편리하게 이용하세요. 개인회원 가입

아이디/비밀번호를 잊으셨나요? 아이디/비밀번호 찾기

기관회원 로그인

소속기관에서 검색되지 않는 기관은 무료원문다운이 불가능합니다. 개인회원 가입 후 유료구매를 하시거나 소속기관 도서관에 이용문의해 주세요.

Home

논문

회화 이미지 검색을 위한 언어 기반 의미론적 임베딩
Language-Based Semantic Embedding for Artwork Image Retrieval

발행기관

한국차세대컴퓨팅학회 바로가기
간행물

한국차세대컴퓨팅학회 논문지 KCI 등재 바로가기
통권

Vol.21 No.3 (2025.06)바로가기
페이지

pp.74-88
저자

김유현, 김태섭, 박효빈, 이지원, 최동걸
언어

한국어(KOR)
URL

https://www.earticle.net/Article/A468717

원문정보

초록

영어: As the digitization of cultural heritage accelerates to improve preservation and accessibility, the importance of effective artwork image retrieval systems is increasing. However, existing unsupervised learning-based image embedding methods such as DINOv2 show limited performance in the artwork domain, which is characterized by datasets lacking labels and subtle visual differences that represent completely different artistic genres. This study proposes a novel approach to overcome these limitations by utilizing Vision-LLMs to generate rich textual descriptions of artwork images, vectorizing them through sentence embedding models, and performing semantic similarity-based retrieval. Through systematic comparison of various Vision-LLM models, sentence embedding models, and similarity measurement methods, the proposed approach achieved 79.17% accuracy and 0.6771 mAP, demonstrating a 171.41% improvement in accuracy and 211.45% improvement in mAP compared to the existing unsupervised learning-based approach DINOv2. In particular, the combination of the Qwen2.5-VL-3B-Instruct model and context-aware embedding models achieved the best performance, suggesting that language-based semantic approaches can effectively leverage contextual, semantic, and symbolic characteristics of artworks that are difficult to capture through visual features alone.

한국어: 문화유산 보존과 접근성 향상을 위한 디지털화가 가속화됨에 따라, 효과적인 회화 이미지 검색 시스템의 중요성이 증가하고 있다. 그러나 라벨이 부족한 데이터셋과 미세한 시각적 차이가 완전히 다른 예술 장르를 나타내는 회화 도 메인의 특성으로 인해, DINOv2와 같은 기존의 비지도 학습 기반 이미지 임베딩 방법은 제한적인 성능을 보인다. 본 연구에서는 이러한 한계를 극복하기 위해 Vision-LLM을 활용하여 회화 이미지에 대한 풍부한 텍스트 설명을 생성하고, 이를 문장 임베딩 모델을 통해 벡터화하여 의미론적 유사도 기반 검색을 수행하는 새로운 접근법을 제안 한다. 다양한 Vision-LLM 모델과 문장 임베딩 모델, 유사도 측정 방법을 체계적으로 비교한 결과, 제안된 방법은 accuracy 79.17%, mAP 0.6771로 기존 비지도 학습 기반 접근법인 DINOv2 대비 Accuracy에서 171.41%, mAP에서 211.45% 향상된 성능을 보였다. 특히 Qwen2.5-VL-3B-Instruct 모델과 문맥 인식 임베딩 모델 조합 이 가장 우수한 성능을 달성했으며, 이는 언어 기반 의미론적 접근법이 시각적 특징만으로는 포착하기 어려운 회화 의 맥락적, 의미론적, 상징적 특성을 효과적으로 활용할 수 있음을 시사한다.

요약
Abstract
1. 서론
2. 관련 연구
2.1 이미지 검색 방법론
2.2 비지도 학습 기반 이미지 임베딩
2.3 Vision-Large Language Models
2.4 텍스트 임베딩 기반 검색
3. 제안하는 방법
3.1 데이터셋 수집
3.2 시스템 개요 및 문제 정의
3.3 Vision-LLM 기반 회화 설명 생성
3.4 문장 임베딩을 통한 의미론적 표현
3.5 유사도 기반 검색
4. 실험
4.1 실험 설정
4.2 실험 결과
5. 결론
Acknowledgements
참고문헌

키워드

이미지 검색 의미론적 임베딩 문장 임베딩 유사도 측정 문화유산 디지털화 컴퓨터 비전 Image Retrieval Semantic Embedding Sentence Embedding Similarity Measurement Cultural Heritage Digitization Computer Vision

저자

김유현 [ Yuhyun Kim | 국립한밭대학교 정보통신공학과 ]
김태섭 [ Taeseop Kim | 국립한밭대학교 정보통신공학과 ]
박효빈 [ Hyobin Park | 국립한밭대학교 정보통신공학과 ]
이지원 [ Jiwon Lee | 한국전자통신연구원 콘텐츠인식연구실 ]
최동걸 [ Dong-Geol Choi | 국립한밭대학교 정보통신공학과 ] 교신저자

참고문헌

자료제공 : 네이버학술정보

간행물 정보

발행기관

발행기관명

한국차세대컴퓨팅학회 [Korean Institute of Next Generation Computing]
설립연도
2005
분야
공학>컴퓨터학
소개
본 학회는 차세대 PC 및 그 관련분야의 학술활동을 통하여 차세대 PC의 학문 및 기술발전을 도모하고 산업발전 및 국제협력 증진을 목적으로 한다.

간행물

간행물명

한국차세대컴퓨팅학회 논문지 [THE JOURNAL OF KOREAN INSTITUTE OF NEXT GENERATION COMPUTING]
간기
격월간
pISSN
1975-681X
수록기간
2005~2026
등재여부
KCI 등재
십진분류
KDC 566 DDC 004

이 권호 내 다른 논문 / 한국차세대컴퓨팅학회 논문지 Vol.21 No.3

피인용수 : 0건 (자료제공 : 네이버학술정보)

함께 이용한 논문 이 논문을 다운로드한 분들이 이용한 다른 논문입니다.

출처 : 네이버학술정보

0개의 논문이 장바구니에 담겼습니다.

페이지 저장

소속기관 조회

이용자님의 소속기관(단체)이 서비스에 가입되어 있는지 확인해 보십시오.
기관회원에 소속되어 있는 이용자는 원문을 무료로 이용할 수 있습니다.

상호: 주식회사 학술교육원 I 대표: 노방용 I 사업자등록번호: 122-81-88227 I 통신판매업신고번호: 제2008-인천부평-00176호 I 정보보호책임자: 이두영
주소: (21319)인천광역시 부평구 영성중로 50 미래타워 701호 I 전화: 0505-555-0740 I 팩스: 0505-555-0741 I 이메일: earticle@earticle.net

음성지원 및 돋보기 서비스

Earticle

회화 이미지 검색을 위한 언어 기반 의미론적 임베딩
Language-Based Semantic Embedding for Artwork Image Retrieval

원문정보

초록

목차

키워드

저자

참고문헌

간행물 정보

발행기관

간행물

이 권호 내 다른 논문 / 한국차세대컴퓨팅학회 논문지 Vol.21 No.3

피인용수 : 0건 (자료제공 : 네이버학술정보)

함께 이용한 논문 이 논문을 다운로드한 분들이 이용한 다른 논문입니다.

Earticle

회화 이미지 검색을 위한 언어 기반 의미론적 임베딩 Language-Based Semantic Embedding for Artwork Image Retrieval

원문정보

초록

목차

키워드

저자

참고문헌

간행물 정보

발행기관

간행물

이 권호 내 다른 논문 / 한국차세대컴퓨팅학회 논문지 Vol.21 No.3

피인용수 : 0건 (자료제공 : 네이버학술정보)

함께 이용한 논문 이 논문을 다운로드한 분들이 이용한 다른 논문입니다.

회화 이미지 검색을 위한 언어 기반 의미론적 임베딩
Language-Based Semantic Embedding for Artwork Image Retrieval