Earticle

현재 위치 Home

논문

회화 이미지 검색을 위한 언어 기반 의미론적 임베딩
Language-Based Semantic Embedding for Artwork Image Retrieval

첫 페이지 보기
  • 발행기관
    한국차세대컴퓨팅학회 바로가기
  • 간행물
    한국차세대컴퓨팅학회 논문지 KCI 등재 바로가기
  • 통권
    Vol.21 No.3 (2025.06)바로가기
  • 페이지
    pp.74-88
  • 저자
    김유현, 김태섭, 박효빈, 이지원, 최동걸
  • 언어
    한국어(KOR)
  • URL
    https://www.earticle.net/Article/A468717

원문정보

초록

영어
As the digitization of cultural heritage accelerates to improve preservation and accessibility, the importance of effective artwork image retrieval systems is increasing. However, existing unsupervised learning-based image embedding methods such as DINOv2 show limited performance in the artwork domain, which is characterized by datasets lacking labels and subtle visual differences that represent completely different artistic genres. This study proposes a novel approach to overcome these limitations by utilizing Vision-LLMs to generate rich textual descriptions of artwork images, vectorizing them through sentence embedding models, and performing semantic similarity-based retrieval. Through systematic comparison of various Vision-LLM models, sentence embedding models, and similarity measurement methods, the proposed approach achieved 79.17% accuracy and 0.6771 mAP, demonstrating a 171.41% improvement in accuracy and 211.45% improvement in mAP compared to the existing unsupervised learning-based approach DINOv2. In particular, the combination of the Qwen2.5-VL-3B-Instruct model and context-aware embedding models achieved the best performance, suggesting that language-based semantic approaches can effectively leverage contextual, semantic, and symbolic characteristics of artworks that are difficult to capture through visual features alone.
한국어
문화유산 보존과 접근성 향상을 위한 디지털화가 가속화됨에 따라, 효과적인 회화 이미지 검색 시스템의 중요성이 증가하고 있다. 그러나 라벨이 부족한 데이터셋과 미세한 시각적 차이가 완전히 다른 예술 장르를 나타내는 회화 도 메인의 특성으로 인해, DINOv2와 같은 기존의 비지도 학습 기반 이미지 임베딩 방법은 제한적인 성능을 보인다. 본 연구에서는 이러한 한계를 극복하기 위해 Vision-LLM을 활용하여 회화 이미지에 대한 풍부한 텍스트 설명을 생성하고, 이를 문장 임베딩 모델을 통해 벡터화하여 의미론적 유사도 기반 검색을 수행하는 새로운 접근법을 제안 한다. 다양한 Vision-LLM 모델과 문장 임베딩 모델, 유사도 측정 방법을 체계적으로 비교한 결과, 제안된 방법은 accuracy 79.17%, mAP 0.6771로 기존 비지도 학습 기반 접근법인 DINOv2 대비 Accuracy에서 171.41%, mAP에서 211.45% 향상된 성능을 보였다. 특히 Qwen2.5-VL-3B-Instruct 모델과 문맥 인식 임베딩 모델 조합 이 가장 우수한 성능을 달성했으며, 이는 언어 기반 의미론적 접근법이 시각적 특징만으로는 포착하기 어려운 회화 의 맥락적, 의미론적, 상징적 특성을 효과적으로 활용할 수 있음을 시사한다.

목차

요약
Abstract
1. 서론
2. 관련 연구
2.1 이미지 검색 방법론
2.2 비지도 학습 기반 이미지 임베딩
2.3 Vision-Large Language Models
2.4 텍스트 임베딩 기반 검색
3. 제안하는 방법
3.1 데이터셋 수집
3.2 시스템 개요 및 문제 정의
3.3 Vision-LLM 기반 회화 설명 생성
3.4 문장 임베딩을 통한 의미론적 표현
3.5 유사도 기반 검색
4. 실험
4.1 실험 설정
4.2 실험 결과
5. 결론
Acknowledgements
참고문헌

키워드

이미지 검색 의미론적 임베딩 문장 임베딩 유사도 측정 문화유산 디지털화 컴퓨터 비전 Image Retrieval Semantic Embedding Sentence Embedding Similarity Measurement Cultural Heritage Digitization Computer Vision

저자

  • 김유현 [ Yuhyun Kim | 국립한밭대학교 정보통신공학과 ]
  • 김태섭 [ Taeseop Kim | 국립한밭대학교 정보통신공학과 ]
  • 박효빈 [ Hyobin Park | 국립한밭대학교 정보통신공학과 ]
  • 이지원 [ Jiwon Lee | 한국전자통신연구원 콘텐츠인식연구실 ]
  • 최동걸 [ Dong-Geol Choi | 국립한밭대학교 정보통신공학과 ] 교신저자

참고문헌

자료제공 : 네이버학술정보

간행물 정보

발행기관

  • 발행기관명
    한국차세대컴퓨팅학회 [Korean Institute of Next Generation Computing]
  • 설립연도
    2005
  • 분야
    공학>컴퓨터학
  • 소개
    본 학회는 차세대 PC 및 그 관련분야의 학술활동을 통하여 차세대 PC의 학문 및 기술발전을 도모하고 산업발전 및 국제협력 증진을 목적으로 한다.

간행물

  • 간행물명
    한국차세대컴퓨팅학회 논문지 [THE JOURNAL OF KOREAN INSTITUTE OF NEXT GENERATION COMPUTING]
  • 간기
    격월간
  • pISSN
    1975-681X
  • 수록기간
    2005~2026
  • 등재여부
    KCI 등재
  • 십진분류
    KDC 566 DDC 004

이 권호 내 다른 논문 / 한국차세대컴퓨팅학회 논문지 Vol.21 No.3

    피인용수 : 0(자료제공 : 네이버학술정보)

    함께 이용한 논문 이 논문을 다운로드한 분들이 이용한 다른 논문입니다.

      페이지 저장