Earticle

현재 위치 Home

기술 융합(TC)

언어모델의 단어벡터를 이용한 영화 텍스트 분석 기법 연구
Analysis Method Study of Film Text using Word Vectors of Language Model

첫 페이지 보기
  • 발행기관
    국제문화기술진흥원 바로가기
  • 간행물
    The Journal of the Convergence on Culture Technology (JCCT) KCI 등재 바로가기
  • 통권
    Vol.10 No.6 (2024.11)바로가기
  • 페이지
    pp.703-708
  • 저자
    고광호, 백주련
  • 언어
    영어(ENG)
  • URL
    https://www.earticle.net/Article/A462315

※ 원문제공기관과의 협약기간이 종료되어 열람이 제한될 수 있습니다.

원문정보

초록

영어
LSTM, a deep learning technique for building language models, can be easily trained on systems with small computing resources, unlike large language models. In this paper, we propose a convergent technique to train LSTM-based language models on small-scale texts and perform objective semantic and relational analysis on the main topic words of the text using the word vectors of the vocabulary comprising the text. Using the word vectors of a small language model trained on the English script of the 2021 movie "Green Knight" directed by David Lowery as a text, we proposed a technique that can analyze the meaning and relationship of the main topic words. Through the similarity operation of the word vector, the meaning and symbolism of each theme word can be objectively analyzed with the similarity scores between the words. The relationship between each theme word can be intuitively recognized by displaying the dimensionality-reduced two-dimensional word vector. By using a small-scale language model of the LSTM method, we proposed a method to analyze complex texts using word vectors while minimizing the cost of learning.
한국어
언어모델을 구축하기 위한 딥러닝 기법인 LSTM의 경우 대형언어모델과 달리 컴퓨팅 자원이 작은 시스템에서 도 수월하게 학습시킬 수 있다. 소규모 텍스트에 대해 LSTM 기반의 언어모델을 학습시키고, 텍스트를 구성하는 어 휘의 단어벡터를 이용하여 해당 텍스트의 주요 주제어에 대해 객관적인 의미 및 관계 분석을 할 수 있는 융복합적인 기법을 제안하였다. 데이비드 로워리 감독의 2021년도 영화 ‘그린 나이트’의 영어 대본을 텍스트로 삼아 학습시킨 소 규모 언어모델의 단어벡터를 이용하여 주요 주제어의 의미와 관계를 분석할 수 있는 기법을 제안하였다. 단어벡터의 유사도 연산을 통해 각 주제어들과 유사도가 높은 단어를 분석하여 그 의미와 상징성을 객관적으로 분석할 수 있고, 차원감소시킨 2차원 단어벡터를 도시하여 각 주제어들의 관계를 직관적으로 인식할 수 있었다. LSTM 방식의 소규 모 언어모델을 이용하여 학습에 필요한 비용을 최소화하면서도 복잡한 텍스트를 분석할 수 있는 단어벡터 활용법을 제안하였다.

목차

요약
Abstract
Ⅰ. Introduction
Ⅱ. Related Works
Ⅲ. Result and Analysis
1. Language Model
2. Word Vector - Similarity
3. Word Vector - Visualization
Ⅳ. Conclusion
References

키워드

딥러닝 단어벡터 녹색기사 유사도 영화텍스트 데이비드 로워리 Deep Learning Wordvector Green Knight Similarity Film Text David Lowery

저자

  • 고광호 [ Kwangho Ko | 정회원, 성균관대학교 응용AI융합학부 교수 ]
  • 백주련 [ Juryeon Paik | 정회원, 평택대학교 데이터정보학과 부교수 ] Corresponding Author

참고문헌

자료제공 : 네이버학술정보

간행물 정보

발행기관

  • 발행기관명
    국제문화기술진흥원 [The International Promotion Agency of Culture Technology]
  • 설립연도
    2009
  • 분야
    공학>공학일반
  • 소개
    본 진흥원은 문화기술(Culture Technology) 관련 산·학·연·관으로 구성된 비영리 단체이다. 문화기술(CT)은 정보통신기술(ICT), 문화적 사고 기반의 예술, 인문학, 디자인, 사회과학기술이 접목된 신융합기술(New Convergence Technology, NCT)로 정의한다. 인간의 삶의 질을 향상시키고, 진보된 방향으로 변화시키고, 문화기술 관련 분야의 학술 및 기술의 발전과 진흥에 공헌하기 위하여, 제3조의 필요한 사업을 행함을 그 목적으로 한다.

간행물

  • 간행물명
    The Journal of the Convergence on Culture Technology (JCCT) [문화기술의 융합]
  • 간기
    격월간
  • pISSN
    2384-0358
  • eISSN
    2384-0366
  • 수록기간
    2015~2025
  • 등재여부
    KCI 등재
  • 십진분류
    KDC 600 DDC 700

이 권호 내 다른 논문 / The Journal of the Convergence on Culture Technology (JCCT) Vol.10 No.6

    피인용수 : 0(자료제공 : 네이버학술정보)

    함께 이용한 논문 이 논문을 다운로드한 분들이 이용한 다른 논문입니다.

      페이지 저장