Earticle

현재 위치 Home

문학 텍스트를 활용한 머신러닝 언어모델 구현
Machine Learning Language Model Implementation Using Literary Texts

첫 페이지 보기
  • 발행기관
    국제문화기술진흥원 바로가기
  • 간행물
    The Journal of the Convergence on Culture Technology (JCCT) KCI 등재 바로가기
  • 통권
    Vol.7 No.2 (2021.05)바로가기
  • 페이지
    pp.427-436
  • 저자
    전현구, 정기철, 권경아, 이인성
  • 언어
    한국어(KOR)
  • URL
    https://www.earticle.net/Article/A395577

※ 원문제공기관과의 협약기간이 종료되어 열람이 제한될 수 있습니다.

원문정보

초록

영어
The purpose of this study is to implement a machine learning language model that learns literary texts. Literary texts have an important characteristic that pairs of question-and-answer are not frequently clearly distinguished. Also, literary texts consist of pronouns, figurative expressions, soliloquies, etc. They hinder the necessity of machine learning using literary texts by making it difficult to learn algorithms. Algorithms that learn literary texts can show more human-friendly interactions than algorithms that learn general sentences. For this goal, this paper proposes three text correction tasks that must be preceded in researches using literary texts for machine learning language model: pronoun processing, dialogue pair expansion, and data amplification. Learning data for artificial intelligence should have clear meanings to facilitate machine learning and to ensure high effectiveness. The introduction of special genres of texts such as literature into natural language processing research is expected not only to expand the learning area of m achine learning, but to show a new language learning method.
한국어
본 연구의 목적은 문학 텍스트를 학습한 머신 러닝 언어 모델을 구현하는데 있다. 문학 텍스트는 일상 대화문 처럼 질문에 대한 답변이 분명하게 구분되지 않을 때가 많고 대명사와 비유적 표현, 지문, 독백 등으로 다양하게 구 성되어 있다는 특징이 있다. 이런 점들이 알고리즘의 학습을 용이하지 않게 하여 문학 텍스트를 활용하는 기계 학습 의 필요성을 저해시킨다. 문학 텍스트를 학습한 알고리즘이 일반 문장을 학습한 알고리즘에 비해 좀 더 인간 친화적 인 상호작용을 보일 가능성이 높다. 본 논문은 ‘문학 텍스트를 학습한 머신 러닝 언어 모델 구현’에 관한 연구로서, 대화형 기계 학습에 문학 텍스트를 활용하는 연구에서 필수적으로 선행되어야 할 세 가지 텍스트 보정 작업을 제안 한다: 대명사 처리, 대화쌍 늘리기, 데이터 증폭 등에 대한 내용으로 기계 학습이 용이하고 그 효과도 높다고 판단됩 니다. 인공지능을 위한 학습용 데이터는 그 의미가 명료해야 기계 학습이 용이하고 그 효과도 높게 나타난다. 문학과 같은 특수한 장르의 텍스트를 자연어 처리 연구에 도입하는 것은 새로운 언어 학습 방식의 제안과 함께 머신 러닝의 학습 영역도 확장시켜 줄 것이다.

목차

요약
Abstract
Ⅰ. 서론
Ⅱ. 관련 연구
Ⅲ. 원문 텍스트 보정 작업
1. 등장인물을 기준으로 질문-답변 구성
2. 텍스트를 기준으로 질문-답변 구성
3. 특정 캐릭터의 대화문만 추출한 경우
Ⅳ. 학습 과정
1. Seq2Seq 모델 학습
2. GPT-2 모델 학습
V. 결과 및 평가
1. Seq2Seq 학습 결과
2. GPT-2 학습 결과
VI. 결론 및 향후 연구
References

키워드

자연어 처리 머신 러닝 GPT-2 시퀀스 투 시퀀스 문학 텍스트 NLP Machine Learning GPT-2 Sequence to Sequence Literature

저자

  • 전현구 [ Hyeongu Jeon | 준회원, 숭실대학교 글로벌미디어학부 ] 제1저자
  • 정기철 [ Kichul Jung | 정회원, 숭실대학교 글로벌미디어학부 ] 제2저자
  • 권경아 [ Kyoungah Kwon | 정회원, 숭실대학교 글로벌미디어학부 ] 공동교신저자
  • 이인성 [ Insung Lee | 정회원, 숭실대학교 영어영문학과 ] 공동교신저자

참고문헌

자료제공 : 네이버학술정보

간행물 정보

발행기관

  • 발행기관명
    국제문화기술진흥원 [The International Promotion Agency of Culture Technology]
  • 설립연도
    2009
  • 분야
    공학>공학일반
  • 소개
    본 진흥원은 문화기술(Culture Technology) 관련 산·학·연·관으로 구성된 비영리 단체이다. 문화기술(CT)은 정보통신기술(ICT), 문화적 사고 기반의 예술, 인문학, 디자인, 사회과학기술이 접목된 신융합기술(New Convergence Technology, NCT)로 정의한다. 인간의 삶의 질을 향상시키고, 진보된 방향으로 변화시키고, 문화기술 관련 분야의 학술 및 기술의 발전과 진흥에 공헌하기 위하여, 제3조의 필요한 사업을 행함을 그 목적으로 한다.

간행물

  • 간행물명
    The Journal of the Convergence on Culture Technology (JCCT) [문화기술의 융합]
  • 간기
    격월간
  • pISSN
    2384-0358
  • eISSN
    2384-0366
  • 수록기간
    2015~2025
  • 등재여부
    KCI 등재
  • 십진분류
    KDC 600 DDC 700

이 권호 내 다른 논문 / The Journal of the Convergence on Culture Technology (JCCT) Vol.7 No.2

    피인용수 : 0(자료제공 : 네이버학술정보)

    함께 이용한 논문 이 논문을 다운로드한 분들이 이용한 다른 논문입니다.

      페이지 저장