Earticle

다운로드

공공 한영 병렬 말뭉치를 이용한 기계번역 성능 향상 연구
A Study on the Performance Improvement of Machine Translation Using Public Korean-English Parallel Corpus

  • 간행물
    디지털융복합연구 KCI 등재 바로가기
  • 권호(발행년)
    제18권 제6호 (2020.06) 바로가기
  • 페이지
    pp.271-277
  • 저자
    박찬준, 임희석
  • 언어
    한국어(KOR)
  • URL
    https://www.earticle.net/Article/A377496

원문정보

초록

한국어
기계번역이란 소스언어를 목적언어로 컴퓨터가 번역하는 소프트웨어를 의미하며 규칙기반, 통계기반 기계번역 을 거쳐 최근에는 인공신경망 기반 기계번역에 대한 연구가 활발히 이루어지고 있다. 인공신경망 기계번역에서 중요한 요소 중 하나로 고품질의 병렬 말뭉치를 뽑을 수 있는데 이제까지 한국어 관련 언어쌍의 고품질 병렬 코퍼스를 구하기 쉽지 않은 실정이었다. 최근 한국정보화진흥원의 AI HUB에서 고품질의 160만 문장의 한-영 기계번역 병렬 말뭉치를 공개하였다. 이에 본 논문은 AI HUB에서 공개한 데이터 및 현재까지 가장 많이 쓰인 한-영 병렬 데이터인 OpenSubtitles와 성능 비교를 통해 각각의 데이터의 품질을 검증하고자 한다. 테스트 데이터로 한-영 기계번역 관련 공식 테스트셋인 IWSLT에서 공개한 테스트셋을 이용하여 보다 객관성을 확보하였다. 실험결과 동일한 테스트셋으로 실험한 기존의 한-영 기계번역 관련 논문들보다 좋은 성능을 보임을 알 수 있었으며 이를 통해 고품질 데이터의 중요성 을 알 수 있었다.
영어
Machine translation refers to software that translates a source language into a target language, and has been actively researching Neural Machine Translation through rule-based and statistical-based machine translation. One of the important factors in the Neural Machine Translation is to extract high quality parallel corpus, which has not been easy to find high quality parallel corpus of Korean language pairs. Recently, the AI HUB of the National Information Society Agency(NIA) unveiled a high-quality 1.6 million sentences Korean-English parallel corpus. This paper attempts to verify the quality of each data through performance comparison with the data published by AI Hub and OpenSubtitles, the most popular Korean-English parallel corpus. As test data, objectivity was secured by using test set published by IWSLT, official test set for Korean-English machine translation. Experimental results show better performance than the existing papers tested with the same test set, and this shows the importance of high quality data.

목차

요약
Abstract
1. 서론
2. 관련 연구
2.1 규칙기반 기계번역
2.2 통계기반 기계번역
2.3 인공신경망기반 기계번역
2.4 국내 딥러닝 기반 한-영 기계번역 연구
3. 한-영 병렬 말뭉치 공공데이터
4. 실험 및 실험결과
4.1 데이터셋
4.2 학습
4.3 실험 결과
5. 결론
REFERENCES

저자

  • 박찬준 [ Chanjun Park | 고려대학교 컴퓨터학과 석박사통합과정 ]
  • 임희석 [ Heuiseok Lim | 고려대학교 컴퓨터학과 교수 ] Corresponding Author

참고문헌

자료제공 : 네이버학술정보

    간행물 정보

    • 간행물
      디지털융복합연구 [Journal of Digital Convergence]
    • 간기
      계간
    • pISSN
      2713-6434
    • eISSN
      2713-6442
    • 수록기간
      2003~2026
    • 등재여부
      KCI 등재후보
    • 십진분류
      KDC 569 DDC 620