Automatic Post Editing(APE) is the study that automatically correcting errors included in the machine translated sentences. The goal of APE task is to generate error correcting models that improve translation quality, regardless of the translation system. For training these models, source sentence, machine translation, and post edit, which is manually edited by human translator, are utilized. Especially in the recent APE research, multilingual pretrained language models are being adopted, prior to the training by APE data. This study deals with multilingual pretrained language models adopted to the latest APE researches, and the specific application method for each APE study. Furthermore, based on the current research trend, we propose future research directions utilizing translation model or mBART model.
한국어
기계번역 사후교정이란, 기계번역 문장에 포함된 오류를 자동으로 교정하기 위해 제안된 연구 분야이다. 이는 번역 시스템과 관계없이 번역문의 품질을 높이는 오류 교정 모델을 생성하는 목적을 가진 연구로, 훈련을 위해 소스 문장, 번역문, 그리고 이를 사람이 직접 교정한 문장이 활용된다. 특히, 최신 기계번역 사후교정 연구에서는 사후교정 데이터를 통한 학습을 진행하기 이전에, 사전학습된 다국어 언어모델을 활용하는 방법이 적용되고 있다. 이에 본 논문은 최신 연구들에서 활용되고 있는 다국어 사전학습 언어모델들과 함께, 해당 모델을 도입한 각 연구에서의 구체적인 적용 방법을 소개한다. 나아가 이를 기반으로, 번역 모델과 mBART모델을 활용하는 향후 연구 방향을 제안한다.
목차
요약 Abstract 1. 서론 2. 기계번역 사후교정 선행 연구 3. 다국어 사전학습 언어모델 3.1 mBERT 3.2 XLM 3.3 XLM-R 3.4 mBART 4. 기계번역 사후교정 연구 동향 분석 4.1 인코더 전이학습 4.2 번역 모델 기반 교정 모델 4.3 기계번역 품질 예측 기반 사후 교정 5. 향후 연구 방향성 논의 6. 결론 REFERENCES
키워드
딥러닝자연어처리언어 융합기계번역기계번역 사후교정사전학습 모델Deep LearningNatural Language ProcessLanguage ConvergenceMachine TranslationAutomatic Post EditingPretrained model
저자
문현석 [ Hyeonseok Moon | 고려대학교 컴퓨터학과 석·박사통합과정 ]
박찬준 [ Chanjun Park | 고려대학교 컴퓨터학과 석·박사통합과정 ]
어수경 [ Sugyeong Eo | 고려대학교 컴퓨터학과 석·박사통합과정 ]
서재형 [ Jaehyung Seo | 고려대학교 컴퓨터학과 석·박사통합과정 ]
임희석 [ Heuiseok Lim | 고려대학교 컴퓨터학과 교수 ]
Corresponding author
한국디지털정책학회 [The Society of Digital Policy & Management]
설립연도
2003
분야
복합학>과학기술학
소개
디지털기술 및 산업정책, 디지털경제, 관련 산업의 연구, 전자정부, 디지털정치에 관한 제도적, 정책적 연구, 디지털경영, 전자상거래, e-비즈니스에 관한 실용적 연구, 학술연구지 발간 및 학술대회 개최 등을 통하여 디지털경제 및 디지털경영에 관련되는 국가정책 분야의 연구 및 교류를 촉진하고 국가 및 기업 정보화와 디지털산업의 발전에 공헌한다.