공공 한영 병렬 말뭉치를 이용한 기계번역 성능 향상 연구

박찬준; 임희석

216.73.216.95

개인회원 가입

개인회원
기관회원

개인회원 로그인

개인회원 가입으로 더욱 편리하게 이용하세요. 개인회원 가입

아이디/비밀번호를 잊으셨나요? 아이디/비밀번호 찾기

기관회원 로그인

소속기관에서 검색되지 않는 기관은 무료원문다운이 불가능합니다. 개인회원 가입 후 유료구매를 하시거나 소속기관 도서관에 이용문의해 주세요.

Home

기술

공공 한영 병렬 말뭉치를 이용한 기계번역 성능 향상 연구
A Study on the Performance Improvement of Machine Translation Using Public Korean-English Parallel Corpus

발행기관

한국디지털정책학회 바로가기
간행물

디지털융복합연구 KCI 등재 바로가기
통권

제18권 제6호 (2020.06)바로가기
페이지

pp.271-277
저자

박찬준, 임희석
언어

한국어(KOR)
URL

https://www.earticle.net/Article/A377496

※ 기관로그인 시 무료 이용이 가능합니다.

4,000원

원문정보

초록

영어: Machine translation refers to software that translates a source language into a target language, and has been actively researching Neural Machine Translation through rule-based and statistical-based machine translation. One of the important factors in the Neural Machine Translation is to extract high quality parallel corpus, which has not been easy to find high quality parallel corpus of Korean language pairs. Recently, the AI HUB of the National Information Society Agency(NIA) unveiled a high-quality 1.6 million sentences Korean-English parallel corpus. This paper attempts to verify the quality of each data through performance comparison with the data published by AI Hub and OpenSubtitles, the most popular Korean-English parallel corpus. As test data, objectivity was secured by using test set published by IWSLT, official test set for Korean-English machine translation. Experimental results show better performance than the existing papers tested with the same test set, and this shows the importance of high quality data.

한국어: 기계번역이란 소스언어를 목적언어로 컴퓨터가 번역하는 소프트웨어를 의미하며 규칙기반, 통계기반 기계번역 을 거쳐 최근에는 인공신경망 기반 기계번역에 대한 연구가 활발히 이루어지고 있다. 인공신경망 기계번역에서 중요한 요소 중 하나로 고품질의 병렬 말뭉치를 뽑을 수 있는데 이제까지 한국어 관련 언어쌍의 고품질 병렬 코퍼스를 구하기 쉽지 않은 실정이었다. 최근 한국정보화진흥원의 AI HUB에서 고품질의 160만 문장의 한-영 기계번역 병렬 말뭉치를 공개하였다. 이에 본 논문은 AI HUB에서 공개한 데이터 및 현재까지 가장 많이 쓰인 한-영 병렬 데이터인 OpenSubtitles와 성능 비교를 통해 각각의 데이터의 품질을 검증하고자 한다. 테스트 데이터로 한-영 기계번역 관련 공식 테스트셋인 IWSLT에서 공개한 테스트셋을 이용하여 보다 객관성을 확보하였다. 실험결과 동일한 테스트셋으로 실험한 기존의 한-영 기계번역 관련 논문들보다 좋은 성능을 보임을 알 수 있었으며 이를 통해 고품질 데이터의 중요성 을 알 수 있었다.

요약
Abstract
1. 서론
2. 관련 연구
2.1 규칙기반 기계번역
2.2 통계기반 기계번역
2.3 인공신경망기반 기계번역
2.4 국내 딥러닝 기반 한-영 기계번역 연구
3. 한-영 병렬 말뭉치 공공데이터
4. 실험 및 실험결과
4.1 데이터셋
4.2 학습
4.3 실험 결과
5. 결론
REFERENCES

키워드

기계번역 공공데이터 트랜스포머 병렬 말뭉치 인공신경망 기계번역 Machine Translation Public Data Parallel Corpus Transformer Neural Machine Translation

저자

박찬준 [ Chanjun Park | 고려대학교 컴퓨터학과 석박사통합과정 ]
임희석 [ Heuiseok Lim | 고려대학교 컴퓨터학과 교수 ] Corresponding Author

참고문헌

자료제공 : 네이버학술정보

간행물 정보

발행기관

발행기관명

한국디지털정책학회 [The Society of Digital Policy & Management]
설립연도
2003
분야
복합학>과학기술학
소개
디지털기술 및 산업정책, 디지털경제, 관련 산업의 연구, 전자정부, 디지털정치에 관한 제도적, 정책적 연구, 디지털경영, 전자상거래, e-비즈니스에 관한 실용적 연구, 학술연구지 발간 및 학술대회 개최 등을 통하여 디지털경제 및 디지털경영에 관련되는 국가정책 분야의 연구 및 교류를 촉진하고 국가 및 기업 정보화와 디지털산업의 발전에 공헌한다.

간행물

간행물명

디지털융복합연구 [Journal of Digital Convergence]
간기
계간
pISSN
2713-6434
eISSN
2713-6442
수록기간
2003~2026
등재여부
KCI 등재후보
십진분류
KDC 569 DDC 620

이 권호 내 다른 논문 / 디지털융복합연구 제18권 제6호

피인용수 : 0건 (자료제공 : 네이버학술정보)

함께 이용한 논문 이 논문을 다운로드한 분들이 이용한 다른 논문입니다.

출처 : 네이버학술정보

0개의 논문이 장바구니에 담겼습니다.

페이지 저장

소속기관 조회

이용자님의 소속기관(단체)이 서비스에 가입되어 있는지 확인해 보십시오.
기관회원에 소속되어 있는 이용자는 원문을 무료로 이용할 수 있습니다.

상호: 주식회사 학술교육원 I 대표: 노방용 I 사업자등록번호: 122-81-88227 I 통신판매업신고번호: 제2008-인천부평-00176호 I 정보보호책임자: 이두영
주소: (21319)인천광역시 부평구 영성중로 50 미래타워 701호 I 전화: 0505-555-0740 I 팩스: 0505-555-0741 I 이메일: earticle@earticle.net

음성지원 및 돋보기 서비스

Earticle

공공 한영 병렬 말뭉치를 이용한 기계번역 성능 향상 연구
A Study on the Performance Improvement of Machine Translation Using Public Korean-English Parallel Corpus

원문정보

초록

목차

키워드

저자

참고문헌

간행물 정보

발행기관

간행물

이 권호 내 다른 논문 / 디지털융복합연구 제18권 제6호

피인용수 : 0건 (자료제공 : 네이버학술정보)

함께 이용한 논문 이 논문을 다운로드한 분들이 이용한 다른 논문입니다.

Earticle

공공 한영 병렬 말뭉치를 이용한 기계번역 성능 향상 연구 A Study on the Performance Improvement of Machine Translation Using Public Korean-English Parallel Corpus

원문정보

초록

목차

키워드

저자

참고문헌

간행물 정보

발행기관

간행물

이 권호 내 다른 논문 / 디지털융복합연구 제18권 제6호

피인용수 : 0건 (자료제공 : 네이버학술정보)

함께 이용한 논문 이 논문을 다운로드한 분들이 이용한 다른 논문입니다.

공공 한영 병렬 말뭉치를 이용한 기계번역 성능 향상 연구
A Study on the Performance Improvement of Machine Translation Using Public Korean-English Parallel Corpus