요약
Abstract
1. 서론
2. 서브 워드 분절 알고리즘 연구
2.1 Byte Pair Encoding
2.2 Unigram Language Model Tokenizer
2.3 BPE-Dropout
2.4 Word Piece Model
2.5 Sentence Piece
3. 한국어에 특화된 음절 기반 종성 토큰화 방법론
3.1 기존 연구
3.2 제안하는 방법론
4. 실험
4.1 데이터 및 모델
4.2 실험 결과
5. 결론
REFERENCES