A quantified reasoning and description of the perplexity for evaluating language models by using the concept of information entropy is discussed in this article: The smaller the entropy of the language estimated by the language model is, the more precise the language model is; an interpolated model based on two (n‐1)‐gram models is better than the (n‐1)‐gram component models, but not a n‐gram model. We also explore the methods to estimating the entropy of Chinese using language models.
목차
Abstract 1. Introduction 2. Performance Appraising of Language ModelsBased on Entropy 3. Performance Appraising of Language ModelsBased on Perplexity 4. Estimating Chinese Entropy Based onStatistical Language Models 4.1 A Method to Estimate the Entropy of Chinese 4.2 Estimation of the Entropy of Chinese UsingSome Statistical Models 4.3 Performance Comparison of Several ChineseStatistical Models 5. Conclusion References
키워드
Language ModelsPerplexityEntropyinformation theory
저자
Yangsen Zhang [ Institute of Computational Linguistics, Peking University ]
Correspondin
Shiwen Yu [ Institute of Computational Linguistics, Peking University ]
한국어정보학회 [Korean Language Information Science Society]
설립연도
1990
분야
인문학>언어학
소개
학술적인 연구를 통하여 국어정보처리에 관련된 이론 체계를 정립하고, 산업계와의 긴밀한 협동을 통하여 정보처리 기술을 향상 시키면서 정보산업의 성장을 돕고, 대중적인 교육과 홍보를 통하여 발전된 정보 처리의 기술을 보급하므로써 국어의 문화적 가치를 높히고 국어정보 처리 기술의 국제적 지위향상과 표준화에 기여하고자 합니다.