In quantitative studies, a randomsample is supposed to be randomly selected by probability sampling in sucha way that it represents a population. The statistical analysis of corpus frequencydata is based on a random sample model, which assumes that the corpus wasrandomly selected from the language. However, Kilgarriff (2005), Evert (2006),Goh (2011) show that typical corpus data severely violate the randomnessassumption. This paper aims to evaluate random sampling methods for corpuslinguistics and to explore their characteristics and applicability. They are evaluatedon the relative frequencies of 30 morphemes and the frequencies of all morphemetypes which occur in each sample observed from 1,000 resampling trials basedon how close each random sample is to the normal distribution and theZipf-Mandelbrot (Mandelbrot 1977) law. The present study creates three findings. First, systematic sampling at the unit of measurement, i.e. individual words froman entire corpus is a best way to construct random samples for corpus linguistics. Second, the closer the relative frequencies of 30 morphemes in a sample lieto the normal distribution, the closer the frequency distribution of all morphemetypes to the Zipf-Mandelbrot distribution. Third, It is an effective way to utilizerandom samples for solving problems that stem from different sample size anddata sparseness. Moreover, using them facilitates detecting rather big differencein word frequencies obtained from different corpora.
목차
Abstract 1. 서론 2. 문제 제기 3. 연구 방법 4. 이론적 분포 평가 5. 무작위 표본의 활용 6. 결론 참고문헌
키워드
corpusrandom sampleprobability samplingsimple random samplingsystematic samplingunit of measurementunit of samplingZipf-Mandelbrot's lawnormal distributionvariation
고려대학교 언어정보연구소 [Research Institute for Language and Information]
설립연도
1993
분야
인문학>언어학
소개
언어정보연구소의 설립 목적은 자연언어 텍스트 및 정보 처리의 새로운 이론과 기술을 연구하고, 그 인문 사회과학적 활용을 발전시키는 데 있다. 이를 좀더 구체적으로 기술하면 다음과 같다. 1) 한국어 및 각종 외국어를 대상으로 대규모의 컴퓨터 데이타베이스를 구성하고, 이를 바탕으로 한 자연언어 처리 및 인문 사회과학적 연구를 추진한다. 2) 전자적 텍스트 및 정보 처리의 새로운 이론과 기술을 개발하고, 국내외 학계와의 협력 및 교류를 통해 본 대학의 유관 학문 분야의 발전을 촉진한다. 3) 본 연구소가 축적하는 데이타베이스를 바탕으로 새로운 차원의 각종 사전과 시소러스(thesaurus) 및 관련 연구 성과를 편찬하고 출판함으로써 새로운 정보 출판 문화의 발전에 기여한다. 4) 언어학 일반, 국어학 영어학 독어학 불어학 등의 개별 언어학, 전산학, 문학, 심리학, 사회학, 매스 커뮤니케이션 등 언어 정보의 분석과 관련된 학문 분야의 방법론적 발전 및 학제적 협력 증진에 기여한다.