Choe, Jae-Woong & Song, Ji-Young. 2013. The Topical Classification of Essays by College Student English Learners Using Hierarchical Clustering. Language Information. Volume 17. 93-115. In this study, we report on a set of experimentations for, and a successful completion of, the automatic topic classification of 3286 English essays (YELC) written by college level English learners in Korea. We adopted Hierarchical Agglomeration Clustering for our purpose. In order to find the best combination of distance measures and algorithms for hierarchical clustering, we first selected 100 essays, and then calculated precision rate on the basis of the subset of essays for each of the 15 combinations of 5 distance measures and 3 methods provided in R implementation of ‘Dist’ and ‘hclust’. As a result, the combination of ‘correlation’ and ‘ward’ method was chosen as the optimal one for our chosen corpus, which was applied to ten sets of randomly selected 100 essays for further validation. As a final step for topic classification, the ‘correlation’-‘ward’ combination was applied to classify the whole corpus into six topics. The precision rate was estimated to be 98.7%, a quite decent one for our purpose. We then conducted a Key word analysis on the six topic-groups, thereby showing some distributional characteristics of the words used in each group.
목차
Abstract 1. 서론 2. 대상 코퍼스: YELC 2011 3. 분석 방법 및 절차: 비감독 기반 계층적 군집화 3.1. 코퍼스 전처리 3.2. 자료변환 3.3. 군집화 4. 검증 및 적용 4.1. 임의의 파일 집합 선택을 통한 반복 검증 4.2. 전체 자료 분석 5. 군집별 핵심어 분석 6. 결론 참고문헌
고려대학교 언어정보연구소 [Research Institute for Language and Information]
설립연도
1993
분야
인문학>언어학
소개
언어정보연구소의 설립 목적은 자연언어 텍스트 및 정보 처리의 새로운 이론과 기술을 연구하고, 그 인문 사회과학적 활용을 발전시키는 데 있다. 이를 좀더 구체적으로 기술하면 다음과 같다. 1) 한국어 및 각종 외국어를 대상으로 대규모의 컴퓨터 데이타베이스를 구성하고, 이를 바탕으로 한 자연언어 처리 및 인문 사회과학적 연구를 추진한다. 2) 전자적 텍스트 및 정보 처리의 새로운 이론과 기술을 개발하고, 국내외 학계와의 협력 및 교류를 통해 본 대학의 유관 학문 분야의 발전을 촉진한다. 3) 본 연구소가 축적하는 데이타베이스를 바탕으로 새로운 차원의 각종 사전과 시소러스(thesaurus) 및 관련 연구 성과를 편찬하고 출판함으로써 새로운 정보 출판 문화의 발전에 기여한다. 4) 언어학 일반, 국어학 영어학 독어학 불어학 등의 개별 언어학, 전산학, 문학, 심리학, 사회학, 매스 커뮤니케이션 등 언어 정보의 분석과 관련된 학문 분야의 방법론적 발전 및 학제적 협력 증진에 기여한다.