Inferring CEFR and Its Companion Volume Reading Comprehension Indices Based on Japanese Document Classification Method with Binary Classification
CEFR Companion Volumeに対応した日本語例文自動分類手法 일본어례문자동분류수법
In recent years, a lot of attention is being paid to general-purpose frameworks that show what can be concretely done in using a target language for learners. In 2017, the Common European Framework of Reference for Languages (CEFR) Companion Volume was released. This volume complements the CEFR initially published in 2001, which is widely considered as an international standard for language ability, and introduces a Pre-A1 level. Conversely, there are few studies on CEFR for Japanese language education, and from the past studies, it was noted that there are no Japanese CEFR compliant text corpora. Thus, the present study aims to classify example sentences according to their corresponding Can-Do Statements (CDSs) to reduce efforts in creating a corpus. Support Vector Machine and Random Forest were applied to the classification approach where document types, specialty, sentence length, and kanji ratio have been given as the features of example sentences. The Pre-A1 level has a great difference in difficulty level and constituent language elements from the previous level groups. Therefore, our study seeks to improve the accuracy through binary classification combined with incorporation of the past method of classifying all levels of CDSs at once. Moreover, we also developed a web application that would help attach CDSs efficiently to example sentences and provide example sentence collections corresponding to specific CDSs.
한국어
최근 학습중인 언어를 사용하여 구체적으로 무엇을 할 수 있는지를 나타내는 범용 체계에 큰 관심이 모아지고 있다. 그 중에서도 2001년에 유럽위원회가 발표한 Common European Framework of Reference for Languages (CEFR)는 언어능력의 국제표 준으로 세계적으로 평가가 높다. 2017년에는 그것을 보완하는 CEFR Companion Volume이 공개되어, PreA1 레벨이 추가되는 등 더욱 더 레벨이 세분화되었다. CEFR 를 사용한 연구와 실천 예는 영어를 비롯한 많은 언어에서 이루어지고 있는 반면, 일 본어 교육을 염두에 둔 CEFR연구는 수적으로도 여전히 적으며, 일본어 CEFR준수 텍 스트 코퍼스도 현재까지의 연구 결과 존재하지 않는다. 본 연구에서는, 코퍼스를 작성 할 때 발생하는, 예문에 CEFR의 독해력을 반영하는 Can-Do Statements (CDS)를 부여 하는 노력을 경감하기 위해 자동분류 실장(実装)에 대해 지속적으로 연구하고 있다. 분류 방법에는 Support Vector Machine과 랜덤 포레스트에 의한 지도 학습을 적용하 고, 기계 학습을 위한 예문의 특징량으로써 문서 유형, 전문성, 문장 길이, 한자 비율 4 개를 사용한다. Pre-A1 레벨은 종전 레벨 군과 난이도와 구성언어요소에 큰 차이가 있기 때문에, 모든 레벨의 CDS를 한 번에 분류하는 과거 방식에 비해 2 단계에 따른 CDS 분류에 따른 정확도 향상을 목표로 하였다. 또한, Web 어플리케이션의 개발을 실시하여, 자동 분류 알고리즘을 내부 구현함으로써, 주어진 예문에 대하여 이에 대응 하는CDS를 자동 부여하는 기능과, 특정 CDS를 선택함으로써 이에 해당하는 예문 리 스트를 그 확실성 순으로 제공하는 기능을 제공하고 있다.
본 한국일본학회는 일본관련 학회로는 1973년에 한국 최초로 성립되어 2015년 3월 현재 가입회원수 기준 1000여명에 달하는 방대한 학회로 발전하였다. 본 학회는 일본어학 및 일본학은 물론,일본의교육,사상,역사,민속 등 일본학 전반에 걸친 연구와 한일간의 일본학 전반에 걸친 비교 연구를 대상으로 하는 학회로서 회원들의 연구기회 제공과 정보의 교류를 주된 목표로 하고 있다. 분회 발표를 포함하여 매년 20회 가까운 학술발표회와 국제학술대회를 개최 함으로서 발표 기회의 제공과 함께 회원 상호간의 친목 도모의 장으로도 활용하며 건전한 학회발전을 지향하고 있다.