일본어 텍스트의 가독성 레벨 분석 - 구舊일본어능력시험 기출문제 데이터에 대한 통계적 검증을 기반으로 -
Assessment Formula of Japanese Text Readability Level Based on Previous JLPT Reading Section Corpus
Text readability is a statistical measure of the level and the difficulty of the text, and is influenced by various factors. This work aimed to extract only those factors that can be quantified in a Japanese text from among the various factors that may affect the readability of the text, which were then used to analyze the level through statistical techniques. Through these processes I verified the validity of each of the factors, and have developed a formula that forms the core of the readability level analytical system. Specifically, by using Pierce correlation analysis on the ‘JLPT reading section Corpus’, which consists of 437 reading texts extracted from the last 20 years of previous JLPT, I propose that ‘Morpheme number per sentence’, ‘Kanji percentage’, ‘N4 grade Kanji percentage’, ‘N3 grade Kanji percentage’, ‘N2 grade Kanji percentage’, ‘N1 grade Kanji percentage’ are applicable readability metrics for Japanese text. Using the above readability metrics, the readability was calculated by performing a multiple linear regression analysis using the following Japanese text readability formula. [Japanese text Readability Level Formula] - AR2: 0.7848, p-value: < 2.2e-16 y=4.041029 - 0.011292x1 - 0.022071x2 - 0.016339x3 - 0.026349x5 - 0.046882x6 -y : Japanese text level = Readability -x1 : Morpheme number per sentence,x2 : Kanji percentage, x3: N4 grade Kanji percentage, x4 : N3 grade Kanji percentage, x5 : N2 grade Kanji percentage, x6 : N1 grade Kanji percentage
한국어
텍스트 가독성은 텍스트의 수준 및 난이도를 평가하는 통계적 척도로, 다양한 요인에 의해 영향을 받는다. 본고에서는 이러한 일본어 텍스트의 가독성 레벨에 영향을 미치리라 생각되는 다양한 요인들 중에서도 텍스트 영역에서 수치화 할 수 있는 요인들만을 추출하여 이를 통계적 기법을 통해 분석했다. 이를 통해 각각의 요인들의 유효성을 검증하고, 이를 바탕으로 가독성 레벨 판정 시스템의 핵심이 되는 가독성 레벨 공식을 개발했다. 구체적으로 최근 20년간의 구舊JLPT(1급~4급) 독해ㆍ문법 영역 중 독해 지문만을 선별하여 구축한 ‘JLPT 독해 지문 데이터베이스’를 기반으로 피어스 상관분석을 수행하여, 텍스트의 ‘문장 당 형태소’, ‘한자비율(%)’, ‘N4급 출제기준 한자 비율’, ‘N3 출제기준 한자 비율’, ‘N2 출제기준 한자 비율’, ‘N1 출제기준 한자 비율’을 변수로 설정하고, 다시금 다중 선형회귀 분석을 통해 다음과 같은 일본어 텍스트 가독성 공식을 산출했다. [일본어 텍스트의 가독성 레벨 공식] - AR2: .7848, p-value: < 2.2e-16 y=4.041029 - 0.011292x1 - 0.022071x2 - 0.016339x3 - 0.026349x5 - 0.046882x6 -y : 일본어 텍스트 레벨-x1 : 문장 당 형태소 수, x2 : 한자비율(%), x3 : N4급 출제기준 한자비율(%), x4 : N3 출제기준 한자비율(%), x5 : N2 출제기준 한자비율(%), x6 : N1 출제기준 한자비율(%)
목차
1. 들어가며 2. 선행연구 및 문제점 3. 연구방법 3.1. 연구 대상 및 가독성 분석을 위한 텍스트 영역 분석항목 3.2. 통계 분석 4. 일본어 텍스트 수준과 가독성 4.1 상관관계 - 피어슨 상관분석 4.2. 단순 선형회귀분석 4.3. 다중 선형회귀 분석 5. 맺음말 참고문헌(Reference) <要旨>
키워드
가독성가독성 공식텍스트 레벨일본어 텍스트 가독성지표코퍼스일본어능력시험상관분석선형회귀분석가독성 분석기AJ-JpnRa ToolReadabilityReadability FormulaReadability metrics for Japanese textCorpusText LevelJLPTCorrelation AnalysisLinear Regression AnalysisReadability AnalyzerAJ-JpnRa Tool
본 한국일본학회는 일본관련 학회로는 1973년에 한국 최초로 성립되어 2015년 3월 현재 가입회원수 기준 1000여명에 달하는 방대한 학회로 발전하였다. 본 학회는 일본어학 및 일본학은 물론,일본의교육,사상,역사,민속 등 일본학 전반에 걸친 연구와 한일간의 일본학 전반에 걸친 비교 연구를 대상으로 하는 학회로서 회원들의 연구기회 제공과 정보의 교류를 주된 목표로 하고 있다. 분회 발표를 포함하여 매년 20회 가까운 학술발표회와 국제학술대회를 개최 함으로서 발표 기회의 제공과 함께 회원 상호간의 친목 도모의 장으로도 활용하며 건전한 학회발전을 지향하고 있다.