本稿は、近代日本語文献を電子化する際に、どの符号化文字集合に依拠するのが現状では最も適切かを検討した。具体的には、JIS X 0208に依拠して作成された「太陽コーパス」を、JIS X 0213及びUnicode 4.0で再符号化処理を行い、カバー率と稼働率を算定した。カバー率は、のべ字数ではJIS X 0208:99.79%、JIS X 0213:99.93%、Unicode 4.0:99.93%となり、異なり字数ではJIS X 0208:79.58%、JIS X 0213:92.02%、Unicode 4.0:98.49%となり、約6,800字集合のJIS X 0208よりも約11,000字集合のJIS X 0213、JIS X 0213よりも約70,000字集合のUnicode 4.0と、集合の規模が大きくなればなるほど、カバー率が高くなり、有用な符号化文字集合と言える。一方稼働率は、JIS X 0208:約87%、JIS X 0213:約62%、Unicode 4.0:約11%となり、集合の規模が大きくなればなるほど、集合の中で稼働する文字の割合が低くなり、電子化する際のコストの増大が見込まれる。JIS X 0208は稼働率の面で低コストであるがカバー率の面で不足し、Unicode 4.0はカバー率の面で優れているが稼働率の面でコストが高い。カバー率と稼働率の双方を勘案すると、現状ではJIS X 0213の11,000字集合が、近代日本語文献の電子化に適しているという結論を得た。
목차
1. はじめに 2. JIS X 0208とJIS X 0213 3. 「太陽コーパス」の文字処理 4. 「太陽コーパス」のJIS X 0213による符号化 5. 「太陽コーパス」のUnicodeによる符号化 6. おわりに [參考文獻] <要旨>
한국일본언어문화학회 [Japanese Language & Culture Association of Korea]
설립연도
2001
분야
인문학>일본어와문학
소개
본 학회는 일본어학 및 일본문학은 물론, 일본의 정치, 경제, 문화, 사회 등의 일본학 전반에 걸친 연구 및 일본의 언어, 문화를 매체로 한 한국과의 비교 연구를 대상으로 하고 있다. 본 학회는 회원들에게 연구 발표 및 정보 교환의 기회를 부여하고 나아가 한국에서의 바람직한 일본 연구 자세를 확립하는 것을 주된 목표로 하고 있다.