Earticle

현재 위치 Home

近代日本語文献を電子化するための文字集合 -「太陽コーパス」をJIS X 0213で表現する-
근대일본어문헌を전자화するための문자집합 -「태양コーパス」をJIS X 0213で표현する-

첫 페이지 보기
  • 발행기관
    한국일본언어문화학회 바로가기
  • 간행물
    일본언어문화 바로가기
  • 통권
    제23집 (2012.12)바로가기
  • 페이지
    pp.163-184
  • 저자
    高田智和
  • 언어
    일본어(JPN)
  • URL
    https://www.earticle.net/Article/A280530

※ 기관로그인 시 무료 이용이 가능합니다.

5,800원

원문정보

초록

일본어
本稿は、近代日本語文献を電子化する際に、どの符号化文字集合に依拠するのが現状では最も適切かを検討した。具体的には、JIS X 0208に依拠して作成された「太陽コーパス」を、JIS X 0213及びUnicode 4.0で再符号化処理を行い、カバー率と稼働率を算定した。カバー率は、のべ字数ではJIS X 0208:99.79%、JIS X 0213:99.93%、Unicode 4.0:99.93%となり、異なり字数ではJIS X 0208:79.58%、JIS X 0213:92.02%、Unicode 4.0:98.49%となり、約6,800字集合のJIS X 0208よりも約11,000字集合のJIS X 0213、JIS X 0213よりも約70,000字集合のUnicode 4.0と、集合の規模が大きくなればなるほど、カバー率が高くなり、有用な符号化文字集合と言える。一方稼働率は、JIS X 0208:約87%、JIS X 0213:約62%、Unicode 4.0:約11%となり、集合の規模が大きくなればなるほど、集合の中で稼働する文字の割合が低くなり、電子化する際のコストの増大が見込まれる。JIS X 0208は稼働率の面で低コストであるがカバー率の面で不足し、Unicode 4.0はカバー率の面で優れているが稼働率の面でコストが高い。カバー率と稼働率の双方を勘案すると、現状ではJIS X 0213の11,000字集合が、近代日本語文献の電子化に適しているという結論を得た。

목차

1. はじめに
 2. JIS X 0208とJIS X 0213
 3. 「太陽コーパス」の文字処理
 4. 「太陽コーパス」のJIS X 0213による符号化
 5. 「太陽コーパス」のUnicodeによる符号化
 6. おわりに
 [參考文獻]
 <要旨>

키워드

JIS X 0208 JIS X 0213 Unicode 太陽コーパス 外字

저자

  • 高田智和 [ 国立国語研究所 理論・構造研究系 准教授, 日本語学(文字・表記) ]

참고문헌

자료제공 : 네이버학술정보

간행물 정보

발행기관

  • 발행기관명
    한국일본언어문화학회 [Japanese Language & Culture Association of Korea]
  • 설립연도
    2001
  • 분야
    인문학>일본어와문학
  • 소개
    본 학회는 일본어학 및 일본문학은 물론, 일본의 정치, 경제, 문화, 사회 등의 일본학 전반에 걸친 연구 및 일본의 언어, 문화를 매체로 한 한국과의 비교 연구를 대상으로 하고 있다. 본 학회는 회원들에게 연구 발표 및 정보 교환의 기회를 부여하고 나아가 한국에서의 바람직한 일본 연구 자세를 확립하는 것을 주된 목표로 하고 있다.

간행물

  • 간행물명
    일본언어문화 [Journal of japanese Language and Culture]
  • 간기
    계간
  • pISSN
    1598-9585
  • 수록기간
    2002~2025
  • 등재여부
    KCI 등재
  • 십진분류
    KDC 730 DDC 495

이 권호 내 다른 논문 / 일본언어문화 제23집

    피인용수 : 0(자료제공 : 네이버학술정보)

    함께 이용한 논문 이 논문을 다운로드한 분들이 이용한 다른 논문입니다.

      페이지 저장