This paper examines the utilization of Korean historical corpora and provides perspectives on how to better utilize them, as well as considerations for future corpus construction. Compared to other humanities fields, computerization in the history of the Korean language has been relatively early, but the raw corpus has mainly been used for simple searching and dictionary compilation. In the future, it is necessary to actively construct and modify the corpora in accordance with international standards, without being constrained by space and time. In terms of utilization, the corpora should be used not only for research on the history of the Korean language and related fields, but also for creating information on lexical history, developing better tokenizers and concordancers, and training data for machine/deep learning. Finally, access to and use of the corpora should be open in terms of open science and open data.
한국어
이 글에서는 국어사 말뭉치가 어떻게 활용되어 왔는지를 살펴보고, 앞으로 국어사 말뭉치를 구축하는 데 있어 고려해야 할 사항과 함께 국어사 말뭉치 활용 방안에 대 한 관견을 제시하고자 하였다. 인문학의 다른 분야에 비하면 국어사 분야의 전산화는 비교적 이른 편이었으나, 주로 원시말뭉치가 구축되었고 단순 검색이나 사전 편찬에 활용되는 데 그쳤다. 앞으로 구축에 있어서는 국제적인 표준에 의거하여, 시공간의 제 약을 받지 않는 방식으로 말뭉치의 구축과 보완이 활발하게 이루어져야 한다. 활용에 있어서는 국어사 및 인접분야 연구나 어휘역사정보 구축은 물론이고, 더 나은 형태소 분석기와 콘코던서의 개발, 머신러닝/딥러닝 학습 등을 위해 활용할 필요가 있다. 구 축․보완되는 말뭉치의 접근과 사용은 오픈 사이언스․오픈 데이터라는 관점에서 반드시 개방적으로 이루어져야 한다.
국어사말뭉치옛말사전어휘역사정보XMLTEI일본어역사말뭉치오픈 사이언스오픈 데이터어듸메kohico광학문자인식다언어언어모델history of Korean languagecorpuspre-modern Korean dictionaryinformation for lexical historyXMLTEICorpus of Historical Japanese (CHJ)open scienceopen dataeoduimekohicooptical character recognition (OCR)multilingual language model
국어사학회 [The Society of Korean Historical Linguistics]
설립연도
1997
분야
인문학>한국어와문학
소개
1997년 5월 10일에 ‘국어사자료학회’라는 이름으로 창립된 본 학회는 국어사와 관련된 자료를 발굴하고 연구하여 국어학 연구 제 분야의 발달에 기여하는 것을 목적으로 합니다. 학회의 주요 활동은 연구논문집 ≪국어사연구≫를 간행하며, 연 2회 학술 연구 발표회를 개최하는 것입니다. 또한 국어사 자료의 발굴, 조사, 정리, 영인, 출판, 국어사 자료의 정보화 및 기타 관련 사업들을 진행합니다.