The present study builds up a language dataset involving multiple case-marking constructions in Korean. Exploiting the Sejong Spoken Corpus, we extracted 1,021 sentences in which the nominative marker ‘-i/ka’ or the accusative marker ‘-ul/lul’ occur twice or more. These sentences were annotated with respect to 47 linguistic parameters, which the previous studies assume to interact with multiple case-marking constructions. These parameters are divided into five subgroups: namely, (i) distribution, (ii) semantic relation, (iii) nominal category, (iv) predication, and (iv) discourse. The constructed data are numerically analyzed, and the content characteristics are also examined. The numerical analysis looks into proportion of each parameter and correlation between two parameters. The content analysis focuses on how multiple case-marking constructions are realized in naturally occurring conversations. The whole dataset constructed in this study will be readily distributed in order for other linguists to use it for their own research purposes.
목차
Abstract 1. 서론 2. 배경 2.1. 자료 구축의 대상 2.2. 주요 쟁점 2.3. 구어 말뭉치 활용 3. 자료의 구축 3.1. 자료 추출 3.2. 주석 처리 3.3. 구축 결과 3.4. 결과 공개 4. 자료의 계량적 특성 4.1. 비율 분석 4.2. 상관성 분석 5. 자료의 내용적 특성 5.1. 자료의 구어성 5.2. 특수한 형식의 자료 5.3. 유형 분류 6. 요약 및 향후 과제 참고문헌
고려대학교 언어정보연구소 [Research Institute for Language and Information]
설립연도
1993
분야
인문학>언어학
소개
언어정보연구소의 설립 목적은 자연언어 텍스트 및 정보 처리의 새로운 이론과 기술을 연구하고, 그 인문 사회과학적 활용을 발전시키는 데 있다. 이를 좀더 구체적으로 기술하면 다음과 같다. 1) 한국어 및 각종 외국어를 대상으로 대규모의 컴퓨터 데이타베이스를 구성하고, 이를 바탕으로 한 자연언어 처리 및 인문 사회과학적 연구를 추진한다. 2) 전자적 텍스트 및 정보 처리의 새로운 이론과 기술을 개발하고, 국내외 학계와의 협력 및 교류를 통해 본 대학의 유관 학문 분야의 발전을 촉진한다. 3) 본 연구소가 축적하는 데이타베이스를 바탕으로 새로운 차원의 각종 사전과 시소러스(thesaurus) 및 관련 연구 성과를 편찬하고 출판함으로써 새로운 정보 출판 문화의 발전에 기여한다. 4) 언어학 일반, 국어학 영어학 독어학 불어학 등의 개별 언어학, 전산학, 문학, 심리학, 사회학, 매스 커뮤니케이션 등 언어 정보의 분석과 관련된 학문 분야의 방법론적 발전 및 학제적 협력 증진에 기여한다.