The study reviews the evolution of Korean corpus construction from the Sejong Project to the AI era, highlighting the shift from linguistic analysis to application-driven datasets. It emphasizes the need for culturally grounded Korean corpora that capture honorifics, idioms, and social context to enhance AI understanding. A seven-stage framework is proposed to build a comprehensive Korean language–culture corpus for improving LLMs’ cultural competence.
목차
ABSTRACT 1. 서론 2. 인공지능 시대의 한국어 말뭉치 구축 변화 2.1. 말뭉치 구축 트랜드의 변화 2.2. 자연어 처리 과제에 따른 한국어 말뭉치 기능적 분류 3. 한국 언어문화 자원의 필요성 3.1. 언어문화 학습 부재로 인한 언어모델 오류 3.2. 해외 언어문화 기반 데이터 구축 사례 3.3. 한국 언어문화 말뭉치 구축 방안 4. 결론 참고문헌
키워드
Korean liguistics-cultural corpusLanguage–cultureModu corpusNLPLarge language models