생성형 언어모델은 최근 AI 기술의 발전과 함께 다양한 산업 분야에서 혁신을 주도하고 있다. 모델이 최적의 성능을 발휘하기 위해서는 충분한 양의 고품질 학습데이터 확보가 필수적이며, 이는 모델의 일반화 성능을 향상시키고 신뢰성 높은 결과를 제공하는 데 중요한 역할을 한다. 이에 본 연구에서는 학습데이터의 양과 품질이 생성형 AI 기반 언어모델 의 성능에 미치는 영향을 분석하고, 기존의 데이터 양(Quantity) 중심 접근 방식에서 벗어나 데이터 품질(Quality)을 반 영한 손실함수(loss function) 확장 모델을 제안하였다. 제안된 모델의 유효성을 정량․실증적으로 검증 후 데이터의 양 과 질을 기반으로 한 2×2 모델을 적용하여 충분한 고품질 학습데이터의 구축이 AI 성능 최적화에 필수적인 요소임을 입증하고 모델의 성능을 극대화하기 위한 최적의 학습데이터 구축 전략을 제시한다.
영어
Generative language models have been driving innovation across various industries with the rapid advancement of AI technology. To achieve optimal performance, these models require a sufficient amount of high-quality training data, which plays a crucial role in enhancing generalization capabilities and ensuring reliable outputs. This study analyzes the impact of training data quantity and quality on the performance of generative AI-based language models and proposes an extended loss function model that incorporates data quality, moving beyond the traditional quantity-centric approach. The proposed model is quantitatively and empirically validated, followed by the application of a 2×2 model based on data quantity and quality. Through this approach, the research demonstrates that constructing high-quality training data is essential for optimizing AI performance and presents a strategic framework for maximizing language model performance.
목차
요약 ABSTRACT 1. 서론 2. 생성형 언어모델과 학습데이터 2.1 언어모델 기본원리와 학습 과정 3. 실증적 분석 및 검증 3.1 카플란(Kaplan) 등의 연구 분석 3.2 ‘데이터 품질’ 변수를 포함한 손실함수 정의 3.3 도출된 손실함수의 유효성 검증 4. 학습데이터 설계 전략 방향 5. 결론 참고문헌