생성형 AI 기반 언어모델 성능 최적화를 위한 학습데이터 구축 전략

주영진; 엄정호

216.73.216.133

개인회원 가입

개인회원
기관회원

개인회원 로그인

개인회원 가입으로 더욱 편리하게 이용하세요. 개인회원 가입

아이디/비밀번호를 잊으셨나요? 아이디/비밀번호 찾기

기관회원 로그인

소속기관에서 검색되지 않는 기관은 무료원문다운이 불가능합니다. 개인회원 가입 후 유료구매를 하시거나 소속기관 도서관에 이용문의해 주세요.

Home

생성형 AI 기반 언어모델 성능 최적화를 위한 학습데이터 구축 전략
Strategies for Constructing Training Data to Optimize the Performance of Generative AI-Based Language Models

발행기관

한국융합보안학회 바로가기
간행물

융합보안논문지 KCI 등재 바로가기
통권

제25권 제1호 (2025.03)바로가기
페이지

pp.217-224
저자

주영진, 엄정호
언어

한국어(KOR)
URL

https://www.earticle.net/Article/A466236

※ 기관로그인 시 무료 이용이 가능합니다.

4,000원

원문정보

초록

영어: Generative language models have been driving innovation across various industries with the rapid advancement of AI technology. To achieve optimal performance, these models require a sufficient amount of high-quality training data, which plays a crucial role in enhancing generalization capabilities and ensuring reliable outputs. This study analyzes the impact of training data quantity and quality on the performance of generative AI-based language models and proposes an extended loss function model that incorporates data quality, moving beyond the traditional quantity-centric approach. The proposed model is quantitatively and empirically validated, followed by the application of a 2×2 model based on data quantity and quality. Through this approach, the research demonstrates that constructing high-quality training data is essential for optimizing AI performance and presents a strategic framework for maximizing language model performance.

한국어: 생성형 언어모델은 최근 AI 기술의 발전과 함께 다양한 산업 분야에서 혁신을 주도하고 있다. 모델이 최적의 성능을 발휘하기 위해서는 충분한 양의 고품질 학습데이터 확보가 필수적이며, 이는 모델의 일반화 성능을 향상시키고 신뢰성 높은 결과를 제공하는 데 중요한 역할을 한다. 이에 본 연구에서는 학습데이터의 양과 품질이 생성형 AI 기반 언어모델 의 성능에 미치는 영향을 분석하고, 기존의 데이터 양(Quantity) 중심 접근 방식에서 벗어나 데이터 품질(Quality)을 반 영한 손실함수(loss function) 확장 모델을 제안하였다. 제안된 모델의 유효성을 정량․실증적으로 검증 후 데이터의 양 과 질을 기반으로 한 2×2 모델을 적용하여 충분한 고품질 학습데이터의 구축이 AI 성능 최적화에 필수적인 요소임을 입증하고 모델의 성능을 극대화하기 위한 최적의 학습데이터 구축 전략을 제시한다.

요약
ABSTRACT
1. 서론
2. 생성형 언어모델과 학습데이터
2.1 언어모델 기본원리와 학습 과정
3. 실증적 분석 및 검증
3.1 카플란(Kaplan) 등의 연구 분석
3.2 ‘데이터 품질’ 변수를 포함한 손실함수 정의
3.3 도출된 손실함수의 유효성 검증
4. 학습데이터 설계 전략 방향
5. 결론
참고문헌

키워드

Language Model Training Data Model Performance Loss Function High-Quality Data

저자

주영진 [ Young-Jin Joo | 대전대학교 군사학과 박사과정 ] 주저자
엄정호 [ Jung-Ho Eom | 대전대학교 군사학과&안보융합학과 교수 ] 교신저자

참고문헌

자료제공 : 네이버학술정보

간행물 정보

발행기관

발행기관명

한국융합보안학회 [Korea Information Assurance Society]
설립연도
2001
분야
공학>전자/정보통신공학
소개
본 학회는 사이버테러 및 정보전에 관한 학문연구ㆍ기술 개발ㆍ기반 구축을 도모하고 국내ㆍ외 관계기관과 학술교류와 정보교환을 통하여 회원 상호간의 전문지식을 배양하고, 궁극적으로는 국가 중요 정보기반구조를 보호함을 그 목적으로 한다.

간행물

간행물명

융합보안논문지 [Jouranl of Information and Security]
간기
연5회
pISSN
1598-7329
수록기간
2001~2026
등재여부
KCI 등재
십진분류
KDC 005 DDC 005

이 권호 내 다른 논문 / 융합보안논문지 제25권 제1호

피인용수 : 0건 (자료제공 : 네이버학술정보)

함께 이용한 논문 이 논문을 다운로드한 분들이 이용한 다른 논문입니다.

출처 : 네이버학술정보

0개의 논문이 장바구니에 담겼습니다.

페이지 저장

소속기관 조회

이용자님의 소속기관(단체)이 서비스에 가입되어 있는지 확인해 보십시오.
기관회원에 소속되어 있는 이용자는 원문을 무료로 이용할 수 있습니다.

상호: 주식회사 학술교육원 I 대표: 노방용 I 사업자등록번호: 122-81-88227 I 통신판매업신고번호: 제2008-인천부평-00176호 I 정보보호책임자: 이두영
주소: (21319)인천광역시 부평구 영성중로 50 미래타워 701호 I 전화: 0505-555-0740 I 팩스: 0505-555-0741 I 이메일: earticle@earticle.net

음성지원 및 돋보기 서비스

Earticle

생성형 AI 기반 언어모델 성능 최적화를 위한 학습데이터 구축 전략
Strategies for Constructing Training Data to Optimize the Performance of Generative AI-Based Language Models

원문정보

초록

목차

키워드

저자

참고문헌

간행물 정보

발행기관

간행물

이 권호 내 다른 논문 / 융합보안논문지 제25권 제1호

피인용수 : 0건 (자료제공 : 네이버학술정보)

함께 이용한 논문 이 논문을 다운로드한 분들이 이용한 다른 논문입니다.

Earticle

생성형 AI 기반 언어모델 성능 최적화를 위한 학습데이터 구축 전략 Strategies for Constructing Training Data to Optimize the Performance of Generative AI-Based Language Models

원문정보

초록

목차

키워드

저자

참고문헌

간행물 정보

발행기관

간행물

이 권호 내 다른 논문 / 융합보안논문지 제25권 제1호

피인용수 : 0건 (자료제공 : 네이버학술정보)

함께 이용한 논문 이 논문을 다운로드한 분들이 이용한 다른 논문입니다.

생성형 AI 기반 언어모델 성능 최적화를 위한 학습데이터 구축 전략
Strategies for Constructing Training Data to Optimize the Performance of Generative AI-Based Language Models