LLM 합성 선호도 데이터 기반 직접 선호도 최적화를 활용한 영어 서답형 튜터링 피드백 생성
English Tutoring Feedback Generation Using Direct Preference Optimization Based on LLM-Synthesized Preference Data
This study proposes a method for optimizing small-scale LLMs (< 8B parameters) to generate pedagogically meaningful feedback for students' incorrect answers in English open-ended tutoring. Existing feedback generation research relies on expert feedback labels, which results in high time and cost for data construction. To tackle this issue, we use the English open-ended tutoring benchmark dataset (DIRECT-M) to generate feedback candidates with LLMs of various parameter sizes, and then deploy GPT-5.1 to select high-quality and low-quality feedback based on feedback evaluation criteria to construct a preference dataset. Subsequently, direct preference optimization (DPO) is leveraged to train feedback generation models based on LLaMA-3B/8B, and the effectiveness of the approach is validated. Experimental results show that large-scale LLMs tend to outperform small-scale LLMs in the pedagogically meaningful feedback generation. Additionally, preference data-based DPO effectively tunes small LLMs to generate more pedagogically aligned feedback, resulting in feedback that is more semantically similar to expert feedback and more pedagogically meaningful based on automated and expert evaluation.
한국어
본 연구는 영어 서답형 튜터링에서 학생의 오답에 대해 교육적으로 유의미한 피드백을 생성하기 위한 80억개 파라미터 이하의 소규모 LLM 최적화 방법을 제안한다. 기존 피드백 생성 연구는 전문가 피드백 레이블에 크게 의존하여 데이터 구축에 많은 시간과 비용이 소요되는 한계가 있다. 이를 해결하기 위해 영어 서답형 튜터링 벤치마크 데이터셋(DIRECT-M)을 활용하여 다양한 파라미터 규모의 LLM으로 피드백 후보를 생성한 뒤, 교육적 유의미성 평가 기준이 프롬프트로 제공된 GPT-5.1로 고품질·저품질 피드백을 선별하여 선호도 데이터를 구축하였다. 이후 구축된 선호도 데이터를 기반으로 직접 선호도 최적화(DPO)를 적용하여 LLaMA-3B/8B 기반 피드백 생성 모델을 학습하고 그 효과를 검증하였다. 실험 결과, 피드백 데이터 생성 단계에서 대규모 LLM이 소규모 LLM보다 교육적으로 더 유의미한 피드백을 생성하는 것으로 확인되었다. 또한, 선호도 데이터 기반 DPO는 소규모 LLM이 교육적 기준에 정렬된 피드백을 생성하도록 유도하여, 전문가 피드백과 의미적으로 더 유사하면서도 교육적으로 더 유의미한 피드백을 생성하도록 강화함을 자동평가 방식과 전문가 평가를 통해 확인하였다.
목차
요약 Abstract 1. 서론 2. 관련 연구 2.1. 영어 서답형 튜터링 피드백 자동 생성 2.2. LLM 생성 피드백 평가 2.3. 직접 선호도 최적화(Direct Preference Optimization, DPO) 3. LLM 합성 선호도 데이터 기반 DPO 학습 3.1. LLM 기반 피드백 생성 3.2. 평가 기준 기반 피드백 평가 및 선호도 데이터 구축 3.3. LLM 기반 피드백 평가 타당성 검증 3.4. DPO 기반 피드백 생성 LLM 학습 4. 실험 구성 4.1. 데이터셋 4.2. 실험 모델 4.3. 모델 학습 4.4. 평가지표 5. 실험 결과 5.1. LLM 생성 피드백의 품질별 분포(연구 문제1) 5.2. LLM 생성 피드백과 전문가 생성 피드백 간의미적 유사도 분석 (연구 문제2) 5.3. LLM 생성 피드백의 교육적 유의미성 분석(연구 문제3) 5.4. LLM 생성 피드백 사례 분석 5.5. LLM 생성 피드백의 교육적 유의미성에 대한전문가 평가 6. 한계점 6.1. GPT-5.1 기반 피드백 품질 평가 6.2. DPO를 통한 소규모 LLM 피드백 생성 6.3. LLM 생성 피드백에 대한 자동 평가 지표 6.4. DIRECT-M 데이터셋 7. 결론 및 논의 참고문헌 부록
키워드
영어 서답형 튜터링거대언어모델LLM 기반 피드백 생성직접 선호도 최적화데이터 합성English tutoringLLMLLM-based feedback generationDirect preference optimizationData synthesis
한국정보교육학회 [Korean Association of Information Education]
설립연도
1997
분야
사회과학>교육학
소개
사단법인 한국정보교육학회는 21세기 지식 정보화 사회에서 정보 교육에 관한 학술 및 기술 발전에 기여하기 위하여 정보교육과 관련된 학술대회개최, 학술논문지 발간, 연구지원사업 등을 추진하여 21세기 지식 정보화 시대의 초석을 마련하며 정부에서 추진하고 있는 교육정보화 사업과 연계하는 것을 기본 방향으로 한다.
간행물
간행물명
정보교육학회논문지 [Journal of The Korean Association of Information Education]