Earticle

현재 위치 Home

LLM 합성 선호도 데이터 기반 직접 선호도 최적화를 활용한 영어 서답형 튜터링 피드백 생성
English Tutoring Feedback Generation Using Direct Preference Optimization Based on LLM-Synthesized Preference Data

첫 페이지 보기
  • 발행기관
    한국정보교육학회 바로가기
  • 간행물
    정보교육학회논문지 KCI 등재 바로가기
  • 통권
    제30권 제2호 (2026.04)바로가기
  • 페이지
    pp.275-292
  • 저자
    추성엽
  • 언어
    한국어(KOR)
  • URL
    https://www.earticle.net/Article/A484557

※ 기관로그인 시 무료 이용이 가능합니다.

5,200원

원문정보

초록

영어
This study proposes a method for optimizing small-scale LLMs (< 8B parameters) to generate pedagogically meaningful feedback for students' incorrect answers in English open-ended tutoring. Existing feedback generation research relies on expert feedback labels, which results in high time and cost for data construction. To tackle this issue, we use the English open-ended tutoring benchmark dataset (DIRECT-M) to generate feedback candidates with LLMs of various parameter sizes, and then deploy GPT-5.1 to select high-quality and low-quality feedback based on feedback evaluation criteria to construct a preference dataset. Subsequently, direct preference optimization (DPO) is leveraged to train feedback generation models based on LLaMA-3B/8B, and the effectiveness of the approach is validated. Experimental results show that large-scale LLMs tend to outperform small-scale LLMs in the pedagogically meaningful feedback generation. Additionally, preference data-based DPO effectively tunes small LLMs to generate more pedagogically aligned feedback, resulting in feedback that is more semantically similar to expert feedback and more pedagogically meaningful based on automated and expert evaluation.
한국어
본 연구는 영어 서답형 튜터링에서 학생의 오답에 대해 교육적으로 유의미한 피드백을 생성하기 위한 80억개 파라미터 이하의 소규모 LLM 최적화 방법을 제안한다. 기존 피드백 생성 연구는 전문가 피드백 레이블에 크게 의존하여 데이터 구축에 많은 시간과 비용이 소요되는 한계가 있다. 이를 해결하기 위해 영어 서답형 튜터링 벤치마크 데이터셋(DIRECT-M)을 활용하여 다양한 파라미터 규모의 LLM으로 피드백 후보를 생성한 뒤, 교육적 유의미성 평가 기준이 프롬프트로 제공된 GPT-5.1로 고품질·저품질 피드백을 선별하여 선호도 데이터를 구축하였다. 이후 구축된 선호도 데이터를 기반으로 직접 선호도 최적화(DPO)를 적용하여 LLaMA-3B/8B 기반 피드백 생성 모델을 학습하고 그 효과를 검증하였다. 실험 결과, 피드백 데이터 생성 단계에서 대규모 LLM이 소규모 LLM보다 교육적으로 더 유의미한 피드백을 생성하는 것으로 확인되었다. 또한, 선호도 데이터 기반 DPO는 소규모 LLM이 교육적 기준에 정렬된 피드백을 생성하도록 유도하여, 전문가 피드백과 의미적으로 더 유사하면서도 교육적으로 더 유의미한 피드백을 생성하도록 강화함을 자동평가 방식과 전문가 평가를 통해 확인하였다.

목차

요약
Abstract
1. 서론
2. 관련 연구
2.1. 영어 서답형 튜터링 피드백 자동 생성
2.2. LLM 생성 피드백 평가
2.3. 직접 선호도 최적화(Direct Preference Optimization, DPO)
3. LLM 합성 선호도 데이터 기반 DPO 학습
3.1. LLM 기반 피드백 생성
3.2. 평가 기준 기반 피드백 평가 및 선호도 데이터 구축
3.3. LLM 기반 피드백 평가 타당성 검증
3.4. DPO 기반 피드백 생성 LLM 학습
4. 실험 구성
4.1. 데이터셋
4.2. 실험 모델
4.3. 모델 학습
4.4. 평가지표
5. 실험 결과
5.1. LLM 생성 피드백의 품질별 분포(연구 문제1)
5.2. LLM 생성 피드백과 전문가 생성 피드백 간의미적 유사도 분석 (연구 문제2)
5.3. LLM 생성 피드백의 교육적 유의미성 분석(연구 문제3)
5.4. LLM 생성 피드백 사례 분석
5.5. LLM 생성 피드백의 교육적 유의미성에 대한전문가 평가
6. 한계점
6.1. GPT-5.1 기반 피드백 품질 평가
6.2. DPO를 통한 소규모 LLM 피드백 생성
6.3. LLM 생성 피드백에 대한 자동 평가 지표
6.4. DIRECT-M 데이터셋
7. 결론 및 논의
참고문헌
부록

키워드

영어 서답형 튜터링 거대언어모델 LLM 기반 피드백 생성 직접 선호도 최적화 데이터 합성 English tutoring LLM LLM-based feedback generation Direct preference optimization Data synthesis

저자

  • 추성엽 [ Seongyeub Chu | 한국과학기술원 데이터사이언스대학원 ] 교신저자

참고문헌

자료제공 : 네이버학술정보

간행물 정보

발행기관

  • 발행기관명
    한국정보교육학회 [Korean Association of Information Education]
  • 설립연도
    1997
  • 분야
    사회과학>교육학
  • 소개
    사단법인 한국정보교육학회는 21세기 지식 정보화 사회에서 정보 교육에 관한 학술 및 기술 발전에 기여하기 위하여 정보교육과 관련된 학술대회개최, 학술논문지 발간, 연구지원사업 등을 추진하여 21세기 지식 정보화 시대의 초석을 마련하며 정부에서 추진하고 있는 교육정보화 사업과 연계하는 것을 기본 방향으로 한다.

간행물

  • 간행물명
    정보교육학회논문지 [Journal of The Korean Association of Information Education]
  • 간기
    격월간
  • pISSN
    1229-3245
  • 수록기간
    1997~2026
  • 등재여부
    KCI 등재
  • 십진분류
    KDC 374 DDC 375

이 권호 내 다른 논문 / 정보교육학회논문지 제30권 제2호

    피인용수 : 0(자료제공 : 네이버학술정보)

    함께 이용한 논문 이 논문을 다운로드한 분들이 이용한 다른 논문입니다.

      페이지 저장