LLM 합성 선호도 데이터 기반 직접 선호도 최적화를 활용한 영어 서답형 튜터링 피드백 생성

추성엽

216.73.216.75

개인회원 가입

개인회원
기관회원

개인회원 로그인

개인회원 가입으로 더욱 편리하게 이용하세요. 개인회원 가입

아이디/비밀번호를 잊으셨나요? 아이디/비밀번호 찾기

기관회원 로그인

소속기관에서 검색되지 않는 기관은 무료원문다운이 불가능합니다. 개인회원 가입 후 유료구매를 하시거나 소속기관 도서관에 이용문의해 주세요.

Home

LLM 합성 선호도 데이터 기반 직접 선호도 최적화를 활용한 영어 서답형 튜터링 피드백 생성
English Tutoring Feedback Generation Using Direct Preference Optimization Based on LLM-Synthesized Preference Data

발행기관

한국정보교육학회 바로가기
간행물

정보교육학회논문지 KCI 등재 바로가기
통권

제30권 제2호 (2026.04)바로가기
페이지

pp.275-292
저자

추성엽
언어

한국어(KOR)
URL

https://www.earticle.net/Article/A484557

※ 기관로그인 시 무료 이용이 가능합니다.

5,200원

원문정보

초록

영어: This study proposes a method for optimizing small-scale LLMs (< 8B parameters) to generate pedagogically meaningful feedback for students' incorrect answers in English open-ended tutoring. Existing feedback generation research relies on expert feedback labels, which results in high time and cost for data construction. To tackle this issue, we use the English open-ended tutoring benchmark dataset (DIRECT-M) to generate feedback candidates with LLMs of various parameter sizes, and then deploy GPT-5.1 to select high-quality and low-quality feedback based on feedback evaluation criteria to construct a preference dataset. Subsequently, direct preference optimization (DPO) is leveraged to train feedback generation models based on LLaMA-3B/8B, and the effectiveness of the approach is validated. Experimental results show that large-scale LLMs tend to outperform small-scale LLMs in the pedagogically meaningful feedback generation. Additionally, preference data-based DPO effectively tunes small LLMs to generate more pedagogically aligned feedback, resulting in feedback that is more semantically similar to expert feedback and more pedagogically meaningful based on automated and expert evaluation.

한국어: 본 연구는 영어 서답형 튜터링에서 학생의 오답에 대해 교육적으로 유의미한 피드백을 생성하기 위한 80억개 파라미터 이하의 소규모 LLM 최적화 방법을 제안한다. 기존 피드백 생성 연구는 전문가 피드백 레이블에 크게 의존하여 데이터 구축에 많은 시간과 비용이 소요되는 한계가 있다. 이를 해결하기 위해 영어 서답형 튜터링 벤치마크 데이터셋(DIRECT-M)을 활용하여 다양한 파라미터 규모의 LLM으로 피드백 후보를 생성한 뒤, 교육적 유의미성 평가 기준이 프롬프트로 제공된 GPT-5.1로 고품질·저품질 피드백을 선별하여 선호도 데이터를 구축하였다. 이후 구축된 선호도 데이터를 기반으로 직접 선호도 최적화(DPO)를 적용하여 LLaMA-3B/8B 기반 피드백 생성 모델을 학습하고 그 효과를 검증하였다. 실험 결과, 피드백 데이터 생성 단계에서 대규모 LLM이 소규모 LLM보다 교육적으로 더 유의미한 피드백을 생성하는 것으로 확인되었다. 또한, 선호도 데이터 기반 DPO는 소규모 LLM이 교육적 기준에 정렬된 피드백을 생성하도록 유도하여, 전문가 피드백과 의미적으로 더 유사하면서도 교육적으로 더 유의미한 피드백을 생성하도록 강화함을 자동평가 방식과 전문가 평가를 통해 확인하였다.

요약
Abstract
1. 서론
2. 관련 연구
2.1. 영어 서답형 튜터링 피드백 자동 생성
2.2. LLM 생성 피드백 평가
2.3. 직접 선호도 최적화(Direct Preference Optimization, DPO)
3. LLM 합성 선호도 데이터 기반 DPO 학습
3.1. LLM 기반 피드백 생성
3.2. 평가 기준 기반 피드백 평가 및 선호도 데이터 구축
3.3. LLM 기반 피드백 평가 타당성 검증
3.4. DPO 기반 피드백 생성 LLM 학습
4. 실험 구성
4.1. 데이터셋
4.2. 실험 모델
4.3. 모델 학습
4.4. 평가지표
5. 실험 결과
5.1. LLM 생성 피드백의 품질별 분포(연구 문제1)
5.2. LLM 생성 피드백과 전문가 생성 피드백 간의미적 유사도 분석 (연구 문제2)
5.3. LLM 생성 피드백의 교육적 유의미성 분석(연구 문제3)
5.4. LLM 생성 피드백 사례 분석
5.5. LLM 생성 피드백의 교육적 유의미성에 대한전문가 평가
6. 한계점
6.1. GPT-5.1 기반 피드백 품질 평가
6.2. DPO를 통한 소규모 LLM 피드백 생성
6.3. LLM 생성 피드백에 대한 자동 평가 지표
6.4. DIRECT-M 데이터셋
7. 결론 및 논의
참고문헌
부록

키워드

영어 서답형 튜터링 거대언어모델 LLM 기반 피드백 생성 직접 선호도 최적화 데이터 합성 English tutoring LLM LLM-based feedback generation Direct preference optimization Data synthesis

저자

추성엽 [ Seongyeub Chu | 한국과학기술원 데이터사이언스대학원 ] 교신저자

참고문헌

자료제공 : 네이버학술정보

간행물 정보

발행기관

발행기관명

한국정보교육학회 [Korean Association of Information Education]
설립연도
1997
분야
사회과학>교육학
소개
사단법인 한국정보교육학회는 21세기 지식 정보화 사회에서 정보 교육에 관한 학술 및 기술 발전에 기여하기 위하여 정보교육과 관련된 학술대회개최, 학술논문지 발간, 연구지원사업 등을 추진하여 21세기 지식 정보화 시대의 초석을 마련하며 정부에서 추진하고 있는 교육정보화 사업과 연계하는 것을 기본 방향으로 한다.

간행물

간행물명

정보교육학회논문지 [Journal of The Korean Association of Information Education]
간기
격월간
pISSN
1229-3245
수록기간
1997~2026
등재여부
KCI 등재
십진분류
KDC 374 DDC 375

이 권호 내 다른 논문 / 정보교육학회논문지 제30권 제2호

피인용수 : 0건 (자료제공 : 네이버학술정보)

함께 이용한 논문 이 논문을 다운로드한 분들이 이용한 다른 논문입니다.

출처 : 네이버학술정보

0개의 논문이 장바구니에 담겼습니다.

페이지 저장

소속기관 조회

이용자님의 소속기관(단체)이 서비스에 가입되어 있는지 확인해 보십시오.
기관회원에 소속되어 있는 이용자는 원문을 무료로 이용할 수 있습니다.

상호: 주식회사 학술교육원 I 대표: 노방용 I 사업자등록번호: 122-81-88227 I 통신판매업신고번호: 제2008-인천부평-00176호 I 정보보호책임자: 이두영
주소: (21319)인천광역시 부평구 영성중로 50 미래타워 701호 I 전화: 0505-555-0740 I 팩스: 0505-555-0741 I 이메일: earticle@earticle.net

음성지원 및 돋보기 서비스

Earticle

LLM 합성 선호도 데이터 기반 직접 선호도 최적화를 활용한 영어 서답형 튜터링 피드백 생성
English Tutoring Feedback Generation Using Direct Preference Optimization Based on LLM-Synthesized Preference Data

원문정보

초록

목차

키워드

저자

참고문헌

간행물 정보

발행기관

간행물

이 권호 내 다른 논문 / 정보교육학회논문지 제30권 제2호

피인용수 : 0건 (자료제공 : 네이버학술정보)

함께 이용한 논문 이 논문을 다운로드한 분들이 이용한 다른 논문입니다.

Earticle

LLM 합성 선호도 데이터 기반 직접 선호도 최적화를 활용한 영어 서답형 튜터링 피드백 생성 English Tutoring Feedback Generation Using Direct Preference Optimization Based on LLM-Synthesized Preference Data

원문정보

초록

목차

키워드

저자

참고문헌

간행물 정보

발행기관

간행물

이 권호 내 다른 논문 / 정보교육학회논문지 제30권 제2호

피인용수 : 0건 (자료제공 : 네이버학술정보)

함께 이용한 논문 이 논문을 다운로드한 분들이 이용한 다른 논문입니다.

LLM 합성 선호도 데이터 기반 직접 선호도 최적화를 활용한 영어 서답형 튜터링 피드백 생성
English Tutoring Feedback Generation Using Direct Preference Optimization Based on LLM-Synthesized Preference Data