인간 피드백 강화학습을 위한 효용 추정 : 대규모 언어 모델과 선택 기반 컨조인트 분석의 통합

최미령; 현정석

216.73.216.196

개인회원 가입

개인회원
기관회원

개인회원 로그인

개인회원 가입으로 더욱 편리하게 이용하세요. 개인회원 가입

아이디/비밀번호를 잊으셨나요? 아이디/비밀번호 찾기

기관회원 로그인

소속기관에서 검색되지 않는 기관은 무료원문다운이 불가능합니다. 개인회원 가입 후 유료구매를 하시거나 소속기관 도서관에 이용문의해 주세요.

Home

인간 피드백 강화학습을 위한 효용 추정 : 대규모 언어 모델과 선택 기반 컨조인트 분석의 통합
Utility Estimation for Reinforcement Learning from Human Feedback: Integrating Large Language Models and Choice-Based Conjoint Analysis

발행기관

제주대학교 아열대농업생명과학연구소 바로가기
간행물

아열대농업생명과학연구지 KCI 등재 바로가기
통권

제41권 2호 (2026.01)바로가기
페이지

pp.39-52
저자

최미령, 현정석
언어

영어(ENG)
URL

https://www.earticle.net/Article/A479676

※ 기관로그인 시 무료 이용이 가능합니다.

4,600원

원문정보

초록

영어: Large language models (LLMs) have demonstrated their potential as tools for proposing business strategies based on their vast knowledge. However, because they are trained on general text data from the Internet, they face the problem of "strategic hallucination," offering advice that may conflict with the specific preferences of market consumers. This occurs because, while AI possesses linguistic fluency, it does not internalize the empirical data (Ground Truth) that forms the basis of decision-making. To address this issue, this study proposes the "Utility-Grounded RLHF" framework, which combines Choice-Based Conjoint (CBC) analysis—a methodology from marketing— with Reinforcement Learning from Human Feedback (RLHF). This study proposes a model that derives utility vectors for each attribute through choice-based conjoint analysis and builds a novel utility-grounded reward model that accepts these vectors as the conditional inputs. Subsequently, the generative model is optimized using the Proximal Policy Optimization (PPO) algorithm to internalize the evaluation criteria of the reward model. By proposing a grounding method that directly uses empirical consumer data (CBC) as the input for the reward model, this study aims to fundamentally secure reward reliability. From a practical perspective, the significance of this study lies in presenting a concrete methodology for reflecting company-owned data or market research findings directly into an LLM, thereby enabling the construction of a “trustworthy AI consultant who understands our customers” rather than merely an “AI that speaks well.”

한국어: 대규모 언어 모델(LLM)은 방대한 지식을 바탕으로 비즈니스 전략을 제안하는 도구로서 가능성을 보여주고 있으나, 인터넷상의 일반적인 텍스트 데이터를 학습한 특성상 시장 소비자의 구체적인 선호와 상충되는 조언을 내놓는 '전략적 환각(Strategic Hallucination)'의 문제를 안고 있다. 이는 AI가 언어적 유창성은 갖추었으나, 의사결 정의 근거가 되는 실증적 데이터(Ground Truth)를 내재화하지 못했기 때문이다. 이를 해결하기 위해, 본 연구는 마케팅 분야 방법 론인 선택 기반 컨조인트(CBC) 분석과 강 화학습(RLHF)을 결합한 '효용 기반 RLHF (Utility-Grounded RLHF)' 프레임워크를 제안한다. 본 연구는 선택 기반 컨조인트 분석을 통해 속성별 효용 벡터를 도출하고, 이를 조건부 입력(Conditional Input)으로 받아들이는 새 로운 구조의 보상 모델(Utility-Aware Reward Model)을 구축하는 모델을 제안한 다. 이후 PPO(Proximal Policy Optimization) 알고리즘을 통해 생성 모델이 해당 보상 모델의 평가 기준을 내재화하도 록 최적화한다. 본 연구는 실증적 소비자 데 이터(CBC) 자체를 보상 모델의 입력으로 사용하는 Grounding 방식을 제안함으로써, 보상 신호의 신뢰성을 근본적으로 확보하고 자 한다. 실무적 시사점으로는, 본 연구가 제안하는 프레임워크를 통해 기업이 보유한 데이터나 시장 조사 결과를 LLM에 직접 반 영함으로써, '말만 잘하는 AI'가 아닌 '우리 고객을 이해하는 신뢰할 수 있는 AI 컨설턴 트'를 구축할 수 있는 구체적인 방법론을 제시했다는 점에 의의가 있다.

ABSTRACT
INTRODUCTION
Theoretical Framework(Lancaster's Characteristics Theory)
Related work
METHODS
RESULTS AND DISCUSSION
Consumer Preference Modeling: MixedLogit Analysis (Ground Truth Modeling)
Utility-grounded Reward Model
Policy Optimization for Evidence-Based Strategy Generation
Utility grounded RLHF Framework
Conclusion
Limitation and Future Work
초록
사사
REFERENCES

키워드

대규모 언어 모델 인간 피 드백 기반 강화학습(RLHF) 선택 기반 컨조 인트 전략적 환각 마케팅 전략 생성 large language model reinforcement learning from human feedback (RLHF) choice-based conjoint strategic hallucination marketing strategy generation

저자

최미령 [ Mei Ling Cui | 제주대학교 지속성장데이터사이언스학부 경영정보학과 ]
현정석 [ Jung Suk Hyun | 제주대학교 경영정보학과 ] Corresponding Author

참고문헌

자료제공 : 네이버학술정보

간행물 정보

발행기관

발행기관명

제주대학교 아열대농업생명과학연구소 [The Research Institute for Subtropical Agriculture and Biotechnology of Jeju National University]
설립연도
1984
분야
농수해양>농학
소개
현재의 아열대농업생명과학연구소는 나비박사로 유명한 석주명 박사가 1943년 4월부터 1945년 5월까지 2년1개월간 연구소의 전신인 경성제대 부속 생약연구소 제주도시험장에 소장으로 근무하면서 탁월한 업적의 터전이 되었던 곳으로 1981년 설립된 아열대농업연구소와 1967년에 설립된 동물과학연구소가 통합하여 아열대농업동물과학연구소로 개편(2001년)되었고, 2003년 아열대농업생명과학연구소로 개정하여 지금까지 이르고 있다. 연구소는 아열대권에 위치한 제주도의 기후와 토양 조건에 맞는 열대 및 아열대 작물의 생산기술의 연구를 통해 지역농업을 근원적으로 진흥발전시킬 수 있는 학술체계를 구성하고, 더불어 축산을 포함한 동물산업의 발전을 위하여 지역사회가 필요로 하는 생산기술 개발 및 동물산업육성을 위하여 산학협동의 구심체로서의 역할과 동･식물 자원의 유전자원 보존 및 활용방안 등의 개발을 통하여 농업 및 생물산업 관련 학문적/산업적 발전에 기여하고자 한다. 이를 위해 아열대농업부와 동물과학부, 기획관리부의 3개 부서로 연구소 구성을 세분화하였고, 농업을 비롯한 생물산업에 관한 연구와 연구간행물의 발간, 학술회의 개최, 학술지 발간, 학술정보 교환, 외부기관과의 위탁용역 연구, 국내외 연구기관과의 학술교류를 통한 협력 등의 연구소 설립 목적에 부합되는 사업을 활발히 수행하고 있다.

간행물

간행물명

아열대농업생명과학연구지 [Journal of Asian Agriculture and Biotechnology]
간기
반년간
pISSN
2288-0380
수록기간
1984~2026
등재여부
KCI 등재
십진분류
KDC 520 DDC 630

이 권호 내 다른 논문 / 아열대농업생명과학연구지 제41권 2호

피인용수 : 0건 (자료제공 : 네이버학술정보)

함께 이용한 논문 이 논문을 다운로드한 분들이 이용한 다른 논문입니다.

출처 : 네이버학술정보

0개의 논문이 장바구니에 담겼습니다.

페이지 저장

소속기관 조회

이용자님의 소속기관(단체)이 서비스에 가입되어 있는지 확인해 보십시오.
기관회원에 소속되어 있는 이용자는 원문을 무료로 이용할 수 있습니다.

상호: 주식회사 학술교육원 I 대표: 노방용 I 사업자등록번호: 122-81-88227 I 통신판매업신고번호: 제2008-인천부평-00176호 I 정보보호책임자: 이두영
주소: (21319)인천광역시 부평구 영성중로 50 미래타워 701호 I 전화: 0505-555-0740 I 팩스: 0505-555-0741 I 이메일: earticle@earticle.net

음성지원 및 돋보기 서비스

Earticle

인간 피드백 강화학습을 위한 효용 추정 : 대규모 언어 모델과 선택 기반 컨조인트 분석의 통합
Utility Estimation for Reinforcement Learning from Human Feedback: Integrating Large Language Models and Choice-Based Conjoint Analysis

원문정보

초록

목차

키워드

저자

참고문헌

간행물 정보

발행기관

간행물

이 권호 내 다른 논문 / 아열대농업생명과학연구지 제41권 2호

피인용수 : 0건 (자료제공 : 네이버학술정보)

함께 이용한 논문 이 논문을 다운로드한 분들이 이용한 다른 논문입니다.

Earticle

인간 피드백 강화학습을 위한 효용 추정 : 대규모 언어 모델과 선택 기반 컨조인트 분석의 통합 Utility Estimation for Reinforcement Learning from Human Feedback: Integrating Large Language Models and Choice-Based Conjoint Analysis

원문정보

초록

목차

키워드

저자

참고문헌

간행물 정보

발행기관

간행물

이 권호 내 다른 논문 / 아열대농업생명과학연구지 제41권 2호

피인용수 : 0건 (자료제공 : 네이버학술정보)

함께 이용한 논문 이 논문을 다운로드한 분들이 이용한 다른 논문입니다.

인간 피드백 강화학습을 위한 효용 추정 : 대규모 언어 모델과 선택 기반 컨조인트 분석의 통합
Utility Estimation for Reinforcement Learning from Human Feedback: Integrating Large Language Models and Choice-Based Conjoint Analysis