Earticle

현재 위치 Home

Oral Session A-2 : Language Processing

Learning strategic play in Mafia via PPO Finetuning of Large Language Models

첫 페이지 보기
  • 발행기관
    한국차세대컴퓨팅학회 바로가기
  • 간행물
    한국차세대컴퓨팅학회 학술대회 바로가기
  • 통권
    ICNGC 2025 The 11th International Conference on Next Generation Computing 2025 (2025.12)바로가기
  • 페이지
    pp.59-60
  • 저자
    Jiho Jun, Junhee Seok
  • 언어
    영어(ENG)
  • URL
    https://www.earticle.net/Article/A478460

원문정보

초록

영어
We investigate whether Large Language Model (LLM)s can learn strategic reasoning and social deception abilities through Reinforcement Learning (RL) finetuning via a multi-agent “Mafia Game” simulation environment. We finetune a baseline 7B model using Proximal Policy Optimization (PPO) with sparse binary rewards based on game outcomes. Training samples are collected through an opponent pool consisting of different versions of the finetuned model. Our experiment results show that the finetuned model outperforms the baseline model by a significant margin and suggest that strategic capabilities unseen in baseline models emerge.

목차

Abstract
I. INTRODUCTION
II. METHODOLOGY
A. Game Environment Setup
B. Training Setup
C. Opponent Pool Design
III. EXPERIMENTS AND RESULTS
IV. CONCLUSION
ACKNOWLEDGMENT
REFERENCES

키워드

Large Language Models Reinforcement Learning Proximal Policy Optimization Multi-Agent System Strategic Reasoning

저자

  • Jiho Jun [ School of Electrical Engineering Korea University Seoul, Korea ]
  • Junhee Seok [ School of Electrical Engineering Korea University Seoul, Korea ] Corresponding Author

참고문헌

자료제공 : 네이버학술정보

간행물 정보

발행기관

  • 발행기관명
    한국차세대컴퓨팅학회 [Korean Institute of Next Generation Computing]
  • 설립연도
    2005
  • 분야
    공학>컴퓨터학
  • 소개
    본 학회는 차세대 PC 및 그 관련분야의 학술활동을 통하여 차세대 PC의 학문 및 기술발전을 도모하고 산업발전 및 국제협력 증진을 목적으로 한다.

간행물

  • 간행물명
    한국차세대컴퓨팅학회 학술대회
  • 간기
    반년간
  • 수록기간
    2021~2025
  • 십진분류
    KDC 566 DDC 004

이 권호 내 다른 논문 / 한국차세대컴퓨팅학회 학술대회 ICNGC 2025 The 11th International Conference on Next Generation Computing 2025

    피인용수 : 0(자료제공 : 네이버학술정보)

    함께 이용한 논문 이 논문을 다운로드한 분들이 이용한 다른 논문입니다.

      페이지 저장