Earticle

현재 위치 Home

항공 도메인 특화 언어 모델을 활용한 안전사고 원인 자동 추출 방법
Automatic Extraction of Safety Accident Causes Using an Aviation-Specialized Language Model

첫 페이지 보기
  • 발행기관
    한국차세대컴퓨팅학회 바로가기
  • 간행물
    한국차세대컴퓨팅학회 논문지 KCI 등재 바로가기
  • 통권
    Vol.20 No.6 (2024.12)바로가기
  • 페이지
    pp.56-68
  • 저자
    이하영, 이상원, 최원익
  • 언어
    한국어(KOR)
  • URL
    https://www.earticle.net/Article/A460780

원문정보

초록

영어
Analysis of safety accident reports is crucial for global aviation companies and national agencies to prevent aviation accidents. However, with increasing volume and complexity of these reports, manual analysis has its limitations. Moreover, due to security concerns, using large-scale language models served through the web is often not inapplicable. To address these challenges, this paper proposes a domain-specific natural language processing model called AirGemma, which is specifically designed to extract accident causes from aviation safety reports. AirGemma is built upon the Gemma2-2B model and enhances its domain understanding through Domain Adaptive Pre-Training(DAPT) using aviation-specific data. The performance of the proposed model is further improved by applying Parameter Efficient Fine-Tuning(PEFT). Experimental results show that AirGemma outperforms models without pre-training and fine-tuning in terms of F1-score, ROUGE, and BLEU metrics. Additionally, comparative evaluations using GPT-4 as a judge reveal that AirGemma achieves a higher win rate than GPT-3.5 Turbo, and in single-answer assessments, it demonstrated greater accuracy in accident cause analysis conpared to both LLaMA3-70B and GPT-3.5 Turbo. These findings demonstrate that AirGemma is effective in identifying accident causes within the aviation domain. Designed to operate securely in a local environment, AirGemma offers a new approach to aviation safety accident analysis and prevention.
한국어
전 세계 항공 기업과 국가 기관들은 수십 년간 안전 보고서를 작성하고 이를 분석하여 항공 사고 예방을 위해 지속 적으로 노력해왔다. 그러나 보고서의 규모가 방대해지고 내용이 복잡해짐에 따라 수동 분석만으로는 한계가 있다. 또한, 보안상의 이유로 웹에서 서비스하는 대형 언어 모델의 사용이 어려운 경우가 많다. 이러한 문제를 해결하기 위해 본 논문에서는 항공 안전사고 보고서에서 사고 원인을 추출하기 위해 항공 도메인에 특화된 자연어 처리 모델 인 AirGemma를 제안한다. AirGemma는 Gemma2-2B 모델을 기반으로 항공 도메인 데이터를 활용한 DAPT (Domain Adaptive Pre-Training) 기법을 적용해 항공 도메인 이해도를 향상시켰다. 이후 PEFT(Parameter Efficient Fine-Tuning) 기법을 활용한 미세조정을 통해 사고 원인 추출 성능을 높였다. 실험 결과, AirGemma 가 사전학습과 미세조정을 적용하지 않은 모델 대비 F1-score, ROUGE, BLEU 지표에서 우수한 성능을 기록했 다. 또한 GPT-4를 평가자로 사용한 쌍대비교 결과, AirGemma는 GPT-3.5 Turbo보다 높은 승률을 기록했고 단 일 답변 평가 결과 LLaMA3-70B와 GPT-3.5 Turbo에 비해 사고 원인 분석에 있어 더 높은 사실성 점수를 보였 다. 이러한 결과는 항공 도메인에 특화된 모델이 사고 원인 식별에 효과적임을 입증한다. AirGemma는 항공 산업 데이터의 보안 및 제한 조건을 고려하여 로컬 환경에서 안전하게 동작할 수 있도록 설계되었으며, 항공 안전사고 분 석 및 예방을 위한 새로운 접근 방안을 제시한다.

목차

요약
Abstract
1. 서론
2. 관련 연구
2.1 Gemma
2.2 Domain Adaptive Pre Training(DAPT)
2.3 Parameter Efficient Fine-Tuning(PEFT)
2.4 프롬프트 튜닝(Prompt Tuning)
2.5 대형 언어 모델을 통한 평가(LLM Judge)
3. 모델 학습
3.1 항공 안전 데이터셋
3.2 사전학습
3.3 미세조정
4. 실험
4.1 사고 원인 추출 성능 평가
4.2 대형 언어 모델을 통한 평가
4.3 추론 시간 및 리소스 사용 분석
5. 결론
Acknowledgements
참고문헌
부록

키워드

항공 안전사고 도메인 특화 언어 모델 대형 언어 모델 자연어 처리 사고 원인 추출 자동화 Aviation accident causes Domain specific Language Model Large Language Model Natural Language Processing Automatic Extraction of Accident Causes

저자

  • 이하영 [ Hayoung Lee | 인하대학교 전기컴퓨터공학과 ]
  • 이상원 [ Sangwon Lee | 인하대학교 전기컴퓨터공학과 ]
  • 최원익 [ Wonik Choi | 인하대학교 전기컴퓨터공학과 ] 교신저자

참고문헌

자료제공 : 네이버학술정보

간행물 정보

발행기관

  • 발행기관명
    한국차세대컴퓨팅학회 [Korean Institute of Next Generation Computing]
  • 설립연도
    2005
  • 분야
    공학>컴퓨터학
  • 소개
    본 학회는 차세대 PC 및 그 관련분야의 학술활동을 통하여 차세대 PC의 학문 및 기술발전을 도모하고 산업발전 및 국제협력 증진을 목적으로 한다.

간행물

  • 간행물명
    한국차세대컴퓨팅학회 논문지 [THE JOURNAL OF KOREAN INSTITUTE OF NEXT GENERATION COMPUTING]
  • 간기
    격월간
  • pISSN
    1975-681X
  • 수록기간
    2005~2026
  • 등재여부
    KCI 등재
  • 십진분류
    KDC 566 DDC 004

이 권호 내 다른 논문 / 한국차세대컴퓨팅학회 논문지 Vol.20 No.6

    피인용수 : 0(자료제공 : 네이버학술정보)

    함께 이용한 논문 이 논문을 다운로드한 분들이 이용한 다른 논문입니다.

      페이지 저장