Earticle

ChatGPT를 활용한 학술 논문 데이터에서 개인-기관-지역 개체명 인식 : 탐색적 연구

  • 간행물
    한국경영정보학회 정기 학술대회 바로가기
  • 권호(발행년)
    2023년도 한국경영정보학회 춘계 학술대회 (2023.06) 바로가기
  • 페이지
    pp.837-837
  • 저자
    이정우
  • 언어
    한국어(KOR)
  • URL
    https://www.earticle.net/Article/A434294

원문정보

초록

한국어
ChatGPT는 1,750억 개 이상의 매개변수를 가진 대규모 언어 모델인 GPT-3.5를 기반으로 한 대화형 에이전트이다. 인간에게 유용한 답변을 생성하는 능력으로 인해 ChatGPT는 학계와 대중 모두의 관심을 끌고 있다. ChatGPT는 자연어 처리(NLP) 작업에서 놀라운 성능을 보여 개체명 인식, 문장 분류, 문서 요약, 기계 번역, 질문-답변 시스템 등의 태스크에서 학계와 대중의 호응을 얻고 있다. 그러나 ChatGPT가 이러한 성능을 어떻게 달성하는 지와 인간 작업과 얼마나 차이가 있는지에 대한 학계의 궁금증도 대두되고 있다. 이에 최근 많은 연구자들이 ChatGPT와 인간 작업을 비교하는 실증 연구를 발표하고 있다[1-5]. 최근에는 글로벌 과학기술 환경 변화와 R&D 의사결정의 불확실성이 높아지면서 학술 논문 중심에서 논문-특허-펀딩 등의 이종 데이터의 연계/통합[6]을 통한 새로운 모니터링 및 평가체계가 필요성이 부상하고 있다. 이에 이종 데이터간 연계를 위한 기본 키(primary key)로 사용될 고유한 개인, 기관, 지역 등에 대한 개체명 인식(Named Entity Recognition) 작업이 더욱 중요해지고 있다[7-9]. 기존 연구에서는 개인, 기관, 지역을 각각 나누어 인식하는 방법론의 연구가 주를 이어왔으나, 본 연구에서는 대규모 언어 모델인 ChatGPT를 활용하여 학술 논문 데이터의 서지 정보에서 개인, 기관, 지역을 식별하기 위한 실험적 연구를 수행한다. 구체적으로는 {저자, 기관, 주소}로 결합된 문자열 정보에서 raw 데이터 소스의 플랫폼인 Web of Science에서 제공하는 값, 인간 주석자(annotator)의 수작업 결과 값, ChatGPT 개체명 인식 결과 값을 비교하기 위한 방법을 고안하려 한 다. 이를 기반으로 ChatGPT의 응답 특성, 인간 주석자와의 차이점, 그리고 대규모 언어 모델의 미래 활용 방안을 탐구하고자 한다.

목차

Extended Abstract
References

저자

  • 이정우 [ 한국과학기술정보연구원 글로벌R&D분석센터 선임연구원 ]

참고문헌

자료제공 : 네이버학술정보

    간행물 정보

    • 간행물
      한국경영정보학회 정기 학술대회 [KMIS Conference]
    • 간기
      반년간
    • 수록기간
      1990~2025
    • 십진분류
      KDC 325 DDC 658