ChatGPT는 1,750억 개 이상의 매개변수를 가진 대규모 언어 모델인 GPT-3.5를 기반으로 한 대화형 에이전트이다. 인간에게 유용한 답변을 생성하는 능력으로 인해 ChatGPT는 학계와 대중 모두의 관심을 끌고 있다. ChatGPT는 자연어 처리(NLP) 작업에서 놀라운 성능을 보여 개체명 인식, 문장 분류, 문서 요약, 기계 번역, 질문-답변 시스템 등의 태스크에서 학계와 대중의 호응을 얻고 있다. 그러나 ChatGPT가 이러한 성능을 어떻게 달성하는 지와 인간 작업과 얼마나 차이가 있는지에 대한 학계의 궁금증도 대두되고 있다. 이에 최근 많은 연구자들이 ChatGPT와 인간 작업을 비교하는 실증 연구를 발표하고 있다[1-5]. 최근에는 글로벌 과학기술 환경 변화와 R&D 의사결정의 불확실성이 높아지면서 학술 논문 중심에서 논문-특허-펀딩 등의 이종 데이터의 연계/통합[6]을 통한 새로운 모니터링 및 평가체계가 필요성이 부상하고 있다. 이에 이종 데이터간 연계를 위한 기본 키(primary key)로 사용될 고유한 개인, 기관, 지역 등에 대한 개체명 인식(Named Entity Recognition) 작업이 더욱 중요해지고 있다[7-9]. 기존 연구에서는 개인, 기관, 지역을 각각 나누어 인식하는 방법론의 연구가 주를 이어왔으나, 본 연구에서는 대규모 언어 모델인 ChatGPT를 활용하여 학술 논문 데이터의 서지 정보에서 개인, 기관, 지역을 식별하기 위한 실험적 연구를 수행한다. 구체적으로는 {저자, 기관, 주소}로 결합된 문자열 정보에서 raw 데이터 소스의 플랫폼인 Web of Science에서 제공하는 값, 인간 주석자(annotator)의 수작업 결과 값, ChatGPT 개체명 인식 결과 값을 비교하기 위한 방법을 고안하려 한 다. 이를 기반으로 ChatGPT의 응답 특성, 인간 주석자와의 차이점, 그리고 대규모 언어 모델의 미래 활용 방안을 탐구하고자 한다.