자연어 처리의 개체명 인식을 통한 기록집합체의 메타데이터 추출 방안
A method for metadata extraction from a collection of records using Named Entity Recognition in Natural Language Processing
This pilot study explores a method of extracting metadata values and descriptions from records using named entity recognition (NER), a technique in natural language processing (NLP), a subfield of artificial intelligence. The study focuses on handwritten records from the Guro Industrial Complex, produced during the 1960s and 1970s, comprising approximately 1,200 pages and 80,000 words.
After the preprocessing process of the records, which included digitization, the study employed a publicly available language API based on Google’s Bidirectional Encoder Representations from Transformers (BERT) language model to recognize entity names within the text. As a result, 173 names of people and 314 of organizations and institutions were extracted from the Guro Industrial Complex’s past records. These extracted entities are expected to serve as direct search terms for accessing the contents of the records.
Furthermore, the study identified challenges that arose when applying the theoretical methodology of NLP to real-world records consisting of semistructured text. It also presents potential solutions and implications to consider when addressing these issues.
한국어
본 연구는 인공지능의 하위분야인 자연어 처리(NLP)의 개체명 인식(NER)을 통하여 기록에 내재된 메타데이터 값과 기술 정보를 추출하는 방안에 대한 시험적 연구이다. 연구 대상은 1960~1970년대에 생산된 구로공단 수기 기록물(약 1,200 쪽, 8만여 단어)을 대상으로 하였다.
디지털화를 포함하는 전처리 과정과 함께 기록 텍스트에 대해서 구글의 BERT 언어 모델에 기반하여 구현되어 공개된 언어 API를 사용하여 개체명을 인식하였다. 그 결과로 구로공단의 과거 기록에 포함된 173개의 인명과 314개의 조직 및 기관 개체명을 추출할 수 있었고, 이는 기록의 내용에 대한 직접적인 검색어로 사용될 수 있다고 기대된다.
그리고 자연어 처리의 이론적 방법론을 반·비정형의 텍스트로 이루어진 실제 기록물에 적용할 때 발생하는 문제점을 파악하여 해결 방안과 고려해야 할 시사점을 제시했다.
한국기록관리학회 [Korean Society of Archives and Records Management]
설립연도
2000
분야
복합학>문헌정보학
소개
한국기록관리학회(Korean Society of Archives & Records Management)는 기록학 영역의 학술 연구를 촉진하고, 기록인 공동체 구성원 및 관련 기관 간의 상호협력 증진을 목적으로 2000년 7월 설립된 전문학술단체입니다.
한국기록관리학회는 한국연구재단 등재지인 <한국기록관리학회지>를 연 4회 발간하고 있으며, 2010년 <기록관리론: 증거와 기억의 과학>, 2018년 <기록관리의 이론과 실제>을 펴내는 등 교육출판에 힘쓰고 있습니다.
또한, 2009년 한국기록학회와 공동으로 제1회 전국기록인대회를 개최한 이래, 2018년 제10회 전국기록인대회를 공동 개최하기에 이르기까지, 기록학의 현장성과 복합성 그리고 실천을 담보한 학술 연구를 증진하고, 기록인 공동체의 소통을 위해 노력하고 있습니다.
한국기록관리학회는 창립 이래, 기록학의 사회적, 역사적 중요성을 잊지 않으며, 기록관리 현장의 문제를 비판하며, 원칙을 바로잡는 일에 물러서지 않았습니다. 불편부당한 기록관리의 원칙을 세우며, 기록인 공동체의 학술적, 실천적 소통의 장이 되고자 하는 한국기록관리학회에 기록인 모두의 성원을 부탁드립니다.
간행물
간행물명
한국기록관리학회지 [Journal of Korean Society of Archives and Records Management]