Earticle

현재 위치 Home

딥러닝 기법을 활용한 산업/직업 자동코딩 시스템
An Automated Industry and Occupation Coding System using Deep Learning

첫 페이지 보기
  • 발행기관
    한국융합학회 바로가기
  • 간행물
    한국융합학회논문지 KCI 등재 바로가기
  • 통권
    제12권 제4호 (2021.04)바로가기
  • 페이지
    pp.23-30
  • 저자
    임정우, 문현석, 이찬희, 우찬균, 임희석
  • 언어
    한국어(KOR)
  • URL
    https://www.earticle.net/Article/A393694

※ 기관로그인 시 무료 이용이 가능합니다.

4,000원

원문정보

초록

영어
An Automated Industry and Occupation Coding System assigns statistical classification code to the enormous amount of natural language data collected from people who write about their industry and occupation. Unlike previous studies that applied information retrieval, we propose a system that does not need an index database and gives proper code regardless of the level of classification. Also, we show our model, which utilized KoBERT that achieves high performance in natural language downstream tasks with deep learning, outperforms baseline. Our method achieves 95.65%, 91.51%, and 97.66% in Occupation/Industry Code Classification of Population and Housing Census, and Industry Code Classification of Census on Basic Characteristics of Establishments. Moreover, we also demonstrate future improvements through error analysis in the respect of data and modeling.
한국어
본 산업/직업 자동코딩 시스템은 조사 대상자들이 응답한 방대한 양의 산업/직업을 설명하는 자연어 데이터에 통계 분류 코드를 자동으로 부여하는 시스템이다. 본 연구는 기존의 정보검색 기반의 산업/직업 자동코딩시스템과 다르 게 딥러닝을 이용하여 색인 DB가 필요하지 않고 분류 수준에 상관없이 코드를 부여할 수 있는 시스템을 제안한다. 또 한, 자연어 처리에 특화된 딥러닝 기법인 KoBERT를 적용한 제안 모델은 인구주택총조사 산업/직업 코드 분류, 그리고 사업체기초조사 산업 코드 분류에서 각각 95.65%, 91.45%, 97.66%의 Top 10 정확도를 보인다. 제안한 모델 실험 후 향후 개선 가능성을 데이터/모델링 관점으로 분석한다.

목차

요약
Abstract
1. 서론
1.1 서론
2. 관련 연구
2.1 산업/직업 자동코딩을 위한 국외 연구
2.2 산업/직업 자동코딩을 위한 국내 연구
3. 딥러닝 기반 산업/직업 분류 모델
3.1 Bi-LSTM
3.2 KoBERT
4. 실험
4.1 데이터
4.2 정량적 평가 지표
4.3 실험
4.4 오류 분석
5. 결론
REFERENCES

키워드

통계 분류 융합 산업/직업 자동코딩 딥러닝 Bi-LSTM KoBERT Statistic Code Convergence Classification Automated Industry/Occupation Coding Deep learning Bi-LSTM KoBERT

저자

  • 임정우 [ Jungwoo Lim | 고려대학교 컴퓨터학과 석박사통합과정 ]
  • 문현석 [ Hyeonseok Moon | 고려대학교 컴퓨터학과 석박사통합과정 ]
  • 이찬희 [ Chanhee Lee | 고려대학교 컴퓨터학과 석박사통합과정 ]
  • 우찬균 [ Chankyun Woo | 통계청 조사시스템관리과 전산주무관 ]
  • 임희석 [ Heuiseok Lim | 고려대학교 컴퓨터학과 교수 ] Corresponding Author

참고문헌

자료제공 : 네이버학술정보

간행물 정보

발행기관

  • 발행기관명
    한국융합학회 [Korea Convergence Society]
  • 설립연도
    2011
  • 분야
    복합학>학제간연구
  • 소개
    본회는 융합학문 및 융합기술을 교류를 통한 학문기술의 확대․발전․보급 및 기술개발 전략에 과학적으로 접근하여 융합학문 및 기술을 더욱 활성화하고, 회원 상호간의 정보 교류를 도모함으로써 지역과 나라발전에 기여함을 목적으로 한다.

간행물

  • 간행물명
    한국융합학회논문지 [Journal of the Korea Convergence Society]
  • 간기
    월간
  • pISSN
    2233-4890
  • 수록기간
    2010~2022
  • 십진분류
    KDC 530 DDC 620

이 권호 내 다른 논문 / 한국융합학회논문지 제12권 제4호

    피인용수 : 0(자료제공 : 네이버학술정보)

    함께 이용한 논문 이 논문을 다운로드한 분들이 이용한 다른 논문입니다.

      페이지 저장