Earticle

현재 위치 Home

기술

비정형 Security Intelligence Report의 정형 정보 자동 추출
An Automatically Extracting Formal Information from Unstructured Security Intelligence Report

첫 페이지 보기
  • 발행기관
    한국디지털정책학회 바로가기
  • 간행물
    디지털융복합연구 KCI 등재 바로가기
  • 통권
    제17권 제11호 (2019.11)바로가기
  • 페이지
    pp.233-240
  • 저자
    허윤아, 이찬희, 김경민, 조재춘, 임희석
  • 언어
    한국어(KOR)
  • URL
    https://www.earticle.net/Article/A365328

※ 기관로그인 시 무료 이용이 가능합니다.

4,000원

원문정보

초록

영어
In order to predict and respond to cyber attacks, a number of security companies quickly identify the methods, types and characteristics of attack techniques and are publishing Security Intelligence Reports(SIRs) on them. However, the SIRs distributed by each company are huge and unstructured. In this paper, we propose a framework that uses five analytic techniques to formulate a report and extract key information in order to reduce the time required to extract information on large unstructured SIRs efficiently. Since the SIRs data do not have the correct answer label, we propose four analysis techniques, Keyword Extraction, Topic Modeling, Summarization, and Document Similarity, through Unsupervised Learning. Finally, has built the data to extract threat information from SIRs, analysis applies to the Named Entity Recognition (NER) technology to recognize the words belonging to the IP, Domain/URL, Hash, Malware and determine if the word belongs to which type We propose a framework that applies a total of five analysis techniques, including technology.
한국어
사이버 공격을 예측하고 대응하기 위해서 수많은 보안 기업 회사에서는 공격기법의 특성, 수법 유형을 빠르게 파악하고, 이에 대한 Security Intelligence Report(SIR)들을 배포한다. 하지만 각 기업에서 배포하는 SIR들은 방대하 며, 형식이 맞춰져 있지 않다. 본 논문은 대량의 비정형한 SIR들에서 정보를 추출하는데 소요되는 시간을 줄이고 효율적 으로 파악하기 위해 SIR들에 대해 정형화하고 주요 정보를 추출하기 위해 5가지 분석기술이 적용된 프레임워크를 제안 한다. SIR들의 데이터는 정답 라벨이 없기 때문에 비지도 학습방식을 통해 키워드 추출, 토픽 모델링, 문서 요약, 유사 문서 검색 총 4가지 분석기술을 제안한다. 마지막으로 SIR들에서 위협 정보 추출하기 위해 데이터를 구축하였으며, 개 체명 인식 기술에 적용하여 IP, Domain/URL, Hash, Malware에 속하는 단어를 인식하고 그 단어가 어떤 유형에 속 하는지 판단하는 분석기술을 포함한 총 5가지 분석기술이 적용된 프레임워크를 제안한다.

목차

요약
Abstract
1. 서론
2. 관련 연구
3. SIR 자동 분석 프레임워크
3.1 DataSet
3.2 키워드 추출 및 토픽 모델링 분석 기술
3.3 문서 요약 분석기술
3.4 문서 유사도 검색
3.5 Named Entity Recognition 분석 기술
4. 실험 결과
4.1 키워드 추출 분석기술 실험 결과
4.2 토픽 모델링 분석기술 실험결과
4.3 문서 요약 실험 결과
4.4 유사 문서 검색 실험 결과
4.5 NER 실험 결과
5. 결론
REFERENCES

키워드

보안 위협 정보 추출 머신러닝 딥러닝 문서 분류 Threat Information Information Extraction Machine Learning Deep Learning Document Analysis

저자

  • 허윤아 [ Yuna Hur | 고려대학교 컴퓨터학과 학생 ]
  • 이찬희 [ Chanhee Lee | 고려대학교 컴퓨터학과 학생 ]
  • 김경민 [ Gyeongmin Kim | 고려대학교 컴퓨터학과 학생 ]
  • 조재춘 [ Jaechoon Jo | 상명대학교 스마트정보통신공학과 교수 ]
  • 임희석 [ Heuiseok Lim | 고려대학교 컴퓨터학과 교수 ] Corresponding Author

참고문헌

자료제공 : 네이버학술정보

간행물 정보

발행기관

  • 발행기관명
    한국디지털정책학회 [The Society of Digital Policy & Management]
  • 설립연도
    2003
  • 분야
    복합학>과학기술학
  • 소개
    디지털기술 및 산업정책, 디지털경제, 관련 산업의 연구, 전자정부, 디지털정치에 관한 제도적, 정책적 연구, 디지털경영, 전자상거래, e-비즈니스에 관한 실용적 연구, 학술연구지 발간 및 학술대회 개최 등을 통하여 디지털경제 및 디지털경영에 관련되는 국가정책 분야의 연구 및 교류를 촉진하고 국가 및 기업 정보화와 디지털산업의 발전에 공헌한다.

간행물

  • 간행물명
    디지털융복합연구 [Journal of Digital Convergence]
  • 간기
    계간
  • pISSN
    2713-6434
  • eISSN
    2713-6442
  • 수록기간
    2003~2026
  • 등재여부
    KCI 등재후보
  • 십진분류
    KDC 569 DDC 620

이 권호 내 다른 논문 / 디지털융복합연구 제17권 제11호

    피인용수 : 0(자료제공 : 네이버학술정보)

    함께 이용한 논문 이 논문을 다운로드한 분들이 이용한 다른 논문입니다.

      페이지 저장