In order to predict and respond to cyber attacks, a number of security companies quickly identify the methods, types and characteristics of attack techniques and are publishing Security Intelligence Reports(SIRs) on them. However, the SIRs distributed by each company are huge and unstructured. In this paper, we propose a framework that uses five analytic techniques to formulate a report and extract key information in order to reduce the time required to extract information on large unstructured SIRs efficiently. Since the SIRs data do not have the correct answer label, we propose four analysis techniques, Keyword Extraction, Topic Modeling, Summarization, and Document Similarity, through Unsupervised Learning. Finally, has built the data to extract threat information from SIRs, analysis applies to the Named Entity Recognition (NER) technology to recognize the words belonging to the IP, Domain/URL, Hash, Malware and determine if the word belongs to which type We propose a framework that applies a total of five analysis techniques, including technology.
한국어
사이버 공격을 예측하고 대응하기 위해서 수많은 보안 기업 회사에서는 공격기법의 특성, 수법 유형을 빠르게 파악하고, 이에 대한 Security Intelligence Report(SIR)들을 배포한다. 하지만 각 기업에서 배포하는 SIR들은 방대하 며, 형식이 맞춰져 있지 않다. 본 논문은 대량의 비정형한 SIR들에서 정보를 추출하는데 소요되는 시간을 줄이고 효율적 으로 파악하기 위해 SIR들에 대해 정형화하고 주요 정보를 추출하기 위해 5가지 분석기술이 적용된 프레임워크를 제안 한다. SIR들의 데이터는 정답 라벨이 없기 때문에 비지도 학습방식을 통해 키워드 추출, 토픽 모델링, 문서 요약, 유사 문서 검색 총 4가지 분석기술을 제안한다. 마지막으로 SIR들에서 위협 정보 추출하기 위해 데이터를 구축하였으며, 개 체명 인식 기술에 적용하여 IP, Domain/URL, Hash, Malware에 속하는 단어를 인식하고 그 단어가 어떤 유형에 속 하는지 판단하는 분석기술을 포함한 총 5가지 분석기술이 적용된 프레임워크를 제안한다.
목차
요약 Abstract 1. 서론 2. 관련 연구 3. SIR 자동 분석 프레임워크 3.1 DataSet 3.2 키워드 추출 및 토픽 모델링 분석 기술 3.3 문서 요약 분석기술 3.4 문서 유사도 검색 3.5 Named Entity Recognition 분석 기술 4. 실험 결과 4.1 키워드 추출 분석기술 실험 결과 4.2 토픽 모델링 분석기술 실험결과 4.3 문서 요약 실험 결과 4.4 유사 문서 검색 실험 결과 4.5 NER 실험 결과 5. 결론 REFERENCES
키워드
보안 위협정보 추출머신러닝딥러닝문서 분류Threat InformationInformation ExtractionMachine LearningDeep LearningDocument Analysis
저자
허윤아 [ Yuna Hur | 고려대학교 컴퓨터학과 학생 ]
이찬희 [ Chanhee Lee | 고려대학교 컴퓨터학과 학생 ]
김경민 [ Gyeongmin Kim | 고려대학교 컴퓨터학과 학생 ]
조재춘 [ Jaechoon Jo | 상명대학교 스마트정보통신공학과 교수 ]
임희석 [ Heuiseok Lim | 고려대학교 컴퓨터학과 교수 ]
Corresponding Author
한국디지털정책학회 [The Society of Digital Policy & Management]
설립연도
2003
분야
복합학>과학기술학
소개
디지털기술 및 산업정책, 디지털경제, 관련 산업의 연구, 전자정부, 디지털정치에 관한 제도적, 정책적 연구, 디지털경영, 전자상거래, e-비즈니스에 관한 실용적 연구, 학술연구지 발간 및 학술대회 개최 등을 통하여 디지털경제 및 디지털경영에 관련되는 국가정책 분야의 연구 및 교류를 촉진하고 국가 및 기업 정보화와 디지털산업의 발전에 공헌한다.