토렌트 및 P2P 사이트나 웹 하드는 쉽고 편리하게 무료로 다운로드 받거나 가격을 저렴하게 이용할 수 있다는 이유 만으로 사용자들은 자주 이용하지만 국내 토렌트 및 P2P 사이트나 웹 하드는 저작권과 관련되어 매우 민감하기 때문에 저작권 보호를 위한 기술들이 연구되고 적용 되어지고 있다. 이 중에서 파일의 제목이나 주요 단어의 조합 등 경우의 수를 금칙어로 설정하여 차단하는 제목 및 문자열 비교방식 필터링 기술은 제목 변경, 띄어쓰기 등을 통해 우회가 용이 하다. 저작권 보호를 위한 불법저작물을 검색하고 차단하기 위해서는 변형된 파일 제목을 정규화 하는 기술이 필수적이 다. 본 논문에서는 불법저작물의 변형된 파일 제목을 정규화 하는 기법과 파일 제목을 정규화를 진행 전과 후에 따른 검색에 의한 탐지율을 비교하였다. 정규화를 진행하기 전 탐지율은 77.72%로 아쉬운 탐지율이 보인 반면에 정규화를 진 행한 후 90.23%로 정규화가 필수적이라고 말할 수 있다. 향후, 공통으로 나타나는 날짜와 화질 표시 같은 무의미한 용어 들을 처리하면, 더욱 좋은 결과가 산출될 것으로 기대한다. 국문 요약입니다.
영어
Although torrents and P2P sites or web hard are frequently used by users simply because they can be easily do wnloaded freely or at low prices, domestic torrent and P2P sites or web hard are very sensitive to copyright. Techni ques have been researched and applied. Among these, title and string comparison method filtering techniques that bl ock the number of cases such as file titles or combinations of key words are blocked by changing the title and spaci ng. Bypass is easy through. In order to detect and block illegal works for copyright protection, a technique for norm alizing modified file titles is essential. In this paper, we compared the detection rate by searching before and after no rmalizing the modified file title of illegal works and normalizing the file title. Before the normalization, the detection rate was 77.72%, which was unfortunate while the detection rate was 90.23% after the normalization. In the future, i t is expected that better handling of nonsense terms, such as common date and quality display, will yield better resu lts.
목차
요약 ABSTRACT 1. 서론 2. 관련 연구 3. 제안 모델 3.1 전체 구조 3.2 P2P Crawling 3.3 Title Sentence by Normalization 3.4 Simhash , KNN by Hamming 4. 실험 결과 4.1 Dataset 구성 4.2 정규화 여부에 따른 검색 성능 분석결과 5. 결론 참고문헌