클러스터링 알고리즘을 이용한 압축 데이터 기반 이상탐지

인터넷의 발전과 함께 침입으로 인한 피해와 손실이 증가하고 있으며, 침입자의 공격은 더욱 복잡하고 다양해지고 있어 보다 적극적이고 효과적인 대응이 필요합니다. 로그 데이터는 중요한 시스템 정보와 침입 흔적을 보여주는 중요한 데이터이지만, 그 용량 때문에 유지 관리가 쉽지 않습니다. 현재 침입탐지 기술은 활발히 연구되고 있으나, 로그 데이터 저장 문제와 침입탐지 문제를 동시에 해결하는 연구는 충분히 이루어지지 않았습니다.

본 논문에서 제안하는 방법은 정상 데이터를 사용하여 압축 및 거리 변환 단계를 거친 뒤 클러스터링 알고리즘을 적용해 정상 클러스터 범위를 설정하고, 이 범위를 벗어나는 데이터를 이상으로 정의하여 탐지합니다. 압축 단계에서는 Logpack 압축 알고리즘의 변형을 사용하며, 각 로그 데이터에 독립적으로 적용되어 압축 후 별도의 정규화가 필요 없으므로 실시간으로 데이터가 추가되는 온라인 환경에 적합합니다. 거리 변환 단계에서는 차이 데이터를 거리로 사용하며, 압축 결과가 중복 없이 차이를 보여주므로 거리로 사용하기에 적절합니다.

실험 데이터로 KDD’99 Data Set과 DARPA 1998 Data Set을 사용하였고, Hierarchical, K-means, K-medoids 클러스터링 알고리즘을 적용하였습니다. 생성하는 클러스터 수에 따라 결과가 달라질 수 있으므로, 실험에서 클러스터 수를 2에서 32까지 증가시켰습니다. 평가 데이터를 사용하여 Precision과 Recall을 계산하고, Accuracy와 F-measure를 통해 성능을 평가하였습니다. 학습 데이터만으로 최적의 클러스터를 추정하기 위해 K-fold 교차 검증을 사용하였으며, 유전 알고리즘을 사용하여 유의미한 필드와 비유의미한 필드를 구분하고, 비유의미한 필드에 강한 압축 알고리즘을 적용하여 전체 압축률을 향상시켰습니다.

실험 결과, 제안된 방법이 기존 방법보다 이상탐지를 위한 더 나은 유의미 필드 추상화 방법임을 증명하였습니다.

January 1, 2011 ∙ 석사논문 이상탐지 클러스터링 압축

제품 기획·개발 파트너 찾으시나요? 개인·팀·기업 모두 환영. 문제 정의부터 출시까지 함께합니다.

함께 일하기 연락하기 →