基于数据挖掘的入侵检测系统模型

基于数据挖掘的分布式入侵检测系统模型

冯超

大连理工大学软件学院，辽宁大连（116023）

E-mail ：

摘要：本文提出了一种基于数据挖掘的分布式入侵检测系统模型，介绍了该系统模型的结构，以及系统进行数据挖掘的过程。

关键词：分布式入侵检测，数据挖掘

中图分类号：TP393.08

1. 引言

随着互联网络的快速发展，网络信息安全逐渐得到人们的关注，人侵检测则成为网络安领域研究的重要课题。入侵检测是对企图入侵、正在进行的入侵或者已经发生的入侵进行识别的过程。从检测数据方面进行分类，我们可以把入侵检测分为基于主机和基于网络的检测。在处理大量的网络数据方面，单一的基于主机的或者基于网络的入侵检测都显得缺乏有效性、高效性、适应性和可扩展性。分布式入侵检测系统的提出弥补了当前大规模网络检测的不足，分布式结构由多个组件组成，既可以发现网络中的攻击，也可以通过对系统日志分析发现异常情况。同时，通过将数据挖掘技术应用在入侵检测系统中，可以从系统日志、网络数据等大量原始数据中发现未知的攻击模式[1][2]，并且可以降低入侵检测系统的误报率[3]。将入侵检测看作是一个数据的分析过程，对大量的安全数据应用特定的数据挖掘算法，以达到建立一个具有自适应性以及良好的扩展性能的入侵检测系统。目前，应用到入侵检测上的数据挖掘算法主要集中在关联、序列、分类和聚类这四个基本模型上。

本文在基于传统的入侵检测系统存在的问题上，同时在CIDF 模型[4]上提出了基于数据挖掘的分布式入侵检测系统模型，它将基于主机和基于网络的入侵检测系统有机结合在一起。该模型主要包括基于主机的入侵检测组件、基于网络的入侵检测组件和中央控制器。

2. 分布式入侵检测系统模型

2.1 系统模型概述

基于数据挖掘的分布式入侵检测系统模型不仅要监测一个网段上行为来防止外部的攻击行为，还要监测主机的行为操作，防止内部破坏。整个系统模型由基于主机的入侵检测组件、基于网络的入侵检测组件和中央控制器组成。系统模型如图1所示。系统各部分的简述如下：

主机检测组件被安装在各个主机上，它负责收集系统日志，对收集的数据进行分析，并对入侵行为做出相应的处理。

网络检测组件以原始的网络数据包作为数据源，在需要受保护的网段实时监测并分析通过该网段传输的通信数据，一旦发现有网络入侵行为，则实时响应，如果情况严重则阻断网络连接。

全局控制器由系统管理员控制，负责监控整个系统，包括向各主机检测组件、各网络检测组件发送配置信息并接收各个入侵检测组件的报告。

图1 基于数据挖掘的分布式入侵检测系统模型

2.2 主机检测组件和网络检测组件

主机检测组件是部署在各个主机上的检测组件，它负责对主机系统的相关事件收集和分析，并对攻击行为做出处理。网络检测组件则负责对网络中传输的数据进行检测、分析，对入侵行为做出响应，保证网络的安全。

主机检测组件和网络检测组件的内部构成基本一致，只是数据来源不同。主机数据源主要是主机的安全日志文件，包括操作系统的内核日志、应用程序日志、网络设备（如路由器和防火墙）日志等。网络数据源就是被监视网段的网络数据流。数据采集器在入侵检测系统中的重要性是显而易见的，数据是系统进行入侵检测的基础。本系统为分布式系统模型，通过分布式数据采集机制可以高效的处理网络中数据量大的问题。鉴于数据的不同格式问题，数据采集器将主机数据源和网络数据源经过预处理和转换，按照一定的格式保存在数据库中。

事件分析器作为入侵检测组件的核心部分，采用数据挖掘技术，从数据集中发现已知或未知的入侵行为，形成知识，并保存在知识规则库中。数据挖掘过程是设计的重点，主要是数据挖掘算法。还应该定期对事件分析其进行挖掘训练，利用规则知识和可疑的信息进行训练、评估，从而提高事件分析器中数据挖掘过程的知识提取准确度，使规则知识在检测入侵过程中效率更高、更准确。事件分析器的数据挖掘过程如图2所示。

图2 事件分析器数据挖掘过程

本系统的数据挖掘包括两个过程：关联规则挖掘和聚类挖掘。关联规则的挖掘目的是挖掘出隐藏在数据集中各项之间的相互关系，即可以发现入侵行为之间的相关性。聚类算法是一种无监督的异常检测算法，通过对未标识数据进行训练来检测入侵行为，优点在于能够发现未知的入侵类型。先用关联规则挖掘算法对处理后数据进行挖掘，提取出模式，形成规则集保存到全局知识库中，规则集是网络和用户行为模式的反应，可以用于指导训练数据的收集和作为特征选择的依据。聚类算法通过训练数据的学习形成聚类规则集，对检测数据进行识别，判断是正常行为还是异常行为，并将结果反馈给响应器。

当入侵检测组件发现存在攻击行为时，响应器就要相应措施进行防护报警。它的主要功能就是根据各检测组件的局部控制器提交的监测结果采取下一步行动。响应器根据得到的入侵报告通知局部控制器对网络设备进行阻断操作。

局部控制器作为检测组件中的控制中心，主要作用有：负责与中央控制器和响应器的通信，根据数据挖掘过程中产生的模式反馈给中央控制器；监视组件内部运行情况，根据需要可以随时对关联规则挖掘和聚类挖掘做出调整，增加了系统的可扩展性。

2.3中央控制器

中央控制器在分布式系统中是不可缺少的组件，而且也是很重要的部分。它负责各个组件的注册、注销，中央控制器对分布式系统内的所有组件进行编号，并把各组件的相关信息存储在数据库中，可以与各个组件通信，根据主机情况或当前网络情况可以随时对入侵检测各组件做出调整，提高系统的适应性。通过各组件的监测，分析所有入侵检测结果，如发现新的规则知识，则保存在全局知识库中。通过全局观察，还可以发现分布式攻击（Deny Of Service ，DOS ）。另外，通过对各局部监测组件的入侵检测结果的复查，如果发现误报，系统管理员可以进行人工操作，对全局知识库进行更新，中央控制器采用用户操作界面，便于系统管理员对系统进行配置。

3. 结论

本文提出了一种基于数据挖掘的分布式入侵检测系统模型，分布式的入侵检测系统从扩展、管理、高效等方面解决了传统入侵检测系统存在的问题，同时借助了数据挖掘技术在处理大量数据的优势，来提高入侵检测的检测效率和准确度。

参考文献

[1] Lee W, Stolfo S J, Mok K W. Mining Audit Data to Build Intrusion Detection models[A]. Stolarchuk, ed. Proc of the 4th International Conference on Knowledge Discovery and Data Mining [C]. New York: AAAI Press, 1998, 212-225.

[2] CHEN Shuo, AN Chang-qing, LI Xue-nong. DIDAP-PER: A Distributed Intrusion Detector with Apperception

[J]. Computer Engineering and Application, 2000, 47: 128-131(Ch).

[3] HE Yan-xiang, PEN Feng, SONG Wen-xin. Network Environment Based on Distributed KDD and Data Mining [J]. Mini-Micro Computer System, 1999, 59:34-37(Ch).

[4] Porras P, Schnackenberg D, Staniford-Chen S, et al. The Common Intrusion Detection Framework Architecture[EB/OL]. http://www.isi.edu/gost/cidf/drafts/architecture.txt, 1999-09-10

Data Mining based Distributed Intrusion Detection System

Model

Feng Chao

School of software of Dalian University of Technology，Dailian ，Liaoning （116023）

Abstract

The paper provides a data mining based distributed intrusion detection system model. The system model structure and data mining process are introduced in detail.

Keywords ：distributed intrusion detection，data mining