Log Cluster:日志数据聚类和模式挖掘算法

本文介绍了LogCluster算法,一种用于文本事件日志数据聚类和线性模式挖掘的方法。LogCluster通过识别频繁发生的模式,对事件日志进行聚类,适用于错误检测、可视化和模式识别等任务。与SLCT和IPLoM等算法相比,LogCluster能处理带通配符的行模式,并通过Aggregate_Support和Join_Cluster启发式策略减少过拟合。此外,LogCluster还探讨了如何通过词类来处理非频繁词,提高模式挖掘的效率。

摘要:现代 IT 系统经常产生大量事件日志,事件模式发现就成了重要的日志管理任务。为完成此目标,数据挖掘方法已经预先给出了很多方式。本文提出 Log Cluster 算法,其继承了文本事件日志数据聚类和线性模式挖掘。

日志事件模板可以被应用到很多方面,如:事件日志更正规则开发,系统错误和网络异常的检测,相关事件的可视化,网络通信模式的识别和报告,IDS 告警分类的自动构建。

基于行的非结构日志聚类算法,假设在事件日志中每个事件是通过单行日志描述的,每行模式代表一组相似事件。本文提出新的数据聚类算法Log Cluster,可以同时发掘频繁发生的模式和文本事件日志的离散事件。

相关工作

SLCT:自动日志解析,分配符合相同模式的事件日志行到相同簇中,所有检测的簇都被作为行模式。用户需要提供支持阈值 s 以便SLCT定义每个簇中最少行数量。在日志处理期间,所有来自日志的频繁词放入集合作为此日志的候选。

建立单词字典,对所有日志建立包含单词频率和坐标的字典;建立日志簇;生成日志模板。

IPLoM 是一种层级聚类算法,基于系统消息特点涉及的生产式方法;开始将整个事件日志作为一个单独的部分,三步循环划分。第一步,将有相同词数量的行分配到一起;第二步,每个部分进一步被划分,通过标识最少唯一词数量的词位置,分配有相同词的行到相同部分划分;第三步,基于词对间的关系划分每个部分

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值