基于组合决策树与文本嵌入的异常检测及文档检索方法研究
在当今的数据驱动时代,异常检测和文档检索是机器学习领域中极为重要的任务。异常检测有助于发现数据中的异常模式,而文档检索则能帮助我们从大量文本中找到所需信息。本文将介绍基于组合决策树(CDT)的时间序列异常检测方法,以及基于文本嵌入的文档检索方法。
基于组合决策树的时间序列异常检测
实验目标与设置
实验的目标有两个:一是评估基于组合的决策树(CDT)生成的规则是否易于人类理解并能被专家解释;二是在生成相关规则的同时,与不生成规则的其他学习方法相比,评估其在异常检测中的效果。
实验使用了Waikato Environment for Knowledge Acquisition(WEKA)3.8版本作为模拟工具,在运行Windows 10专业版、配备Intel (R) Core (TM) i5处理器和16GB RAM的机器上进行,编程语言为Python 3.7。
数据集介绍
- SGE数据集 :SGE负责不同校园的流体(如能源、水、压缩空气)分配管理,通过传感器收集数据,我们处理基于仪表读数计算的卡路里消耗数据集中的异常。共探索了25个由不同传感器生成的时间序列,包含33536个观测值,其中有586个不同类型的异常,如正峰值、负峰值和突然变化。
- Yahoo的S5 Webscope数据集 :这是一个公开的异常检测基准数据集,包含371个文件,分为A1/A2/A3和A4四类。本文使用A1类验证异常检测方法,该数据以一小时为单位的时间序列表示,手动标记了异常值,与
超级会员免费看
订阅专栏 解锁全文

431

被折叠的 条评论
为什么被折叠?



