(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211131399.8
(22)申请日 2022.09.16
(71)申请人 华东师范大学
地址 200241 上海市闵行区东川路5 00号
(72)发明人 袁圆 倪葎 金澈清
(74)专利代理 机构 上海麦其知识产权代理事务
所(普通合伙) 31257
专利代理师 董红曼
(51)Int.Cl.
G06K 9/62(2022.01)
G06N 5/00(2006.01)
G06N 20/00(2019.01)
G06Q 40/04(2012.01)
(54)发明名称
一种针对复杂数据流的异常检测集成方法
及系统
(57)摘要
本发明公开了一种针对复杂数据流的异常
检测集成方法, 所述异常检测集成方法以有监督
分类器作为基学习器, 结合 stacking集成思想对
原始数据进行压缩。 在检测器集成部分同时选择
离线检测器和在线检测器, 使模 型兼具稳定性与
可塑性, 其中自适应权重更新机制使模型可应对
概念漂移现象。 最后设计分层重放机制应对增量
学习过程中的灾难性遗忘, 同时结合过采样思
想, 改善类不平衡问题。 本发明还公开了实现上
述异常检测集成方法的检测系统, 包括特征压缩
模块、 检测器集成模块、 范例集构建模块、 自适应
权重更新模块。
权利要求书4页 说明书9页 附图2页
CN 115423027 A
2022.12.02
CN 115423027 A
1.一种针对复杂数据流的异常检测集成方法, 其特征在于, 所述异常检测集成方法是
一种基于集成学习, 结合st acking思想对原始数据进行特征压缩, 集成离线检测器与在线
检测器, 使算法兼具稳定性与可塑性, 同时结合分层重放机制与自适应权重更新机制, 获得
的一个高效准确可抵抗 概念漂移的用于复杂数据流异常检测的方法。
2.根据权利要求1所述的异常检测集成方法, 其特征在于, 所述异常检测集成方法包括
以下步骤:
S1: 特征压缩: 输入t ‑1时刻的范例集εt‑1和t时刻的实例集
使用有监督分类器对合
并后的t‑1时刻的范例集和t时刻到 达的实例集
进行压缩, 获得压缩后的数据;
S2: 检测器集成: 使用步骤S1中获得的压缩后的数据, 同时训练离线检测器与在线检测
器;
S3: 分层重放机制: 对正常实例与异常实例采取不同筛选规则进行分层筛选, 构建范例
集;
S4: 异常分数预测及自适应权重更新: 模型中参数更新完成后, 对t+1时刻到达的实例
进行预测; 在获得t+1时刻的所有实例的标签后, 更新 不同检测器的权 重, 并更新检测模型。
3.根据权利要求2所述的异常检测集成方法, 其特 征在于, 所述 步骤S1具体包括:
步骤1.1)、 给出符号定义: 复杂数据流中每个实例表示为d=(x,y)', 其中x为p维特征
向量, y为实例是否正常的二分类标签; 在t时刻到达的实例集表示为
其中
表示
中
所有异常实例,
表示
中所有正常实例;
步骤1.2)、 合并t ‑1时刻的范例集和t时刻 到达的实例集,
作为训练集, 训练m
个有监督分类器
训练完毕后, 利用第j 个分类器
得到后验概率, 分别为
实例d为异常样本的概率
和实例d为正常样本的概率
分别记为
和
步 骤 1 .3 ) 、合 并 所 有 分 类 器 的 后 验 概 率 得 到 2 m 维 特 征 向 量 , 即
最终获得压缩后的数据表示
4.根据权利要求2所述的异常检测集成方法, 其特 征在于, 所述 步骤S2具体包括:
步骤2.1)、 训练离线异常检测器: 将合并后的t ‑1时刻的范例集和t时刻到达的实例集
作为训练集, 训练集在经过特征压缩后, 训练noff个离线检测器
步骤2.2)、 训练在 线异常检测器: 将当前时刻到达的实例集
与上一时刻的范例集 εt‑1
同时作为训练集, 使训练集中的实例逐个进入在线异常检测器的模型, 不断更新每个在线
异常检测器中的参数, 训练多个在线异常检测器, 记为
步骤2.3)、 计算各检测器的异常分数并加权: 第j个检测器
对t+1时刻到达实例进行
预测, 异常分数表示为
所有检测器对t+1时刻到达的实例 的加权异常分数为
权 利 要 求 书 1/4 页
2
CN 115423027 A
2其中
为离线异常检测器或在线异常检测器,
为离线异常检测器或在
线异常检测器的权 重。
5.根据权利要求2所述的异常检测集成方法, 其特 征在于, 所述 步骤S3具体包括:
步骤3.1)、 构建异常范例集: 对于异常实例, 保留t时刻之前的所有异常实例, 即
步骤3.2)、 构建正常范例集: 对于正常实例, 选择具有代表性的实例构建范例集, 假设
范例集最大可为k, 当k大于t ‑1时刻的正常范例集
和t时刻到达的所有正常实例
的
数量之和时, 则所有正常实例都被保留; 否则, 需要对这些实例进 行筛选, 筛选规则如下, 首
先, 确定这些实例的均值向量, 即
其中|A|是集 合A中的元 素数;
然后, 计算每个候选实例与均值向量
之间的距离, 并从小到大排序; 最后, 距离均值
向量最近的前k个实例被挑选为当前 范例集
的元素;
步骤3.3)、 合并完整范例集: 异常范例集
和正常范例集
合并构成完整范例集 εt,
完整范例集 εt在t+1时刻与到 达的实例集
合并, 共同构成特 征压缩部分的训练集。
6.根据权利要求2所述的异常检测集成方法, 其特 征在于, 所述 步骤S4具体包括:
步骤4.1)、 在t+1时刻前, 已经训练了m个分类器
和noff+non个检测器
一旦目前标签y未知的未标记的实例
到
达, 通过以下步骤对其进行预测: 首先, 使用分类器
对未标记示例进行预
测, 得到后验概率z=(f1(x),1‑f1(x),···,fm(x),1‑fm(x))作为新特征; 然后, 使用训练
好的离线异常检测器和/或在线异常检测器对压缩后的数据进行检测, 每个检测器输出其
异常分数; 各检测器输出的异常分数分别表示为
接下来, 计
算加权得分:
其中
是第j个检测器在t时刻的权重, 各检测器权重之和为1; 最后给定一个阈值c, 如
果实例加 权分数st+1大于c, 模型判定该实例异常; 否则, 模型判定该实例正常; 所述阈值是
之前所有实例的异常比例;
步骤4.2)、 在模型初始化时, 每个检测器都被分配了相同的权重, 在获得t+1时刻的所
有实例的标签后, 更新不同检测器的权重; 假设得到预测实例的标签为y, 计算得到的第 j个
检测器的得分为
每个检测器权重更新为
为交叉熵损失函数, 用于衡量真实标签y与异常得分权 利 要 求 书 2/4 页
3
CN 115423027 A
3
专利 一种针对复杂数据流的异常检测集成方法及系统
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-17 23:41:22上传分享