(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202210646150.4 (22)申请日 2022.06.09 (65)同一申请的已公布的文献号 申请公布号 CN 114722081 A (43)申请公布日 2022.07.08 (73)专利权人 杭银消费金融股份有限公司 地址 310005 浙江省杭州市拱 墅区庆春路 38号7层702室、 8层(801、 802、 803、 804 室)、 11层(1101、 1102室) (72)发明人 石杰 廖家林 伍星  (74)专利代理 机构 浙江维创盈嘉专利代理有限 公司 33477 专利代理师 龚洋洋 (51)Int.Cl. G06F 16/2455(2019.01) G06F 16/2458(2019.01) G06F 16/242(2019.01) G06F 16/21(2019.01) G06F 16/906(2019.01) G06K 9/62(2022.01)(56)对比文件 CN 111782477 A,2020.10.16 CN 113704008 A,2021.1 1.26 CN 111783875 A,2020.10.16 CN 1027240 63 A,2012.10.10 CN 111930821 A,2020.1 1.13 CN 114168557 A,202 2.03.11 CN 114265927 A,202 2.04.01 CN 102663065 A,2012.09.12 CN 111259985 A,2020.0 6.09 CN 112711757 A,2021.04.27 CN 109121093 A,2019.01.01 CN 111310843 A,2020.0 6.19 CN 108108625 A,2018.0 6.01 WO 20210 52177 A1,2021.0 3.25 US 2022123988 A1,202 2.04.21 牟向伟等.一种大规模流式数据聚类方法在 交通热点分析中的应用. 《科 学技术与工程》 .2017,(第15期), 审查员 罗秋风 (54)发明名称 一种基于中转库模式的流式数据时间序列 传输方法及系统 (57)摘要 本发明涉及数据处理技术领域, 具体涉及一 种基于中转库模式的流式数据时间序列传输方 法及系统,该方法通过对日志流式数据进行初始 聚类并进行异常离散数据分析, 获得多个包含数 据区间且用于存储初始聚类簇的存储服务器和 用于存储异常离散数据的特殊数据存储服务器。 利用实时日志流式数据与数据库中的日志流式 数据的匹配差异判断是否进行更新存储服务器。 利用检索服务器的检索式对不同存储服务器进 行数据提取并整合, 获得调取日志流式数据并传 输。 本发明通过构建由检索服务器、 多个存储服 务器、 特殊数据存储服务器和备用服务器构成的中转库, 实现了对流式数据的完整安全的存储及 传输, 保证 了传输效率。 权利要求书2页 说明书8页 附图3页 CN 114722081 B 2022.09.02 CN 114722081 B 1.一种基于中转库模式的流式数据时间序列传输方法, 其特 征在于, 所述方法包括: 统计存储器内的所有初始日志流式数据, 并规范所有所述初始日志流式数据的存储格 式, 使得所述初始日志流式数据为一个包含多个维度且每个维度为一个特征 的多维数据; 对所述初始日志流式数据进行 预处理, 消除维度之间量纲的影响, 获得日志流式数据; 获得所述日志流式数据中每个维度的数据与预设标准数据的差异; 根据每个维度对应 的所述差异对不同所述日志流式数据进行初始聚类, 获得多个初始聚类簇; 识别出所述初 始聚类簇中的异常离散聚类簇, 并将所述异常离散聚类簇移入特殊数据存储服务器; 所述 异常离散聚类簇中的样本数量少且与其他所述初始聚类簇的差异大于预设第一差异阈值; 所述异常离 散聚类簇的识别方法包括: 获得每个所述初始聚类簇与 所有其他所述初始聚类簇的聚类中之间的差异累加和; 根 据所述初始聚类簇中的样本数量和样本方差获得异常离散判断系数; 所述离散判断系数与 所述样本数量呈正相关关系, 与所述样本方差呈负相关关系; 若所述差异累加和大于所述 第一差异阈值且所述异常离散判断系数小于预设判断系数阈值, 则对应的所述初始聚类簇 为所述异常离 散聚类簇; 根据剩余所述初始聚类簇的数量和每个所述初始聚类簇中的数据区间构建多个存储 服务器并将对应所述初始聚类簇的数据存储进去; 每个所述存储服务器对应一个所述数据 区间; 将获取的实时日志流式数据 经过相同所述预处理后存储至备用存储服务器; 将所述实 时日志流式数据与所有所述存储服务器中所述初始聚类簇进 行匹配, 并获得所述 实时日志 流式数据与最匹配的所述初始聚类簇的聚类中心的匹配差异; 若 所述匹配差异小于预设第 二差异阈值, 则将所有所述存储服务器中的数据传输至备用服务器并重新进行聚类, 根据 重新聚类的结果更新所述存储服务器的数量及 对应的所述数据区间; 若 所述匹配差异不小 于所述第二差异阈值, 则将所述实时日志流式数据存储至所述特殊数据存储服务器; 若所 述特殊数据存储服务器中存在预设数量个互相相似数据, 则在 存储服务器集合中为所述互 相相似数据添加一个对应的所述存 储服务器并存 储; 需要数据调取时, 利用检索服务器获得检索式, 利用所述检索式提取不同所述存储服 务器中的数据并整合, 获得调取日志流式数据并传输 。 2.根据权利要求1所述的一种基于中转库模式的流式数据时间序列传输方法, 其特征 在于, 所述对所述初始日志流式数据进行 预处理包括: 利用关键词检测神经网络处理所述初始日志流式数据, 检测出包含预设关键词数据的 多个关键维度, 将其他维度的数据作为噪声数据进行剔除, 将每个所述关键维度的数据量 纲统一后进行归一 化处理, 获得所述日志流式数据。 3.根据权利要求1所述的一种基于中转库模式的流式数据时间序列传输方法, 其特征 在于, 所述 根据每个维度对应的所述差异对不同所述日志流式数据进行初始聚类包括: 根据每个维度对应的所述差异将不同所述日志流式数据映射至样本空间中, 利用K均 值聚类算法对所述样本空间中的样本进行聚类, 获得多个所述初始聚类簇 。 4.根据权利要求1所述的一种基于中转库模式的流式数据时间序列传输方法, 其特征 在于, 所述 获得每个所述初始聚类簇与所有其他所述初始聚类簇的聚类中之间的差异累加 和后还包括:权 利 要 求 书 1/2 页 2 CN 114722081 B 2统计所有所述初始聚类簇的所述差异累加和, 并将所述差异累加和由小到大排序, 获 得差异累加和序列, 获得所述差异累加和序列中相邻元素之间后一个元素与前一个元素的 差值, 若所述差值与前一个元素的比值大于等于一, 则认为所述前一个元素为分割元素, 所 述差异累加和序列中所述分割元素以后的所有元素均认为满足所述差异累加和大于所述 第一差异阈值的条件。 5.根据权利要求1所述的一种基于中转库模式的流式数据时间序列传输方法, 其特征 在于, 所述 根据所述初始聚类簇中的样本数量和样本方差获得异常离 散判断系数包括: 根据异常离散判断系数公式获得所述异常离散判断系数, 所述异常离散判断系数公式 包括: 其中, 为第 个所述初始聚类簇的所述异常离散判断系数, 为第 个所述初始聚 类簇的所述样本数量, 为第 个所述初始聚类簇的所述样本方差, 为自然常数。 6.根据权利要求3所述的一种基于中转库模式的流式数据时间序列传输方法, 其特征 在于, 所述将所述实时日志 流式数据与所有 所述存储服务器中所述初始聚类簇进 行匹配包 括: 获得所述实时日志流式数据与所有所述初始聚类簇的聚类中心在所述样本空间中的 欧氏距离; 以最小欧氏距离对应的所述初始聚类簇作为所述 实时日志流式数据的最匹配的 所述初始聚类簇, 以所述 最小欧氏距离作为所述匹配差异。 7.一种基于中转库模式的流式数据时间序列传输系统, 其特征在于, 所述系统包括存 储器、 处理器以及存储在所述存储器中并可在处理器上运行 的计算机程序, 所述处理器执 行所述计算机程序时实现如权利要求1 ‑6任意一项所述方法的步骤。权 利 要 求 书 2/2 页 3 CN 114722081 B 3

.PDF文档 专利 一种基于中转库模式的流式数据时间序列传输方法及系统

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于中转库模式的流式数据时间序列传输方法及系统 第 1 页 专利 一种基于中转库模式的流式数据时间序列传输方法及系统 第 2 页 专利 一种基于中转库模式的流式数据时间序列传输方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 00:09:34上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。