standard download
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211263338.7 (22)申请日 2022.10.17 (71)申请人 丰宗军 地址 101149 北京市通州区杨庄街道长城 国际66号楼A2单元505 (72)发明人 不公告发明人 (51)Int.Cl. G06F 16/2455(2019.01) G06F 16/2458(2019.01) (54)发明名称 一种通用型、 可复用的流式大数据统计的实 现方法及系统 (57)摘要 本发明公开了一种通用型、 可复用的流式大 数据统计方法和系统, 属于大数据领域。 本发明 将流式数据统计需求抽象分类成多种运算场景, 包括count、 sum、 max、 min、 avg、 bitcount、 topN、 lastN以及seq运算, 制定了一套用于描 述繁杂的 流式数据统计需求的配置规范, 它内置丰富的转 化类函数、 支持表达式解析, 可 以满足各种复杂 的条件筛选和逻辑判断, 支持多维度计算, 支持 天级、 小时级、 分钟级、 秒级多个时间粒度的统 计, 支持自定义统计周 期的配置。 本发明用于帮 助企业应对繁杂的流式数据统计问题, 可以大大 减少企业在流式数据统计方面的研发成本和数 据维护成本 。 权利要求书2页 说明书7页 附图3页 CN 115510110 A 2022.12.23 CN 115510110 A 1.一种通用型的流式大数据统计的实现方法, 其特征在于, 将流式数据统计需求抽象 分类成多种运算场景, 包括count、 sum、 max、 min、 avg、 bitcount、 topN、 lastN以及seq运算, 并对每一种运 算进行高性能的实现, 从而实现其 通用性, 达 到可以无限制复用的效果。 2.根据权利要求1所述的一种通用型的流式大数据统计的实现方法, 其特征在于, 制定 一套用于描述繁杂的流式数据统计需求的配置规范, 该配置规范支持多维度计算, 支持天 级、 小时级、 分钟级、 秒级多种时间粒度的统计, 支持自定义统计周期的配置, 该规范包括三 个组成部 分: 统计模板、 统计周期和数据有效期, 统计模板是基于XML格式的表达式, 用于描 述流式统计的计算方式; 统计周期为流式数据统计的时间窗口, 可根据需要选择天、 小时、 分钟、 秒几种时间粒度; 数据有效期为统计结果的保存时长 。 3.根据权利要求1所述的一种通用型的流式大数据统计的实现方法, 其特征在于, 该配 置规范可内置丰富的转化类函数及变量、 支持表达式解析, 可以满足各种复杂的条件筛选 和逻辑判断。 4.一种通用型的流式大数据统计的系统, 其特征在于, 该系统包括几个模块: Client模 块, 用于业务方接入的SDK; ICE模块, 系统的RPC服务模块, 用于接收各终端的统计消息数 据; Task模块, 统计的核心计算模块; Web模块, 包括统计任务管理、 查看统计结果、 限流设 置、 权限设置功能。 5.根据权利要求4所述的一种通用型的流式大数据统计的系统, 其特征在于, 使用统计 工程、 统计组、 统计项的三层结构来管理所有的统计需求, 用户可以根据需要创建若干个统 计工程, 每个统计工程可以包括多个统计项, 而基于同一份元数据的多个统计项叫做一个 统计组, 每一个统计组对应一份元 数据。 6.根据权利要求4所述的一种通用型的流式大数据统计的系统, 其特征在于, 采用异步 处理、 批量消费, 对重复性计算进 行聚合处理的方式, 从client端发送消息到最 终的统计结 果入库的每个环节都对重复性消息进 行合并处理, 系统的整个消费链路是一个逐层递减的 结构。 7.根据权利要求4所述的一种通用型的流式大数据统计的系统, 其特征在于, 系统内置 重复数据过滤装置用于实现基数统计, 该过滤装置包含多个分片, 每个分片对应一个 RoaringBitmap数据存储 结构, 扩大分片数可以提高基数统计的精确度, 分片数可根据需要 灵活设置, 数据经过过滤装置首先将原始值通过MurmurHash128b it算法计算其Hash值, 过 滤装置通过判断Hash值是否存在来实现基数统计。 8.根据权利要求4所述的一种通用型的流式大数据统计的系统, 其特征在于, 系统具有 限流保护机制, 限流保护机制包括两个方面: 一是对统计组消息量的 限流, 二是对统计项 结 果量的限流, 通过限流保护机制可以更好的保障系统的稳定性, 限流阈值可通过web端灵活 调整, 限流保护装置具有自动恢复组件, 当数据量下降低于阈值后, 统计服 务可自动恢复。 9.根据权利要求4所述的一种通用型的流式大数据统计的系统, 其特征在于, 系统 的统 计结果数据存储采用delta时间戳压缩, 根据统计项的计算周期将同一小时、 同一 天的数据 压缩后存 储在一块区域。 10.根据权利要求4所述的一种通用型的流式大数据统计的系 统, 其特征在于, client 模块具有超时熔断、 异常熔断的机制, 内置异常计数组件以及自动恢复组件, 业务方在调用 client模块提供的API接口出现异常时, 系统根据 异常量判断是否需要 熔断, 接口熔断则自权 利 要 求 书 1/2 页 2 CN 115510110 A 2动抛弃统计消息, 熔断时长 达到系统阈值后可自动恢复。权 利 要 求 书 2/2 页 3 CN 115510110 A 3
专利 一种通用型、可复用的流式大数据统计的实现方法及系统
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 SC 于
2024-02-18 22:34:05
上传分享
举报
下载
原文档
(741.1 KB)
分享
友情链接
法律法规 无锡市科技创新促进条例2021-12-10.pdf
互联网信息服务算法推荐管理规定.pdf
GB-T 41572-2022 脉冲激光时域主要参数测量方法.pdf
GB-T 10000-2023 中国成年人人体尺寸.pdf
GB-T 31364-2015 能量色散X射线荧光光谱仪主要性能测试方法.pdf
DB22-T 1707-2012 用能单位供配电系统节能监测 吉林省.pdf
青藤 鹊桥SOAR解决方案.pdf
GB-T 28123-2011 工业氦.pdf
中国电信 数字道路白皮书 2022.pdf
GA-T 1574—2019 信息安全技术 数据库安全加固产品安全技术要求.pdf
GM T 0131-2023 电子签章应用接口规范.pdf
T-CESA 1120—2020 人工智能芯片 面向边缘侧的深度学习芯片测试指标与测试方法.pdf
T-ZZB 0602—2018 环保节能舒适型冷风扇.pdf
GBT 24159-2022 焊接绝热气瓶.pdf
ISO 31000-2018 风险管理标准 中文.pdf
GB-T 35397-2017 科技人才元数据元素集.pdf
GB-T 19668.4-2017 信息技术服务监理第4部分信息安全监理规范.pdf
上海市网络安全事件应急预案 2019.pdf
GB/T 40997-2021 经外奇穴名称与定位.pdf
GB-T 9722-2023 化学试剂 气相色谱法通则.pdf
1
/
13
评价文档
赞助2.5元 点击下载(741.1 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。