说明:收录25万 73个行业的国家标准 支持批量下载
文库搜索
切换导航
文件分类
频道
联系我们
问题反馈
文件分类
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211263338.7 (22)申请日 2022.10.17 (71)申请人 丰宗军 地址 101149 北京市通州区杨庄街道长城 国际66号楼A2单元505 (72)发明人 不公告发明人 (51)Int.Cl. G06F 16/2455(2019.01) G06F 16/2458(2019.01) (54)发明名称 一种通用型、 可复用的流式大数据统计的实 现方法及系统 (57)摘要 本发明公开了一种通用型、 可复用的流式大 数据统计方法和系统, 属于大数据领域。 本发明 将流式数据统计需求抽象分类成多种运算场景, 包括count、 sum、 max、 min、 avg、 bitcount、 topN、 lastN以及seq运算, 制定了一套用于描 述繁杂的 流式数据统计需求的配置规范, 它内置丰富的转 化类函数、 支持表达式解析, 可 以满足各种复杂 的条件筛选和逻辑判断, 支持多维度计算, 支持 天级、 小时级、 分钟级、 秒级多个时间粒度的统 计, 支持自定义统计周 期的配置。 本发明用于帮 助企业应对繁杂的流式数据统计问题, 可以大大 减少企业在流式数据统计方面的研发成本和数 据维护成本 。 权利要求书2页 说明书7页 附图3页 CN 115510110 A 2022.12.23 CN 115510110 A 1.一种通用型的流式大数据统计的实现方法, 其特征在于, 将流式数据统计需求抽象 分类成多种运算场景, 包括count、 sum、 max、 min、 avg、 bitcount、 topN、 lastN以及seq运算, 并对每一种运 算进行高性能的实现, 从而实现其 通用性, 达 到可以无限制复用的效果。 2.根据权利要求1所述的一种通用型的流式大数据统计的实现方法, 其特征在于, 制定 一套用于描述繁杂的流式数据统计需求的配置规范, 该配置规范支持多维度计算, 支持天 级、 小时级、 分钟级、 秒级多种时间粒度的统计, 支持自定义统计周期的配置, 该规范包括三 个组成部 分: 统计模板、 统计周期和数据有效期, 统计模板是基于XML格式的表达式, 用于描 述流式统计的计算方式; 统计周期为流式数据统计的时间窗口, 可根据需要选择天、 小时、 分钟、 秒几种时间粒度; 数据有效期为统计结果的保存时长 。 3.根据权利要求1所述的一种通用型的流式大数据统计的实现方法, 其特征在于, 该配 置规范可内置丰富的转化类函数及变量、 支持表达式解析, 可以满足各种复杂的条件筛选 和逻辑判断。 4.一种通用型的流式大数据统计的系统, 其特征在于, 该系统包括几个模块: Client模 块, 用于业务方接入的SDK; ICE模块, 系统的RPC服务模块, 用于接收各终端的统计消息数 据; Task模块, 统计的核心计算模块; Web模块, 包括统计任务管理、 查看统计结果、 限流设 置、 权限设置功能。 5.根据权利要求4所述的一种通用型的流式大数据统计的系统, 其特征在于, 使用统计 工程、 统计组、 统计项的三层结构来管理所有的统计需求, 用户可以根据需要创建若干个统 计工程, 每个统计工程可以包括多个统计项, 而基于同一份元数据的多个统计项叫做一个 统计组, 每一个统计组对应一份元 数据。 6.根据权利要求4所述的一种通用型的流式大数据统计的系统, 其特征在于, 采用异步 处理、 批量消费, 对重复性计算进 行聚合处理的方式, 从client端发送消息到最 终的统计结 果入库的每个环节都对重复性消息进 行合并处理, 系统的整个消费链路是一个逐层递减的 结构。 7.根据权利要求4所述的一种通用型的流式大数据统计的系统, 其特征在于, 系统内置 重复数据过滤装置用于实现基数统计, 该过滤装置包含多个分片, 每个分片对应一个 RoaringBitmap数据存储 结构, 扩大分片数可以提高基数统计的精确度, 分片数可根据需要 灵活设置, 数据经过过滤装置首先将原始值通过MurmurHash128b it算法计算其Hash值, 过 滤装置通过判断Hash值是否存在来实现基数统计。 8.根据权利要求4所述的一种通用型的流式大数据统计的系统, 其特征在于, 系统具有 限流保护机制, 限流保护机制包括两个方面: 一是对统计组消息量的 限流, 二是对统计项 结 果量的限流, 通过限流保护机制可以更好的保障系统的稳定性, 限流阈值可通过web端灵活 调整, 限流保护装置具有自动恢复组件, 当数据量下降低于阈值后, 统计服 务可自动恢复。 9.根据权利要求4所述的一种通用型的流式大数据统计的系统, 其特征在于, 系统 的统 计结果数据存储采用delta时间戳压缩, 根据统计项的计算周期将同一小时、 同一 天的数据 压缩后存 储在一块区域。 10.根据权利要求4所述的一种通用型的流式大数据统计的系 统, 其特征在于, client 模块具有超时熔断、 异常熔断的机制, 内置异常计数组件以及自动恢复组件, 业务方在调用 client模块提供的API接口出现异常时, 系统根据 异常量判断是否需要 熔断, 接口熔断则自权 利 要 求 书 1/2 页 2 CN 115510110 A 2动抛弃统计消息, 熔断时长 达到系统阈值后可自动恢复。权 利 要 求 书 2/2 页 3 CN 115510110 A 3
专利 一种通用型、可复用的流式大数据统计的实现方法及系统
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 SC 于
2024-02-18 22:34:05
上传分享
举报
下载
原文档
(741.1 KB)
分享
友情链接
GB-T 5585.2-2018 电工用铜、铝及其合金母线 第2部分:铝和铝合金母线.pdf
湖南省地理空间数据管理办法.pdf
YD-T 3902-2021 数据中心无损网络典型场景技术要求和测试方法.pdf
T-GHDQ 106—2022 车辆远程升级信息安全测试规范.pdf
T-CAMDI 095—2022 基于增材制造的皮肤修复产品的通用要求.pdf
GB-T 34079.2-2021 基于云计算的电子政务公共平台服务规范 第2部分:应用部署和数据迁移.pdf
GB-T 23007-2022 信息化和工业化融合管理体系 评定分级指南.pdf
GB-T 14055.1-2008 中子参考辐射 第1部分:辐射特性和产生方法.pdf
ISO 5393 2017 Rotary tools for threaded fasteners — Performance test method.pdf
GB-T 43244-2023 机关事务信息化建设指南.pdf
GA-T 1788.4-2021 公安视频图像信息系统安全技术要求 第4部分:安全管理平台.pdf
GB-T 17644-2008 纺织纤维白度色度试验方法.pdf
DB41-T 1067-2015 城市客运监管与服务信息系统 总则 河南省.pdf
GB-T 31496-2023 信息技术 安全技术 信息安全管理体系 指南.pdf
GA 1551.5-2019 石油石化系统治安反恐防范要求 第5部分:运输企业.pdf
ISO 11551 2019 Optics and photonics — Lasers and laser-related equipment — Test method for absorptance of optical laser components.pdf
T-GDC 19—2019 埋地用双高筋增强聚乙烯 HDPE 缠绕管.pdf
GB-T 33319-2016 塑料 聚乙烯 PE 透气膜专用料.pdf
GB-T 32918.4-2016 信息安全技术 SM2椭圆曲线公钥密码算法 第4部分:公钥加密算法.pdf
GB-T 15748-2013 船用金属材料电偶腐蚀试验方法.pdf
交流群
-->
1
/
13
评价文档
赞助2元 点击下载(741.1 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。