(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210518128.1 (22)申请日 2022.05.12 (71)申请人 建信金融科技有限责任公司 地址 200120 上海市浦东 新区中国(上海) 自由贸易试验区银城路99号12层、 15 层 (72)发明人 谢泽添 叶润宇  (74)专利代理 机构 北京品源专利代理有限公司 11332 专利代理师 蔡舒野 (51)Int.Cl. G06F 16/215(2019.01) G06F 16/2455(2019.01) G06F 16/28(2019.01) (54)发明名称 数据质量规则的生成方法、 装置、 设备、 介质 和程序产品 (57)摘要 本发明涉及数据处理技术领域, 公开了一种 数据质量规则的生成方法、 装置、 设备、 介质和程 序产品。 方法包括: 构建数据质量元模型; 所述数 据质量元模 型用于存储数据质量规则; 获取数据 质量检核分类, 所述数据质量检核分类用于实现 对数据的检核; 根据所述数据质量检核分类, 构 建数据的特征属性及其规则模板; 将数据放入所 述规则模板, 生成匹配所述特征属性的数据质量 规则。 与现有技术相比, 本发明实施例能够高效 地形成数据质量 规则。 权利要求书3页 说明书11页 附图5页 CN 114896234 A 2022.08.12 CN 114896234 A 1.一种数据质量 规则的生成方法, 其特 征在于, 包括: 构建数据质量元模型; 所述数据质量元模型用于存 储数据质量 规则; 获取数据质量检核分类, 所述数据质量检核分类用于实现对数据的检核; 根据所述数据质量检核分类, 构建数据的特 征属性及其 规则模板; 将数据放入所述 规则模板, 生成匹配所述特 征属性的数据质量 规则。 2.根据权利要求1所述的方法, 其特征在于, 在生成匹配所述特征属性的数据质量规则 之后, 还包括: 实时监控数据的变动情况, 根据数据的变动更新所述数据质量 规则。 3.根据权利要求2所述的方法, 其特征在于, 所述更新所述数据质量规则包括: 变更已 有的数据质量 规则或增 加新的数据质量 规则。 4.根据权利要求1所述的方法, 其特征在于, 所述数据的类型包括: 文本类、 数值类、 金 额类、 百分比类、 日期类、 时间类、 日期时间类、 指示器类、 编码 类、 代码类和非结构化类中的 至少一种。 5.根据权利要求4所述的方法, 其特征在于, 在所述构建数据的特征属性之时, 还包括: 每类数据包括至少两个所述特 征属性。 6.根据权利要求4所述的方法, 其特征在于, 在根据所述数据质量检核分类, 构建数据 的特征属性及其 规则模板之前, 还 包括: 根据所述数据的类型识别适用的所述数据质量检核分类; 在后续步骤中根据适用的所 述数据质量检核分类, 构建数据的特 征属性及其 规则模板 。 7.根据权利要求1所述的方法, 其特征在于, 在将数据放入所述规则模板, 生成匹配所 述特征属性的数据质量 规则之前, 还 包括: 根据数据的特 征约束, 构建数据的特 征属性及其 规则模板 。 8.根据权利要求1所述的方法, 其特征在于, 适用于初始化数据检测场景、 增量检测场 景、 样本数据检测场景和实时在线检测场景中的至少一种。 9.根据权利要求8所述的方法, 其特征在于, 在第 一种场景中生成的所述数据质量规则 之后, 还包括: 在第二种场景中生成所述数据质量规则, 且 复用在所述第 一种场景中构建的所述数据 的特征属性及其 规则模板 。 10.根据权利要求1所述的方法, 其特征在于, 所述数据质量元模型包括: 数据质量规则 表; 所述数据质量规则表包括: 质量规则主键、 数据类型编号、 数据实例编号、 数据质量规则 分类、 适应级别、 规则描述、 名称、 规则编号、 算子编号、 是否主规则、 检测规则元数据、 检测 规则配置、 是否告警和规则状态中的至少一种。 11.根据权利要求1所述的方法, 其特征在于, 所述数据质量检核分类包括: 至少两个检 核指标, 所述检核指标包括一级分类, 所述一级分类包括二级分类; 根据所述数据质量检核 的二级分类构建数据的特 征属性及其 规则模板 。 12.根据权利要求11所述的方法, 其特征在于, 所述检核指标包括: 唯一性、 规范性、 时 效性、 一致性、 准确性和完整性中的至少一种; 所述唯一性的一级分类包括: 主键检查和唯一索引检查中的至少一种; 其中, 所述主键 检查的二级分类包括: 单主键检查和多主键检查中的至少一种; 所述唯一索引检查的二级权 利 要 求 书 1/3 页 2 CN 114896234 A 2分类包括: 单索引检查和组合索引检查中的至少一种; 所述规范性的一级分类包括: 数据格式检查、 要素规范检查、 库表规范检查、 命名规范 检查和数值格式检查中的至少一种; 所述数据格式检查的二级分类包括: 类型检查、 长度检 查和精度检查中的至少一种; 所述要 素规范检查的二级分类至少包括: 库表要 素检查; 所述 库表规范检查的二级分类至少包括: 物理库表检查; 所述命名规范检查的二级分类至少包 括: 字段命名规范检查; 所述数值格式检查的二级分类包括: 特殊字 符检查、 编码合规检查、 数值精度检查、 数值长度检查和日期格式检查中的至少一种; 所述时效性的一级分类至少包括: 时效性检查; 所述 时效性检查的二级分类包括: 更新 时间检查、 更新频率检查和有效日期检查中的至少一种; 所述一致性检查的一级分类包括: 一致检查、 平衡检查和总分检查中的至少一种; 所述 一致检查的二级分类包括: 系统内一致检查和 跨系统一致检查中的至少一种; 所述平衡检 查的二级分类包括: 记录数平衡检查和派生检查中的至少一种; 所述总分检查的二级分类 至少包括: 总分检查; 所述准确性的一级分类包括: 关联检查、 波动检查和值域检查中的至少一种; 所述关联 检查的二级分类包括: 外键约束检查、 关联取值约束和枚举取值范围中的至少一种; 所述波 动检查的二级分类至少包括: 波动检查; 所述值域检查的二级分类包括: 字符值域检查、 数 字值域检查和日期值 域检查中的至少一种; 所述完整性的一级分类包括: 有值检查、 非空检查和数据存储检查中的至少一种; 所述 有值检查的二级分类至少包括: 存在非空值检查; 所述 非空检查的二级分类包括: 单字段非 空检查和组合非空检查中的至少一种; 所述数据存储检查的二级分类至少包括: 数据存储 周期检查。 13.一种数据质量 规则的生成装置, 其特 征在于, 包括: 元模型构建模块, 用于构建数据质量元模型; 所述数据质量元模型用于存储数据质量 规则; 检核分类获取模块, 用于获取数据质量检核分类, 所述数据质量检核分类用于实现对 数据的检核; 特征属性构建模块, 用于根据所述数据质量检核分类, 构建数据的特征属性及其规则 模板; 规则生成模块, 用于将数据放入所述规则模板, 生成匹配所述特征属性的数据质量规 则。 14.一种电子设备, 其特 征在于, 所述电子设备包括: 至少一个处 理器; 以及 与所述至少一个处 理器通信连接的存 储器; 其中, 所述存储器存储有可被所述至少一个处理器执行的计算机程序, 所述计算机程序被所 述至少一个处理器执行, 以使 所述至少一个处理器能够执行权利要求 1‑12中任一项 所述的 数据质量 规则的生成方法。 15.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质存储有计算机指 令, 所述计算机指 令用于使处理器执行时实现权利要求 1‑12中任一项 所述的数据质量规则 的生成方法。权 利 要 求 书 2/3 页 3 CN 114896234 A 3

.PDF文档 专利 数据质量规则的生成方法、装置、设备、介质和程序产品

文档预览
中文文档 20 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 数据质量规则的生成方法、装置、设备、介质和程序产品 第 1 页 专利 数据质量规则的生成方法、装置、设备、介质和程序产品 第 2 页 专利 数据质量规则的生成方法、装置、设备、介质和程序产品 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 00:15:29上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。