(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211045987.X (22)申请日 2022.08.30 (71)申请人 广东电网有限责任公司 地址 510062 广东省广州市越秀区东 风东 路757号 (72)发明人 谢瀚阳 彭泽武 朱婧 任昊文  冯歆尧 苏华权 梁盈威 朱泰鹏  潘定  (74)专利代理 机构 广州市华学知识产权代理有 限公司 4 4245 专利代理师 郑秋松 (51)Int.Cl. G06F 16/21(2019.01) G06F 16/22(2019.01) G06F 16/36(2019.01) (54)发明名称 一种基于本体的电网数据仓库自动数据加 载方法 (57)摘要 本发明公开了一种基于本体的电网数据仓 库自动数据加载方法, 该方法包括下述步骤: 配 置与数据准备, 构建电网DV数据仓库的中心点及 其附属表; 进行标杆表和次要表的模式匹配和数 据匹配, 构建近似业务键匹配表并进行业务键值 近似匹配; 查找业务对象对应的表并存入标杆表 和次要表的数据, 查找标杆表中是否有外键字段 指向本表记录以及标杆表中是否有外键指向其 他关系表, 重复数据加载过程, 直至完成多个次 要表的数据加载过程; 确定关联业务对象的关系 并加载数据, 查找链接表, 将暂存区域标杆表和 次要表的关联数据加载至链接表。 本发明从多个 电网源业务系统的数据表中高效地抽取源数据, 并准确加载到电网DV数据仓库, 其容纳不一致数 据的存储 方式, 保证了数据的可跟踪性和可审计 性。 权利要求书4页 说明书14页 附图7页 CN 115309725 A 2022.11.08 CN 115309725 A 1.一种基于 本体的电网数据仓库自动数据加载 方法, 其特 征在于, 包括下述 步骤: 构建本体知识库, 用于支持数据表语义的模式匹配; 基于电网DV数据仓库的中心点、 链接、 附属三类表分别 存储电网业务实体、 关系及其属 性数据, 构成数据加载的目标表; 设定电网业务系统的来源表, 按照同一业务对象的源数据表进行分组, 构成数据加载 的来源表, 所述 来源表包括标 杆表和多个次要表; 将标杆表和次要表的数据按照其原有模式复制至暂存区域; 基于本体知识库进行 标杆表和次要表的主键、 字段名匹配; 以标杆表为基础, 进行业务键值等值匹配, 根据匹配结果构建近似业务键匹配表, 基于 近似业务键匹配表进行不相等 业务键值近似匹配; 在目标表中查找业务对象ST对应的中心点表HubST, 将标杆表的全部业务键值以及次要 表等值匹配失败的业 务键值存至表HubST, 并存入标杆表和次要表的数据; 基于近似业务键匹配表构建对应业务键的近似业务键链接表, 并存入标杆表和次要表 的数据; 在目标表中查找表HubST的附属表Sat ‑Hub‑S和附属表Sat ‑Hub‑T, 将标杆表的数据存入 附属表Sat ‑Hub‑S, 将次要表的数据存 入附属表Sat ‑Hub‑T; 查找标杆表中是否有外键字段指向本表记录, 若有外键字段指向本表记录, 则在目标 表中查找另外一个层次链接表 Link‑Hier, 并存入标杆表和次要表的数据; 若无外键字段指 向本表记录, 则查找判断标杆表中是否有外键指向其他关系表, 若有外键指向其他关系表 则为标杆表的主外键建立对应的链接表并加载数据, 重复查找判断直至全部外键字段查找 完毕; 重复对业务对象的一个标杆表与一个次要表集成的数据加载过程, 直至完成多个次要 表的数据加载 过程; 确定关联业务对象的关系表并加载数据, 查找链接表, 将暂存区域标杆表和次要表的 关联数据加载至链接表。 2.根据权利要求1所述的基于本体的电网数据仓库自动数据加载方法, 其特征在于, 标 杆表及其模式表示为: S(SPK,S1,S2,...,Sn), 其中SPK表示标杆表S的主键, S1,S2,...,Sn表示 标杆表S的n个字段名; 次要表及其模式表示为: T(TPK,T1,T2,...Tm), 其中TPK表示次要表T的主键, T1,T2,...Tm 表示次要表T的m个字段名; 基于本体知识库对标杆表的主键SPK和次要表的主键TPK进行本体推理, 判断主键SPK和 主键TPK是否是同一个业 务对象的业 务键; 基于本体知识库对标杆表和次要表的字段名进行本体的匹配推理, 输出对应的匹配字 段。 3.根据权利要求2所述的基于本体的电网数据仓库自动数据加载方法, 其特征在于, 以 标杆表为基础, 进行业 务键值等值匹配, 根据匹配结果构建近似业 务键匹配表, 具体包括: 以标杆表S为基础, 对r[SPK]和r[TPK]做等值匹配, 结果两个表分别有p,q个业务键值不 相等, 权 利 要 求 书 1/4 页 2 CN 115309725 A 2其中, r[ ]表示现有取值集合, r‑[ ]表示现有取值中不匹配的取值集合, 两个集合的基 数|r‑[SPK]|=p, |r‑[TPK]|=q; 近似业务键匹配表的模式表示 为: BusKey‑Sim(PKS,PKT,VSIM); 若判定p>0且q=0, 则将r‑[SPK]置入PKS, 空值null置入PKT, 1置入VSIM; 若判定p=0且q>0, 则将r‑[TPK]置入PKT, 空值null置入PKS, 1置入VSIM。 4.根据权利要求3所述的基于本体的电网数据仓库自动数据加载方法, 其特征在于, 基 于近似业务键匹配表进行不相等 业务键值近似匹配, 具体包括: 对r‑[SPK]、 r‑[TPK]中的每个业务键值, 对其分别在r‑[SPK,S1,S2,...Sh]与r‑[TPK,T1, T2,...Th]中的匹配字段Sj≡Tj进行两两非业务键字段的数据等值匹配, 对业务键sp∈r‑ [SPK]的i记录与对应业务键tp∈r‑[TPK]的k记录的相似度为sim=z(spi,tpk)/h, 其中z(spi, tpk)=|{sij|sij=tkj,sij∈r‑[Sj],tkj∈r‑[Tj],<spi,sij>∈r‑[SPK,Sj],<tpk,tkj>∈r‑[TPK, Tj],1≤j≤ h,1≤i≤p,1≤k≤q}|; 将r‑[SPK]×r‑[TPK]中的序对分别置入PKS和PKT, 其中, 且r [VSIM]={sim|sim≥α }, 即近似业务键匹配表保存相似度大于匹配相似度阈值α 的、 分别来 自主键SPK和主键TPK的两个近似业 务键。 5.根据权利要求3所述的基于本体的电网数据仓库自动数据加载方法, 其特征在于, 在 目标表中查找业务对象ST对应的中心点表HubST, 将标杆表的全部业务键 值以及次要表等值 匹配失败的业 务键值存至表HubST, 并存入标杆表和次要表的数据, 具体步骤 包括: 在目标表中查找业务对象ST对应的中心点表HubST, 其模式表示为HubST(HASHPK, BusKey,RecSou,LDT), 其中, HASHPK是业务键BusKey的散列值, 作为该表主键, RecSou是记 录来源, LDT是加载日期; 将标杆表S中 的全部主键SPK值加载入HubST表, 将r[SPK]置入BusKey字段, 标杆表来源系 统名置入RecSou字段, 当前时间置入LDT字段, HASHPK由BusK ey字段经HASK函数算出; 将r‑[TPK]中的q个实例值追加 入HubST表, 将r‑[TPK]实例值置入BusKey字段, 同时, 次要 表来源系统名置入RecSou字段, 当前时间置入LDT字段, HASHPK由BusKey字段经HASH函数算 出。 6.根据权利要求3所述的基于本体的电网数据仓库自动数据加载方法, 其特征在于, 基 于近似业务键匹配表构建对应业 务键的近似业 务键链接表, 具体步骤 包括: 构建对应业务键的近似业务键链接表, 近似业务键链接表的模式表示为: Link ‑SimKey (HASHLPK,PKS,PKT,VSIM,RecSou,LDT), 其中, HASHLPK是标杆表主键PKS和次要表表主键PKT 串联后的HASH值, RecSou是记录来源, LDT是加载日期; 利用近似业务键匹配表BusKey ‑Sim(PKS,PKT,VSIM)生成某业务键的近似业务键链接表 Link‑SimKey表, 其中r[PKS]、 r[PKT]的实例值分别 指向业务对象对应的表HubST中不同的业 务键, VSIM的值表示 来自两个近似业 务键的相似度; Link‑SimKey表的RecSou字段, 如果r[PKT]=null,置入标杆表来源系统名, 否则置入次 要表来源系统名。 7.根据权利要求3所述的基于本体的电网数据仓库自动数据加载方法, 其特征在于, 查 找标杆表中是否有外键字段指向本表记录, 若有外键字段指向本表记录, 则在目标表中查 找另外一个层次链接表L ink‑Hier, 并存 入标杆表和次要表的数据, 具体包括:权 利 要 求 书 2/4 页 3 CN 115309725 A 3

.PDF文档 专利 一种基于本体的电网数据仓库自动数据加载方法

文档预览
中文文档 26 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共26页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于本体的电网数据仓库自动数据加载方法 第 1 页 专利 一种基于本体的电网数据仓库自动数据加载方法 第 2 页 专利 一种基于本体的电网数据仓库自动数据加载方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-17 23:38:48上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。