(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211045987.X
(22)申请日 2022.08.30
(71)申请人 广东电网有限责任公司
地址 510062 广东省广州市越秀区东 风东
路757号
(72)发明人 谢瀚阳 彭泽武 朱婧 任昊文
冯歆尧 苏华权 梁盈威 朱泰鹏
潘定
(74)专利代理 机构 广州市华学知识产权代理有
限公司 4 4245
专利代理师 郑秋松
(51)Int.Cl.
G06F 16/21(2019.01)
G06F 16/22(2019.01)
G06F 16/36(2019.01)
(54)发明名称
一种基于本体的电网数据仓库自动数据加
载方法
(57)摘要
本发明公开了一种基于本体的电网数据仓
库自动数据加载方法, 该方法包括下述步骤: 配
置与数据准备, 构建电网DV数据仓库的中心点及
其附属表; 进行标杆表和次要表的模式匹配和数
据匹配, 构建近似业务键匹配表并进行业务键值
近似匹配; 查找业务对象对应的表并存入标杆表
和次要表的数据, 查找标杆表中是否有外键字段
指向本表记录以及标杆表中是否有外键指向其
他关系表, 重复数据加载过程, 直至完成多个次
要表的数据加载过程; 确定关联业务对象的关系
并加载数据, 查找链接表, 将暂存区域标杆表和
次要表的关联数据加载至链接表。 本发明从多个
电网源业务系统的数据表中高效地抽取源数据,
并准确加载到电网DV数据仓库, 其容纳不一致数
据的存储 方式, 保证了数据的可跟踪性和可审计
性。
权利要求书4页 说明书14页 附图7页
CN 115309725 A
2022.11.08
CN 115309725 A
1.一种基于 本体的电网数据仓库自动数据加载 方法, 其特 征在于, 包括下述 步骤:
构建本体知识库, 用于支持数据表语义的模式匹配;
基于电网DV数据仓库的中心点、 链接、 附属三类表分别 存储电网业务实体、 关系及其属
性数据, 构成数据加载的目标表;
设定电网业务系统的来源表, 按照同一业务对象的源数据表进行分组, 构成数据加载
的来源表, 所述 来源表包括标 杆表和多个次要表;
将标杆表和次要表的数据按照其原有模式复制至暂存区域;
基于本体知识库进行 标杆表和次要表的主键、 字段名匹配;
以标杆表为基础, 进行业务键值等值匹配, 根据匹配结果构建近似业务键匹配表, 基于
近似业务键匹配表进行不相等 业务键值近似匹配;
在目标表中查找业务对象ST对应的中心点表HubST, 将标杆表的全部业务键值以及次要
表等值匹配失败的业 务键值存至表HubST, 并存入标杆表和次要表的数据;
基于近似业务键匹配表构建对应业务键的近似业务键链接表, 并存入标杆表和次要表
的数据;
在目标表中查找表HubST的附属表Sat ‑Hub‑S和附属表Sat ‑Hub‑T, 将标杆表的数据存入
附属表Sat ‑Hub‑S, 将次要表的数据存 入附属表Sat ‑Hub‑T;
查找标杆表中是否有外键字段指向本表记录, 若有外键字段指向本表记录, 则在目标
表中查找另外一个层次链接表 Link‑Hier, 并存入标杆表和次要表的数据; 若无外键字段指
向本表记录, 则查找判断标杆表中是否有外键指向其他关系表, 若有外键指向其他关系表
则为标杆表的主外键建立对应的链接表并加载数据, 重复查找判断直至全部外键字段查找
完毕;
重复对业务对象的一个标杆表与一个次要表集成的数据加载过程, 直至完成多个次要
表的数据加载 过程;
确定关联业务对象的关系表并加载数据, 查找链接表, 将暂存区域标杆表和次要表的
关联数据加载至链接表。
2.根据权利要求1所述的基于本体的电网数据仓库自动数据加载方法, 其特征在于, 标
杆表及其模式表示为: S(SPK,S1,S2,...,Sn), 其中SPK表示标杆表S的主键, S1,S2,...,Sn表示
标杆表S的n个字段名;
次要表及其模式表示为: T(TPK,T1,T2,...Tm), 其中TPK表示次要表T的主键, T1,T2,...Tm
表示次要表T的m个字段名;
基于本体知识库对标杆表的主键SPK和次要表的主键TPK进行本体推理, 判断主键SPK和
主键TPK是否是同一个业 务对象的业 务键;
基于本体知识库对标杆表和次要表的字段名进行本体的匹配推理, 输出对应的匹配字
段。
3.根据权利要求2所述的基于本体的电网数据仓库自动数据加载方法, 其特征在于, 以
标杆表为基础, 进行业 务键值等值匹配, 根据匹配结果构建近似业 务键匹配表, 具体包括:
以标杆表S为基础, 对r[SPK]和r[TPK]做等值匹配, 结果两个表分别有p,q个业务键值不
相等,
权 利 要 求 书 1/4 页
2
CN 115309725 A
2其中, r[ ]表示现有取值集合, r‑[ ]表示现有取值中不匹配的取值集合, 两个集合的基
数|r‑[SPK]|=p, |r‑[TPK]|=q;
近似业务键匹配表的模式表示 为: BusKey‑Sim(PKS,PKT,VSIM);
若判定p>0且q=0, 则将r‑[SPK]置入PKS, 空值null置入PKT, 1置入VSIM;
若判定p=0且q>0, 则将r‑[TPK]置入PKT, 空值null置入PKS, 1置入VSIM。
4.根据权利要求3所述的基于本体的电网数据仓库自动数据加载方法, 其特征在于, 基
于近似业务键匹配表进行不相等 业务键值近似匹配, 具体包括:
对r‑[SPK]、 r‑[TPK]中的每个业务键值, 对其分别在r‑[SPK,S1,S2,...Sh]与r‑[TPK,T1,
T2,...Th]中的匹配字段Sj≡Tj进行两两非业务键字段的数据等值匹配, 对业务键sp∈r‑
[SPK]的i记录与对应业务键tp∈r‑[TPK]的k记录的相似度为sim=z(spi,tpk)/h, 其中z(spi,
tpk)=|{sij|sij=tkj,sij∈r‑[Sj],tkj∈r‑[Tj],<spi,sij>∈r‑[SPK,Sj],<tpk,tkj>∈r‑[TPK,
Tj],1≤j≤ h,1≤i≤p,1≤k≤q}|;
将r‑[SPK]×r‑[TPK]中的序对分别置入PKS和PKT, 其中,
且r
[VSIM]={sim|sim≥α }, 即近似业务键匹配表保存相似度大于匹配相似度阈值α 的、 分别来
自主键SPK和主键TPK的两个近似业 务键。
5.根据权利要求3所述的基于本体的电网数据仓库自动数据加载方法, 其特征在于, 在
目标表中查找业务对象ST对应的中心点表HubST, 将标杆表的全部业务键 值以及次要表等值
匹配失败的业 务键值存至表HubST, 并存入标杆表和次要表的数据, 具体步骤 包括:
在目标表中查找业务对象ST对应的中心点表HubST, 其模式表示为HubST(HASHPK,
BusKey,RecSou,LDT), 其中, HASHPK是业务键BusKey的散列值, 作为该表主键, RecSou是记
录来源, LDT是加载日期;
将标杆表S中 的全部主键SPK值加载入HubST表, 将r[SPK]置入BusKey字段, 标杆表来源系
统名置入RecSou字段, 当前时间置入LDT字段, HASHPK由BusK ey字段经HASK函数算出;
将r‑[TPK]中的q个实例值追加 入HubST表, 将r‑[TPK]实例值置入BusKey字段, 同时, 次要
表来源系统名置入RecSou字段, 当前时间置入LDT字段, HASHPK由BusKey字段经HASH函数算
出。
6.根据权利要求3所述的基于本体的电网数据仓库自动数据加载方法, 其特征在于, 基
于近似业务键匹配表构建对应业 务键的近似业 务键链接表, 具体步骤 包括:
构建对应业务键的近似业务键链接表, 近似业务键链接表的模式表示为: Link ‑SimKey
(HASHLPK,PKS,PKT,VSIM,RecSou,LDT), 其中, HASHLPK是标杆表主键PKS和次要表表主键PKT
串联后的HASH值, RecSou是记录来源, LDT是加载日期;
利用近似业务键匹配表BusKey ‑Sim(PKS,PKT,VSIM)生成某业务键的近似业务键链接表
Link‑SimKey表, 其中r[PKS]、 r[PKT]的实例值分别 指向业务对象对应的表HubST中不同的业
务键, VSIM的值表示 来自两个近似业 务键的相似度;
Link‑SimKey表的RecSou字段, 如果r[PKT]=null,置入标杆表来源系统名, 否则置入次
要表来源系统名。
7.根据权利要求3所述的基于本体的电网数据仓库自动数据加载方法, 其特征在于, 查
找标杆表中是否有外键字段指向本表记录, 若有外键字段指向本表记录, 则在目标表中查
找另外一个层次链接表L ink‑Hier, 并存 入标杆表和次要表的数据, 具体包括:权 利 要 求 书 2/4 页
3
CN 115309725 A
3
专利 一种基于本体的电网数据仓库自动数据加载方法
文档预览
中文文档
26 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共26页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-17 23:38:48上传分享