(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211126909.2
(22)申请日 2022.09.16
(71)申请人 中国建设银行股份有限公司
地址 100033 北京市西城区金融大街25号
申请人 建信金融科技有限责任公司
(72)发明人 黄德荣 朱祖恩 吴楠 张彪
(74)专利代理 机构 中原信达知识产权代理有限
责任公司 1 1219
专利代理师 孙磊 韩黎捷
(51)Int.Cl.
G06F 9/48(2006.01)
G06F 16/25(2019.01)
(54)发明名称
一种导入数据的方法、 装置和系统
(57)摘要
本发明公开了一种导入 数据的方法、 装置和
系统, 涉及大数据数据访问技术领域。 该方法的
一具体实施方式包括: 能够为多个待导入文件构
建对应的导入任务; 利用预设的多个服务进程并
发获取并执行导入任务, 将待导入文件中的待导
入数据导入到运行中的目标图数据库; 将检测到
的所述导入异常数据重新导入所述目标图数据
库。 通过对运行中的目标图数据库, 并发执行导
入任务、 异常数据监测、 重新导入等技术手段, 提
高了导入数据的灵活性和可靠性、 提高了导入数
据的效率, 降低了导入数据的复杂度。
权利要求书3页 说明书12页 附图4页
CN 115543561 A
2022.12.30
CN 115543561 A
1.一种导入数据的方法, 其特 征在于, 包括:
确定对应于待导入数据的多个待导入文件; 其中, 所述待导入文件为目标图数据库关
联的节点文件、 或者节点之间的关系文件;
为每一个所述待导入文件构建对应的导入 任务;
利用预设的多个服务进程并发获取并执行导入任务, 以将所述导入任务对应的待导入
文件中的待导入数据导入到运行中的所述目标图数据库; 并检测所执行的导入任务的导入
异常数据, 将检测到的所述 导入异常数据重新 导入所述目标图数据库。
2.根据权利要求1所述的方法, 其特 征在于,
所述确定对应于待导入数据的多个待导入文件, 包括:
从数据源中获取包含有所述待导入数据的一个或多个数据文件, 所述数据文件为节点
文件、 或节点之间的关系文件之中的任意 一种;
针对每一个所述数据文件, 执 行:
判断所述数据文件是否满足预设的切分条件, 如果是, 则将所述数据文件切分成多个
设定大小的待导入文件; 否则, 直接将所述数据文件作为待导入文件。
3.根据权利要求2所述的方法, 其特 征在于,
所述将所述数据文件切分成多个设定大小的待导入文件, 包括:
从预设的配置文件中读取 数据文件的切分策略;
基于所述切分策略, 将所述数据文件切分成多个待导入文件。
4.根据权利要求1所述的方法, 其特 征在于,
所述利用预设的多个服 务进程并发 获取导入 任务, 包括:
多个空闲的服务进程分别查找未执行的导入任务, 在查找到的情况下, 所述空闲的服
务进程拉取对应于未 执行的导入 任务的待导入文件。
5.根据权利要求 4所述的方法, 其特 征在于,
在所述空 闲的服务进程拉取对应于未 执行的导入 任务的待导入文件之后, 还 包括:
从所述预设的配置文件中获取 所述待导入文件的一个或多个属性字段;
所述执行导入任务, 包括:
将一个或多个所述属性字段、 所述待导入文件的文件标识写入预设的包括有导入指令
的导入模块, 以使所述导入模块基于一个或多个所述属 性字段、 所述待导入文件的文件标
识, 将所述属性字段以及所述待导入文件中的对应于所述属性字段的属性值导入到所述目
标图数据库。
6.根据权利要求5所述的方法, 其特 征在于, 还 包括:
从所述预设的配置文件中, 获取执行所述未执行的导入任务对应的导入周期配置信
息;
所述导入模块基于所述导入周期配置信 息, 执行将所述属性字段以及所述待导入文件
中的对应于所述属性字段的属性 值导入到所述目标图数据库的步骤。
7.根据权利要求1所述的方法, 其特 征在于,
在所述检测所 执行的导入 任务的导入异常数据之后, 还 包括:
在检测到所述导入异常数据的数量超过设定容错阈值的情况下, 执行所述将检测到的
所述导入异常数据重新 导入所述目标图数据库的步骤;权 利 要 求 书 1/3 页
2
CN 115543561 A
2在检测到所述导入异常数据的数量未超过设定容错阈值的情况下, 所述服务进程反馈
指示已导入完成的消息 。
8.根据权利要求7 所述的方法, 其特 征在于, 还 包括:
在检测到所述 导入异常数据的情况 下时, 记录发生 导入异常的每一条导入异常数据;
所述将检测到的所述 导入异常数据重新 导入所述目标图数据库, 包括:
针对每一条 所述导入异常数据, 执 行:
将所述导入异常数据对应的一个或多个所述属性字段写入预设的包括有拼接指令的
拼接模块, 以使所述拼接模块基于一个或多个所述属 性字段, 将所述属 性字段以及所述导
入异常数据中的对应于所述属性字段的属性 值重新导入到所述目标图数据库。
9.根据权利要求7 所述的方法, 其特 征在于,
所述在检测到所述 导入异常数据的数量超过设定容 错阈值的情况 下, 进一步包括:
发送对应于异常数据的预警信息, 以使数据处 理方处理所述异常数据。
10.根据权利要求1所述的方法, 其特 征在于,
所述将所述导入任务对应的待导入文件中的待导入数据导入到运行中的目标图数据
库, 包括:
将一个或多个节点文件、 以及多个节点之间的关系文件, 导入到运行中的目标图数据
库, 以使所述 目标图数据库基于一个或多个所述节点文件、 以及多个节点之间的所述关系
文件, 构建所述待导入文件中的属性 值之间的图谱关系。
11.一种导入数据的装置, 其特征在于, 包括: 获取文件模块、 服务模块和导入模块; 其
中,
所述获取文件模块, 用于确定对应于待导入数据的多个待导入文件; 其中, 所述待导入
文件为目标图数据库关联的节点文件、 或者节点之间的关系文件;
所述服务模块, 用于为每一个所述待导入文件构建对应的导入 任务;
所述导入模块, 包括有预设的多个服务进程, 利用所述多个服务进程并发获取并执行
导入任务, 以将所述导入任务对应的待导入文件中的待导入数据导入到运行中的目标图数
据库, 并检测所执行 的导入任务的导入异常数据, 将检测到的所述导入异常数据重新导入
所述目标图数据库。
12.根据权利要求1 1所述的装置, 其特 征在于,
所述获取文件 模块确定对应于待导入数据的多个待导入文件, 包括:
从数据源中获取包含有所述待导入数据的一个或多个数据文件, 所述数据文件为节点
文件、 或节点之间的关系文件之中的任意 一种;
针对每一个所述数据文件, 执 行:
判断所述数据文件是否满足预设的切分条件, 如果是, 则将所述数据文件切分成多个
设定大小的待导入文件; 否则, 直接将所述数据文件作为待导入文件。
13.根据权利要求1 1所述的装置, 其特 征在于,
所述导入模块利用预设的多个服 务进程并发 获取导入 任务, 包括:
多个空闲的服务进程分别查找未执行的导入任务, 在查找到的情况下, 所述空闲的服
务进程拉取对应于未 执行的导入 任务的待导入文件。
14.根据权利要求13所述的装置, 其特 征在于,权 利 要 求 书 2/3 页
3
CN 115543561 A
3
专利 一种导入数据的方法、装置和系统
文档预览
中文文档
20 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:00:14上传分享