(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202210941824.3
(22)申请日 2022.08.08
(65)同一申请的已公布的文献号
申请公布号 CN 114996769 A
(43)申请公布日 2022.09.02
(73)专利权人 西安晟昕科技发展 有限公司
地址 710000 陕西省西安市高新区电子 工
业园电子西街3号 生产力大厦B座五层
(72)发明人 郭琦 张立 张毛毛
(74)专利代理 机构 常州易瑞智新专利代理事务
所(普通合伙) 32338
专利代理师 潘悦
(51)Int.Cl.
G06F 21/62(2013.01)
G06F 21/60(2013.01)
G06F 11/14(2006.01)
G06F 3/06(2006.01)(56)对比文件
CN 112783445 A,2021.0 5.11
CN 106529499 A,2017.0 3.22
CN 109597890 A,2019.04.09
CN 112559642 A,2021.0 3.26
CN 110647423 A,2020.01.0 3
US 2008168135 A1,2008.07.10
耿辉等.数据中心日志集中管理平台研究.
《中国金融电脑》 .2019,第2019卷(第1 1期),全
文.
杨腾飞等.对象云存 储中分类分级数据的访
问控制方法. 《软件学报》 .2017,第28卷(第09
期),全文.
Raghuram Bhukya等.Fuz zy associative
classificati on algorithm based o n
MapReduce framew ork. 《2015 I nternati onal
Conference o n Applied and Theoretical
Computing and Com munication Technology
(iCATccT)》 .2016,全 文.
审查员 张亚芳
(54)发明名称
一种数据预处 理和存储的方法
(57)摘要
本发明提供了一种数据预处理和存储的方
法, 涉及数据存储技术领域, 该方法包括: 构建数
据存储平台; 获取待存储 数据; 在应用软件层内,
采集获取待存储数据的第一类特征信息和第二
类特征信息; 根据第一类特征信息获得分类结
果; 根据第二类特征信息获得分析结果; 根据分
析结果, 对待存储数据进行预处理, 获得预处理
结果; 将待存储数据、 分类结果和预处理结果通
过传输层传输至基础软件层, 进行存储分配, 获
得分配结果; 根据分配结果, 将待存储数据和预
处理结果存储至硬件层内。 本发 明解决了现有技
术中采用磁盘阵列对数据进行存储时数据存储
安全性和容错性较低的技术问题, 达到了提升数
据存储稳定性、 安全性的技 术效果。
权利要求书3页 说明书10页 附图3页
CN 114996769 B
2022.10.25
CN 114996769 B
1.一种数据预处 理和存储的方法, 其特 征在于, 所述方法包括:
构建数据存储平台, 其中, 所述数据存储平台内包括应用软件层、 传输层、 基础软件层
和硬件层, 其中, 所述硬件层内包括多个存 储单元;
获取待存 储数据, 所述待存 储数据为需要在所述数据存 储平台内进行存 储的数据;
在所述应用软件层内, 采集获取所述待存储数据的第一类特征信息和第二类特征信
息;
将所述第一类特 征信息输入所述应用软件层内的数据分类模型中, 获得分类结果;
将所述第二类特征信 息输入所述应用软件层内的数据重要性分析模型中, 获得分析结
果;
根据所述分析结果, 对所述待存储数据进行加密预处理或者加密和构建数据镜像的预
处理, 获得预处理结果;
将所述待存储数据、 分类结果和预处理结果通过所述传输层传输至所述基础软件层,
进行存储分配, 获得分配结果;
根据所述分配结果, 将所述待存储数据和所述预处理结果存储至所述硬件层内的至少
两个存储单元内;
构建所述数据分类模型;
构建所述数据重要性分析模型;
其中, 所述构建所述数据分类模型, 包括:
获得预设时间周期;
采集获取 此前预设时间周期内的存 储数据, 获得历史存 储数据集 合;
采集获取所述历史存储数据集合内存储数据的第 一类特征信 息, 获得历史第 一类特征
信息集合, 其中, 所述第一类特 征信息包括数据类型信息、 数据归属信息和数据时间信息;
采用所述第一类特 征信息集 合, 构建所述数据分类模型;
根据所述预设时间周期, 对所述数据分类模型进行 更新;
所述采用所述第一类特 征信息集 合, 构建所述数据分类模型, 包括:
根据数据类型、 数据归属 和数据时间, 构建三维坐标空间;
将所述历史第一类特征信息集合内的第一类特征信息, 输入所述三维坐标空间内, 获
得多个坐标点;
对所述多个坐标点进行聚类, 获得多个聚类结果;
根据所述多个聚类结果和所述 三维坐标空间, 获得 所述数据分类模型;
所述构建所述数据重要性分析模型, 包括:
采集获取所述历史存储数据集合内存储数据的第 二类特征信 息, 获得历史第 二类特征
信息集合, 其中, 所述第二类特 征信息包括数据重要性信息;
有放回地在所述历史第二类特征信息集合内随机选择M个第二类特征信息, 作为第一
构建数据集 合, 构建第一重要性分析子模型;
再次有放回地在所述历史第二类特征信息集合内随机选择M个第二类特征信息, 作为
第二构建数据集 合, 构建第二重要性分析子模型;
继续构建多个重要性分析子模型;
合并全部的重要性分析子模型, 获得 所述数据重要性分析模型。权 利 要 求 书 1/3 页
2
CN 114996769 B
22.根据权利要求1所述的方法, 其特 征在于, 所述构建数据存 储平台, 包括:
根据所述数据分类模型和所述数据重要性分析模型, 构建获得 所述应用软件层;
构建所述传输层;
构建所述基础软件层;
基于所述多个存 储单元, 构建获得 所述硬件层;
连接所述应用软件层、 传输层、 基础软件层和硬件层, 获得 所述数据存 储平台。
3.根据权利要求1所述的方法, 其特 征在于, 所述构建第一重要性分析子模型, 包括:
在所述第一构建数据集合内随机选择一第 二类特征信 息, 构建所述第 一重要性分析子
模型的一级分类节点, 所述 一级分类节点可对输入数据进行二分类;
在所述第一构建数据集合内随机选择一第 二类特征信 息, 构建所述第 一重要性分析子
模型的二级分类节点, 所述二级分类节点可对所述一级分类节点的二分类结果进行二分
类;
继续构建所述第 一重要性分析子模型的多级分类节点, 直到分类节点的级数达到预设
值;
对所述多级分类节点的多个分类结果, 分别设置不同的预处理方案, 获得所述第一重
要性分析子模型, 其中, 不同的预 处理方案包括不同的加密方案, 或者不同的加密和构建数
据镜像的方案 。
4.根据权利要求1所述的方法, 其特征在于, 将所述第 一类特征信 息输入所述应用软件
层内的数据分类模型中, 获得分类结果, 包括:
将所述第一类特 征信息输入所述 三维坐标空间内, 获得对应坐标点;
获取所述对应坐标点对应的聚类结果;
将所述对应的聚类结果作为所述分析 结果。
5.根据权利要求1所述的方法, 其特征在于, 所述将所述第 二类特征信 息输入所述应用
软件层内的数据重要性分析模型中, 获得分析 结果, 包括:
将所述第二类特征信 息输入所述数据重要性分析模型内的多个重要性分析子模型中,
获得多个子分类结果;
根据所述多个子分类结果, 获得多个预处 理方案;
获取所述多个预处 理方案中出现频率 最高的预处 理方案, 作为所述分析 结果。
6.一种数据预处 理和存储的系统, 其特 征在于, 所述系统包括:
存储平台构建模块, 用于构建数据存储平台, 其中, 所述数据存储平台内包括应用软件
层、 传输层、 基础软件层和硬件层, 其中, 所述硬件层内包括多个存 储单元;
待存储数据获取模块, 用于获取待存储数据, 所述待存储数据为需要在所述数据存储
平台内进行存 储的数据;
特征信息采集模块, 用于在所述应用软件层内, 采集获取所述待存储数据的第一类特
征信息和第二类特 征信息;
存储数据分类模块, 用于将所述第 一类特征信 息输入所述应用软件层内的数据分类模
型中, 获得分类结果;
数据重要性分析模块, 用于将所述第 二类特征信 息输入所述应用软件层内的数据重要
性分析模型中, 获得分析 结果;权 利 要 求 书 2/3 页
3
CN 114996769 B
3
专利 一种数据预处理和存储的方法
文档预览
中文文档
17 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:34:40上传分享