standard download
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202210941824.3 (22)申请日 2022.08.08 (65)同一申请的已公布的文献号 申请公布号 CN 114996769 A (43)申请公布日 2022.09.02 (73)专利权人 西安晟昕科技发展 有限公司 地址 710000 陕西省西安市高新区电子 工 业园电子西街3号 生产力大厦B座五层 (72)发明人 郭琦 张立 张毛毛  (74)专利代理 机构 常州易瑞智新专利代理事务 所(普通合伙) 32338 专利代理师 潘悦 (51)Int.Cl. G06F 21/62(2013.01) G06F 21/60(2013.01) G06F 11/14(2006.01) G06F 3/06(2006.01)(56)对比文件 CN 112783445 A,2021.0 5.11 CN 106529499 A,2017.0 3.22 CN 109597890 A,2019.04.09 CN 112559642 A,2021.0 3.26 CN 110647423 A,2020.01.0 3 US 2008168135 A1,2008.07.10 耿辉等.数据中心日志集中管理平台研究. 《中国金融电脑》 .2019,第2019卷(第1 1期),全 文. 杨腾飞等.对象云存 储中分类分级数据的访 问控制方法. 《软件学报》 .2017,第28卷(第09 期),全文. Raghuram Bhukya等.Fuz zy associative classificati on algorithm based o n MapReduce framew ork. 《2015 I nternati onal Conference o n Applied and Theoretical Computing and Com munication Technology (iCATccT)》 .2016,全 文. 审查员 张亚芳 (54)发明名称 一种数据预处 理和存储的方法 (57)摘要 本发明提供了一种数据预处理和存储的方 法, 涉及数据存储技术领域, 该方法包括: 构建数 据存储平台; 获取待存储 数据; 在应用软件层内, 采集获取待存储数据的第一类特征信息和第二 类特征信息; 根据第一类特征信息获得分类结 果; 根据第二类特征信息获得分析结果; 根据分 析结果, 对待存储数据进行预处理, 获得预处理 结果; 将待存储数据、 分类结果和预处理结果通 过传输层传输至基础软件层, 进行存储分配, 获 得分配结果; 根据分配结果, 将待存储数据和预 处理结果存储至硬件层内。 本发 明解决了现有技 术中采用磁盘阵列对数据进行存储时数据存储 安全性和容错性较低的技术问题, 达到了提升数 据存储稳定性、 安全性的技 术效果。 权利要求书3页 说明书10页 附图3页 CN 114996769 B 2022.10.25 CN 114996769 B 1.一种数据预处 理和存储的方法, 其特 征在于, 所述方法包括: 构建数据存储平台, 其中, 所述数据存储平台内包括应用软件层、 传输层、 基础软件层 和硬件层, 其中, 所述硬件层内包括多个存 储单元; 获取待存 储数据, 所述待存 储数据为需要在所述数据存 储平台内进行存 储的数据; 在所述应用软件层内, 采集获取所述待存储数据的第一类特征信息和第二类特征信 息; 将所述第一类特 征信息输入所述应用软件层内的数据分类模型中, 获得分类结果; 将所述第二类特征信 息输入所述应用软件层内的数据重要性分析模型中, 获得分析结 果; 根据所述分析结果, 对所述待存储数据进行加密预处理或者加密和构建数据镜像的预 处理, 获得预处理结果; 将所述待存储数据、 分类结果和预处理结果通过所述传输层传输至所述基础软件层, 进行存储分配, 获得分配结果; 根据所述分配结果, 将所述待存储数据和所述预处理结果存储至所述硬件层内的至少 两个存储单元内; 构建所述数据分类模型; 构建所述数据重要性分析模型; 其中, 所述构建所述数据分类模型, 包括: 获得预设时间周期; 采集获取 此前预设时间周期内的存 储数据, 获得历史存 储数据集 合; 采集获取所述历史存储数据集合内存储数据的第 一类特征信 息, 获得历史第 一类特征 信息集合, 其中, 所述第一类特 征信息包括数据类型信息、 数据归属信息和数据时间信息; 采用所述第一类特 征信息集 合, 构建所述数据分类模型; 根据所述预设时间周期, 对所述数据分类模型进行 更新; 所述采用所述第一类特 征信息集 合, 构建所述数据分类模型, 包括: 根据数据类型、 数据归属 和数据时间, 构建三维坐标空间; 将所述历史第一类特征信息集合内的第一类特征信息, 输入所述三维坐标空间内, 获 得多个坐标点; 对所述多个坐标点进行聚类, 获得多个聚类结果; 根据所述多个聚类结果和所述 三维坐标空间, 获得 所述数据分类模型; 所述构建所述数据重要性分析模型, 包括: 采集获取所述历史存储数据集合内存储数据的第 二类特征信 息, 获得历史第 二类特征 信息集合, 其中, 所述第二类特 征信息包括数据重要性信息; 有放回地在所述历史第二类特征信息集合内随机选择M个第二类特征信息, 作为第一 构建数据集 合, 构建第一重要性分析子模型; 再次有放回地在所述历史第二类特征信息集合内随机选择M个第二类特征信息, 作为 第二构建数据集 合, 构建第二重要性分析子模型; 继续构建多个重要性分析子模型; 合并全部的重要性分析子模型, 获得 所述数据重要性分析模型。权 利 要 求 书 1/3 页 2 CN 114996769 B 22.根据权利要求1所述的方法, 其特 征在于, 所述构建数据存 储平台, 包括: 根据所述数据分类模型和所述数据重要性分析模型, 构建获得 所述应用软件层; 构建所述传输层; 构建所述基础软件层; 基于所述多个存 储单元, 构建获得 所述硬件层; 连接所述应用软件层、 传输层、 基础软件层和硬件层, 获得 所述数据存 储平台。 3.根据权利要求1所述的方法, 其特 征在于, 所述构建第一重要性分析子模型, 包括: 在所述第一构建数据集合内随机选择一第 二类特征信 息, 构建所述第 一重要性分析子 模型的一级分类节点, 所述 一级分类节点可对输入数据进行二分类; 在所述第一构建数据集合内随机选择一第 二类特征信 息, 构建所述第 一重要性分析子 模型的二级分类节点, 所述二级分类节点可对所述一级分类节点的二分类结果进行二分 类; 继续构建所述第 一重要性分析子模型的多级分类节点, 直到分类节点的级数达到预设 值; 对所述多级分类节点的多个分类结果, 分别设置不同的预处理方案, 获得所述第一重 要性分析子模型, 其中, 不同的预 处理方案包括不同的加密方案, 或者不同的加密和构建数 据镜像的方案 。 4.根据权利要求1所述的方法, 其特征在于, 将所述第 一类特征信 息输入所述应用软件 层内的数据分类模型中, 获得分类结果, 包括: 将所述第一类特 征信息输入所述 三维坐标空间内, 获得对应坐标点; 获取所述对应坐标点对应的聚类结果; 将所述对应的聚类结果作为所述分析 结果。 5.根据权利要求1所述的方法, 其特征在于, 所述将所述第 二类特征信 息输入所述应用 软件层内的数据重要性分析模型中, 获得分析 结果, 包括: 将所述第二类特征信 息输入所述数据重要性分析模型内的多个重要性分析子模型中, 获得多个子分类结果; 根据所述多个子分类结果, 获得多个预处 理方案; 获取所述多个预处 理方案中出现频率 最高的预处 理方案, 作为所述分析 结果。 6.一种数据预处 理和存储的系统, 其特 征在于, 所述系统包括: 存储平台构建模块, 用于构建数据存储平台, 其中, 所述数据存储平台内包括应用软件 层、 传输层、 基础软件层和硬件层, 其中, 所述硬件层内包括多个存 储单元; 待存储数据获取模块, 用于获取待存储数据, 所述待存储数据为需要在所述数据存储 平台内进行存 储的数据; 特征信息采集模块, 用于在所述应用软件层内, 采集获取所述待存储数据的第一类特 征信息和第二类特 征信息; 存储数据分类模块, 用于将所述第 一类特征信 息输入所述应用软件层内的数据分类模 型中, 获得分类结果; 数据重要性分析模块, 用于将所述第 二类特征信 息输入所述应用软件层内的数据重要 性分析模型中, 获得分析 结果;权 利 要 求 书 2/3 页 3 CN 114996769 B 3

PDF文档 专利 一种数据预处理和存储的方法

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种数据预处理和存储的方法 第 1 页 专利 一种数据预处理和存储的方法 第 2 页 专利 一种数据预处理和存储的方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:34:40上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。