standard download
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111620740.1 (22)申请日 2021.12.28 (71)申请人 中国电信股份有限公司 地址 100033 北京市西城区金融街31号 (72)发明人 孙道伟 郭晓康  (74)专利代理 机构 北京同达信恒知识产权代理 有限公司 1 1291 代理人 潘雪 (51)Int.Cl. H04L 9/40(2022.01) H04L 67/02(2022.01) H04L 9/06(2006.01) G06F 40/289(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种CMS识别方法及装置 (57)摘要 一种CMS识别方法及装置, 通过预先训练好 的识别模型, 对待识别网页的CMS类别进行识别, 有助于提高识别准确性。 在本申请中, 方法包括: 获取待识别源码, 待识别源码是待识别CMS类别 的网页中的源码; 对待识别源码进行可视化处 理, 得到待识别图片; 将待识别图片输入至识别 模型中, 以得到CMS类别; 其中, 识别模型中包括 CNN层和LS TM层, CNN层用于提取待识别图片中的 特征, 并将提取到的特征输入至LSTM层中, LSTM 层用于输出CMS类别。 权利要求书2页 说明书9页 附图6页 CN 114422199 A 2022.04.29 CN 114422199 A 1.一种内容管理系统C MS识别方法, 其特 征在于, 包括: 获取待识别源码, 所述待识别源码是待识别C MS类别的网页中的源码; 对所述待识别源码进行 可视化处 理, 得到待识别图片; 将所述待识别图片输入至识别模型中, 以得到所述C MS类别; 其中, 所述识别模型中包括卷积神经网络CNN层和长短期记忆LSTM层, 所述CNN层用于 提取所述待识别图片中的特征, 并将提取到的特征输入至所述LSTM层中, 所述LSTM层用于 输出所述CMS类别。 2.如权利要求1所述的方法, 其特 征在于, 所述获取待识别源码, 包括: 从所述待识别CMS类别的网页中获取网页源码, 对所述网页源码进行数据清洗, 以得到 所述待识别源码, 所述待识别源码用于指示所述网页中的自然语言部分。 3.如权利要求1所述的方法, 其特征在于, 所述对所述待识别源码进行可视化处理, 得 到待识别图片, 包括: 对所述待识别源码进行分词处 理, 得到N个分词, N 为大于或等于2的整数; 对所述N个分词进行向量化处理, 得到所述N个分词对应的N个分词向量, 其中一个分词 向量中包括有M个元 素, M为大于或等于2的整数; 根据所述N个分词向量中、 每个分词向量的第i个元素, 确定特征向量的所述第i个元素 的取值, 从而得到所述特 征向量, i取遍[1,M]中的整数; 将所述特 征向量转化为所述待识别图片。 4.如权利要求3所述的方法, 其特征在于, 所述根据 所述N个分词向量中、 每个分词向量 的第i个元 素, 确定特 征向量的所述第i个元 素的取值, 包括: 获取所述N个分词向量中、 每个分词向量的第i个元素的取值, 统计取值为0的第i个元 素的数量, 以及取值 为1的第i个元 素的数量; 在所述取值为0的第i个元素的数量, 大于所述取值为1的第i个元素的数量的情况下, 设置所述特 征向量的第i个元 素的取值 为0; 和/或, 在所述取值为1的第i个元素的数量, 不大于所述取值为0的第i个元素的数量的情况 下, 设置所述特 征向量的第i个元 素的取值 为1。 5.如权利要求3所述的方法, 其特征在于, 所述特征向量中每个元素对应于所述待识别 图片中的一个 像素点; 所述将所述特 征向量转化为所述待识别图片, 包括: 根据所述特征向量中每个元素的取值, 确定每个元素对应的像素点在红、 绿、 蓝三个颜 色通道中的取值, 从而得到所述待识别图片; 其中, 在元素取值为0时, 所述元素对应的像素点在红、 绿、 蓝三个颜色通道中的取值为 (255,255,255); 在元素取值为1时, 所述元素对应的像素点在红、 绿、 蓝三个颜色通道中的取值为(0,0, 0)。 6.如权利要求3所述的方法, 其特征在于, 在所述M为非平方数的情况下, 所述待识别图 片为非标准图片, 所述非标准图片的形状为非正方 形, 所述方法还 包括: 通过最邻近元法, 将所述待识别图片转 化为标准图片, 所述标准图片的形状为 正方形。 7.如权利要求1所述的方法, 其特 征在于, 所述C MS类别包括系统名称和系统版本 。 8.如权利要求1至7任一项所述的方法, 其特 征在于, 还 包括:权 利 要 求 书 1/2 页 2 CN 114422199 A 2在本地部署C MS系统, 通过爬虫工具获取 所述CMS系统对应的标准源码; 对所述标准源码标注所述标准源码对应的C MS类别, 得到所述C MS系统的样本数据; 根据所述样本数据进行模型训练, 得到所述识别模型。 9.一种内容管理系统CMS识别装置, 其特征在于, 包括用于执行如权利要求1至8中的任 一项所述方法的模块。 10.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质中存储有计算机 程序或指令, 当所述计算机程序或指令被计算设备执行时, 实现如权利要求1至8中任一项 所述的方法。 11.一种计算机程序产品, 其特征在于, 所述计算机程序产品包括计算机程序或指令, 当所述计算机程序或指令被 计算设备 执行时, 实现如权利要求1至8中任一项所述的方法。 12.一种计算设备, 其特征在于, 包括处理器, 所述处理器与存储器相连, 所述存储器用 于存储计算机程序, 所述处理器用于执行所述存储器中存储的计算机程序, 以使得所述计 算设备执行如权利要求1至8中任一项所述的方法。权 利 要 求 书 2/2 页 3 CN 114422199 A 3

.PDF文档 专利 一种CMS识别方法及装置

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种CMS识别方法及装置 第 1 页 专利 一种CMS识别方法及装置 第 2 页 专利 一种CMS识别方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 03:02:58上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。