(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210976981.8
(22)申请日 2022.08.15
(71)申请人 北京百润洪科技有限公司
地址 100000 北京市通州区运河核心区 Ⅳ-
07地块绿地大厦1号楼10层10 03
(72)发明人 晏凤伟
(74)专利代理 机构 重庆百润洪知识产权代理有
限公司 5 0219
专利代理师 沈锋
(51)Int.Cl.
H04L 43/04(2022.01)
H04L 43/062(2022.01)
H04L 9/40(2022.01)
H04L 67/02(2022.01)
G06F 16/958(2019.01)G06K 9/62(2022.01)
(54)发明名称
一种基于移动互联网的数据过滤及内容评
价方法和系统
(57)摘要
本发明提出了一种基于移动互联网的数据
过滤及内容评价方法和系统, 属于互联网内容发
送技术领域, 监控访问移动互联网的移动终端用
户发送访问请求时发送的数据包; 监测移动终端
用户向真实服务器地址发送的网页访问请求时
的流量数据, 对流量数据进行分析, 得出流量特
征; 将流量特征表示拼接起来作为每条请求流量
数据的最终特征表示,输入到特征流量检测模型
以进行数据流量正常与否的判断, 并过滤不正常
的数据流量; 对正常的网页访问请求的内容进行
相似度评价; 根据相似度从大到小的顺序构造待
发送网页队列, 取队列前几位的待发送网页内容
向移动终端用户进行发送。
权利要求书3页 说明书8页 附图2页
CN 115150297 A
2022.10.04
CN 115150297 A
1.一种基于移动互联网的数据过 滤及内容评价方法, 其特 征在于, 包括如下步骤:
S1, 监控访问移动互联网的移动终端用户发送访问请求时发送的数据包;
S2, 监测移动终端用户向真实服务器地址发送 的网页访 问请求时的流量数据, 对流量
数据进行分析, 得 出流量特征;
S3, 将流量特征表示拼接起来作为每条请求流量数据的最终特征表示,输入到特征流
量检测模型以进行 数据流量正常与否的判断, 并过 滤不正常的数据流 量;
S4, 对正常的网页访问请求的内容进行相似度评价; 具体包括:
S401、 对正常的网页访问请求的内容进行平 滑填充, 使得请求的内容长度达 到规定值;
S402、 对标准长度的请求内容R进行分解:
R=T+Q+UL+D;
Q代表流量特征, UL代表网址, T代表请求 内容的标题, D为标准长度的请求 内容R中除Q、
UL、 T之外的其 他内容;
将标准长度的请求内容R表示 为2×2维的矩阵[R]:
S403、 将待发送网页 内容送入推荐单元, 并将待发送网页 内容按照步骤S401和S402进
行分解, 得到待发送网页内容矩阵;
S404、 计算矩阵[R]与待发送网页内容矩阵i的相似度Si为:
其中, SiT表示两个矩阵间标题的相似度, SiQ表示两个矩阵间流量特征的相似度, SiUL表
示两个矩阵间 网址的相似度, SiD表示两个矩阵间其 他内容的相似度;
S5, 根据相似度从大到小的顺序构造待发送网页队列, 取队列前几位的待发送网页内
容向移动终端用户进行发送。
2.根据权利要求1所述的基于移动互联网的数据过滤及内容评价方法, 其特征在于, 所
述步骤S1具体包括如下步骤:
S101、 调用socket函数在监控单 元设置套接口捕获数据包;
S102、 调用i octl函数, 使建立连接的套接口能够捕获到数据包;
S103、 从套接口循环地读取 数据包;
S104、 提取请求数据包中携带的真实服 务器地址数据。
3.根据权利要求1所述的基于移动互联网的数据过滤及内容评价方法, 其特征在于, 所
述步骤S2中, 对流 量数据进行分析 得出流量特征, 具体包括:
将目标节点i的流量数据hi与邻居节点j的流量数据hj线性变换后的特征表示拼接, 输
入到非线性激活函数LReLU中, 输出 未归一化的注意力互相关系数 ei, j:
ei, j=LReLU( α(hi||hj)) (1);
对每个目标节点i与其邻居节点j∈Ni分别计算注意力互相关系数ei, j, 其中Ni为目标节
点i的邻居节点 集合;
对所述注意力互相关系数 ei, j进行归一 化操作:权 利 要 求 书 1/3 页
2
CN 115150297 A
2其中, α 为权 重向量, αi, j为归一化值;
基于归一化值αi, j对邻居节点的流量数据进行加权线性组合从而得到新的节点的流量
数据h′i表示:
其中, σ 为平衡系数;
求解每个新的节点 流量数据之间的差异来得到流 量特征表示S′i,
其中, h′i表示邻居节点j作为目标节点时进行加 权线性组合从而得到新的节点的流量
数据, α′i, j表示基于新的节点的流 量数据h′i和h′j计算得到的新归一 化值, ε为线性系数。
4.根据权利要求3所述的基于移动互联网的数据过滤及内容评价方法, 其特征在于, 所
述步骤S3中, 所述特 征流量检测模型表示 为:
y=softmax( (h′i||S′i)+b) (5);
其中, softmax为逻辑回归函数, b表示偏置项, y为特 征流量检测模型的预测值;
利用交叉熵损失函数L优化特征流量检测模型, 计算预测值y和真实值Y之间的差异, 如
下所示:
L=‑(Y·log y+(1‑Y)·log(1‑y)) (6);
若L不大于阈值, 则表示该特征流量所代表的网页访问请求正常, 若L大于阈值, 则表示
该特征流量所代表的网页访问请求 不正常, 则将该 特征流量代表的流量数据过 滤。
5.一种基于移动互联网的数据过滤及内容评价系统, 用于实现所述权利要求1 ‑4任意
一项所述的数据过滤及内容评价方法, 其特征在于, 包括: 数据包监控单元、 流量数据获取
单元、 过滤单元、 推荐单 元;
所述数据包监控单元, 用于监控访问移动互联网的移动终端用户发送访问请求时发送
的数据包;
所述流量数据获取单元, 用于监测 移动终端用户向真实服务器地址发送的网页访问请
求时的流 量数据, 对流 量数据进行分析, 得 出流量特征;
所述过滤单元, 用于将流量特征表示拼接起来作为每条请求流量数据的最终特征表
示, 输入到特 征流量检测模型以进行 数据流量正常与否的判断, 并过 滤不正常的数据流 量;
所述推荐单元, 用于对正常的网页访 问请求的内容进行相似度评价, 根据相似度从大
到小的顺序构 造待发送网页队列, 取队列前几位的待发送网页内容向移动终端用户进 行发
送。
6.根据权利要求5所述的数据过滤及内容评价系统, 其特征在于, 所述推荐单元包括:
特征提取模块、 相似度计算模块、 排序模块、 发送模块;
所述特征提取模块, 用于对正常的网页访 问请求的内容进行平滑填充, 使得请求的内权 利 要 求 书 2/3 页
3
CN 115150297 A
3
专利 一种基于移动互联网的数据过滤及内容评价方法和系统
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:27:15上传分享