standard download
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210854926.1 (22)申请日 2022.07.20 (71)申请人 东南大学 地址 210096 江苏省南京市玄武区四牌楼 2 号 (72)发明人 杨明 邢琳 顾晓丹 宋炳辰  (74)专利代理 机构 南京众联专利代理有限公司 32206 专利代理师 许小莉 (51)Int.Cl. G06F 16/9532(2019.01) G06F 16/955(2019.01) G06F 16/958(2019.01) G06F 21/62(2013.01) (54)发明名称 一种基于隐藏服务关联的Tor核心站 点发现 方法 (57)摘要 本发明公开一种基于隐藏服务关联的Tor核 心站点发现方法, 包括步骤(1)隐藏服务关联算 法: 针对内容相近但域名不同的Web站点, 设计基 于页面结构和内容的隐藏服务关联算法; (2)计 算隐藏服务存活率; (3)隐藏服务访问量测量; (4)Tor核心站点发现: 通过(2)和(3)得到的隐藏 服务存活率和访问量对(1)中聚类的每个组 中的 隐藏服务进行分析, 识别其中的核心站点。 本发 明可实现T or暗网中具有较高分析价值的核心站 点发现。 权利要求书2页 说明书5页 附图2页 CN 115186166 A 2022.10.14 CN 115186166 A 1.一种基于隐藏服务关联的Tor核心站点发现方法, 其特征在于, 该方法包括如下步 骤: (1)隐藏服务关联算法: 针对内容相近但域名不同的Web站点, 设计基于页面结构和内 容的隐藏 服务关联算法; (2)计算隐藏服务存活率: 通过隐藏服务的描述符是否存在来间接判定隐藏服务是否 在线, 并将其作为核心 站点判断的特 征之一; (3)隐藏服务访问量测量: 通过部署隐藏服务目录服务器HSDir收集隐藏服务盲公钥被 请求的情况, 进 而分析比对计算隐藏 服务的访问量; (4)Tor核心站点发现: 通过(2)和(3)得到 的隐藏服务存活率和访问量对(1)中聚类 的 每个组中的隐藏 服务进行分析, 识别其中的核心 站点。 2.根据权利要求1所述的一种基于隐藏服务关联的Tor核心站点发现方法, 其特征在 于: 所述步骤(1)具体包括: (11)利用Response  Header中的重定向链接进行聚类: 由于一些域名访问以后会返回 301状态码并自动重定向到其他页面, Response  Header头中的Location字段会显示重定向 后的页面 域名, 因此将域名和重 定向域名聚类成一组; (12)将拥有有意义标题的相同站点聚成一类: 定义暗网中的站点默认页面的标题是无 意义的, 包括 “Index of/”、“Apache2 Debian Default Page”、“401Authorization   Required ”、 Apache、 Nginx, 将该无意义标题以及没有标题信息的站点各自划为一组, 而将 拥有有意义标题信息且标题文字相同的站点划分为 一组; (13)结合HTMLDOM树、 CSS样式、 页面关键词综合进行聚类: 将在有意义标题的组中抽取 一个页面, 计算每个页面的DOM树结构、 class属性值、 id属性值以及页面中的前20个 关键词 信息, 并用相似度算法比较每个页面的DOM树结构相似度、 class属性值和id属性值相似度 以及页面关键词相似度。 3.根据权利要求1所述的一种基于隐藏服务关联的Tor核心站点发现方法, 其特征在 于: 所述步骤(2)具体包括: (21)从数据库中读取待计算隐藏 服务存活率的域名; (22)部署多个Tor进程, 客户端通过Tor控制协议向隐藏服务器发送查询请求, 实现多 进程并发执 行; (23)如果描述符为非异常状态, 将根据返回信息判断描述符是否存在进而保存结果: 如果描述符存在, 则认为 域名在线; 如果 不存在, 则认为 域名不在线; (24)如果描述符查询异常且查询次数不超过5次, 则将此域名重新放入队列中, 稍后将 进行重新 查询, 返回步骤(2 2); (25)根据返回信息, 保存计算隐藏 服务存活率的检测结果。 4.根据权利要求1所述的一种基于隐藏服务关联的Tor核心站点发现方法, 其特征在 于: 所述步骤(3)具体包括: (31)对每一个v3域名, 计算 一定周期内的全部盲公钥; (32)将离线计算的盲公钥结果和从隐藏服务目录服务器上收集到的盲公钥数据做比 对, 获得每 个v3域名的总访问量; (33)将每个v3域名的总访问量除以统计天数以此来计算该 隐藏服务v3域名的日均访权 利 要 求 书 1/2 页 2 CN 115186166 A 2问量。 5.根据权利要求1所述的一种基于隐藏服务关联的Tor核心站点发现方法, 其特征在 于: 所述步骤(4)中具体包括: (41)对于(1)中聚类的每个组, 计算每个组的存活率srj_i, 其值为该组中所有域名的最 大存活率; 存活率srj_i如下公式表示: 其中, online_num为测量 域名在线 (42)对于(1)中聚类的每个组, 计算每个组的访问量viewj_i: 对于有声明镜像站点的网 站, viewj_i为每个组的所有域名访问量的总和; 而对于没有声明镜像站点的网站, viewj_i为 每个组的所有域名访问量的最大 数值; (43)将核心站点的发现问题建模为机器学习中的二分类问题, 以访问量、 存活率、 相似 页面数量、 出入度作为分类属性, 并使用XGBo ost模型进行核心 站点发现; (44)对于分类为核心站点的页面, 同时计算分类的判别概率x, 基于该判别概率, 进一 步将认定的核心站点分为3个级别的重要程度, 其中, x≥0.9的页面将 被视为最重要的核心 站点, 0.75≤x<0.9的页面被视为次重要的页面, 而0.5≤x<0.75的页面被视为最不重要的 核心站点。权 利 要 求 书 2/2 页 3 CN 115186166 A 3

PDF文档 专利 一种基于隐藏服务关联的Tor核心站点发现方法

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于隐藏服务关联的Tor核心站点发现方法 第 1 页 专利 一种基于隐藏服务关联的Tor核心站点发现方法 第 2 页 专利 一种基于隐藏服务关联的Tor核心站点发现方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:34:54上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。