专利 一种基于隐藏服务关联的Tor核心站点发现方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210854926.1 (22)申请日 2022.07.20 (71)申请人东南大学地址 210096 江苏省南京市玄武区四牌楼 2 号 (72)发明人杨明　邢琳　顾晓丹　宋炳辰　 (74)专利代理机构南京众联专利代理有限公司 32206 专利代理师许小莉 (51)Int.Cl. G06F 16/9532(2019.01) G06F 16/955(2019.01) G06F 16/958(2019.01) G06F 21/62(2013.01) (54)发明名称一种基于隐藏服务关联的Tor核心站点发现方法 (57)摘要本发明公开一种基于隐藏服务关联的Tor核心站点发现方法，包括步骤(1)隐藏服务关联算法：针对内容相近但域名不同的Web站点，设计基于页面结构和内容的隐藏服务关联算法； (2)计算隐藏服务存活率； (3)隐藏服务访问量测量； (4)Tor核心站点发现：通过(2)和(3)得到的隐藏服务存活率和访问量对(1)中聚类的每个组中的隐藏服务进行分析，识别其中的核心站点。本发明可实现T or暗网中具有较高分析价值的核心站点发现。权利要求书2页说明书5页附图2页 CN 115186166 A 2022.10.14 CN 115186166 A 1.一种基于隐藏服务关联的Tor核心站点发现方法，其特征在于，该方法包括如下步骤： (1)隐藏服务关联算法：针对内容相近但域名不同的Web站点，设计基于页面结构和内容的隐藏服务关联算法； (2)计算隐藏服务存活率：通过隐藏服务的描述符是否存在来间接判定隐藏服务是否在线，并将其作为核心站点判断的特征之一； (3)隐藏服务访问量测量：通过部署隐藏服务目录服务器HSDir收集隐藏服务盲公钥被请求的情况，进而分析比对计算隐藏服务的访问量； (4)Tor核心站点发现：通过(2)和(3)得到的隐藏服务存活率和访问量对(1)中聚类的每个组中的隐藏服务进行分析，识别其中的核心站点。 2.根据权利要求1所述的一种基于隐藏服务关联的Tor核心站点发现方法，其特征在于：所述步骤(1)具体包括： (11)利用Response Header中的重定向链接进行聚类：由于一些域名访问以后会返回 301状态码并自动重定向到其他页面， Response Header头中的Location字段会显示重定向后的页面域名，因此将域名和重定向域名聚类成一组； (12)将拥有有意义标题的相同站点聚成一类：定义暗网中的站点默认页面的标题是无意义的，包括 “Index of/”、“Apache2 Debian Default Page”、“401Authorization Required ”、 Apache、 Nginx，将该无意义标题以及没有标题信息的站点各自划为一组，而将拥有有意义标题信息且标题文字相同的站点划分为一组； (13)结合HTMLDOM树、 CSS样式、页面关键词综合进行聚类：将在有意义标题的组中抽取一个页面，计算每个页面的DOM树结构、 class属性值、 id属性值以及页面中的前20个关键词信息，并用相似度算法比较每个页面的DOM树结构相似度、 class属性值和id属性值相似度以及页面关键词相似度。 3.根据权利要求1所述的一种基于隐藏服务关联的Tor核心站点发现方法，其特征在于：所述步骤(2)具体包括： (21)从数据库中读取待计算隐藏服务存活率的域名； (22)部署多个Tor进程，客户端通过Tor控制协议向隐藏服务器发送查询请求，实现多进程并发执行； (23)如果描述符为非异常状态，将根据返回信息判断描述符是否存在进而保存结果：如果描述符存在，则认为域名在线；如果不存在，则认为域名不在线； (24)如果描述符查询异常且查询次数不超过5次，则将此域名重新放入队列中，稍后将进行重新查询，返回步骤(2 2)； (25)根据返回信息，保存计算隐藏服务存活率的检测结果。 4.根据权利要求1所述的一种基于隐藏服务关联的Tor核心站点发现方法，其特征在于：所述步骤(3)具体包括： (31)对每一个v3域名，计算一定周期内的全部盲公钥； (32)将离线计算的盲公钥结果和从隐藏服务目录服务器上收集到的盲公钥数据做比对，获得每个v3域名的总访问量； (33)将每个v3域名的总访问量除以统计天数以此来计算该隐藏服务v3域名的日均访权　利　要　求　书 1/2 页 2 CN 115186166 A 2问量。 5.根据权利要求1所述的一种基于隐藏服务关联的Tor核心站点发现方法，其特征在于：所述步骤(4)中具体包括： (41)对于(1)中聚类的每个组，计算每个组的存活率srj_i，其值为该组中所有域名的最大存活率；存活率srj_i如下公式表示：其中， online_num为测量域名在线 (42)对于(1)中聚类的每个组，计算每个组的访问量viewj_i：对于有声明镜像站点的网站， viewj_i为每个组的所有域名访问量的总和；而对于没有声明镜像站点的网站， viewj_i为每个组的所有域名访问量的最大数值； (43)将核心站点的发现问题建模为机器学习中的二分类问题，以访问量、存活率、相似页面数量、出入度作为分类属性，并使用XGBo ost模型进行核心站点发现； (44)对于分类为核心站点的页面，同时计算分类的判别概率x，基于该判别概率，进一步将认定的核心站点分为3个级别的重要程度，其中， x≥0.9的页面将被视为最重要的核心站点， 0.75≤x<0.9的页面被视为次重要的页面，而0.5≤x<0.75的页面被视为最不重要的核心站点。权　利　要　求　书 2/2 页 3 CN 115186166 A 3

专利 一种基于隐藏服务关联的Tor核心站点发现方法

专利一种基于隐藏服务关联的Tor核心站点发现方法