蜘蛛池网站的识别方法、装置、电子装置和存储介质
技术领域
本申请涉及网站识别领域,特别是涉及一种蜘蛛池网站的识别方法、装置、电子装置和存储介质。
背景技术
在互联网蓬勃发展的今天,搜索引擎优化(Search Engine Optimization,简写为SEO)是一个很普通的行业,为了提升网站的SEO排名,很多黑客利用黑帽SEO技术制造大量垃圾网站(类似蜘蛛池),这些垃圾网站包含许多违规且无意义内容等,在互联网中传播造成不良影响,在云监测系统中无意义蜘蛛池存在大量无效资产,对监测系统造成资源浪费。
针对相关技术中存在监测系统对蜘蛛池网站中的其他网站进行检测造成资源浪费的问题,目前还没有提出有效的解决方案。
发明内容
在本实施例中提供了一种涉及蜘蛛池网站的识别方法、装置、电子装置和存储介质,以解决相关技术中对蜘蛛池网站中的其他网站进行检测造成资源浪费的问题。
第一个方面,在本实施例中提供了一种蜘蛛池网站的识别方法,包括:
获取待识别网站的源码;
提取所述源码中的页面信息,其中,所述页面信息包括以下至少之一:页面主题信息、页面标签信息;
从预设蜘蛛池中匹配与所述页面信息相对应的目标页面信息;
在从所述预设蜘蛛池中匹配到与所述页面信息相对应的目标页面信息的情况下,将所述待识别网站分类为蜘蛛池网站。
在其中一些实施例中,所述方法还包括:
在从所述预设蜘蛛池中未匹配到与所述页面信息相对应的页面信息的情况下,提取所述源码中的页面外链信息和全部页面链接信息;
判断所述页面外链信息与所述全部页面链接信息的匹配度是否达到预设匹配度;
在判断到所述页面外链信息与所述全部页面链接信息的匹配度达到预设匹配度的情况下,将所述待识别网站分类为蜘蛛池网站。
在其中一些实施例中,在提取所述源码中的页面外链信息和全部页面链接信息之前,所述方法还包括:
获取所述源码的锚链接;
判断所述锚链接的主域名是否为所述待识别网站的主域名;
在判断所述锚链接的主域名不为所述待识别网站的主域名的情况下,判定所述锚链接为外链链接,并提取所述源码中的页面外链信息和全部页面链接信息。
在其中一些实施例中,所述页面外链信息包括:外链锚文本、外链页面信息、外链主机信息。
在其中一些实施例中,在判断所述页面外链信息与所述全部页面链接信息的匹配度是否达到预设匹配度之前,所述方法还包括:
根据所述外链主机信息,确定主机的IP归属地信息和外链网站备案信息;
基于所述IP归属地信息,获取境外与所述IP归属地信息对应的第一外链列表信息;
基于所述外链网站备案信息,获取所述外链网站备案信息为空的第二外链列表信息;
确定所述外链锚文本与所述外链页面信息不相同的第三外链列表信息;
取所述第一外链列表信息、所述第二外链列表信息和所述第三外链列表信息的并集,得到目标外链列表信息;
基于所述目标外链列表信息,判断所述目标外链列表信息与所述全部页面链接信息的匹配度是否达到所述预设匹配度。
在其中一些实施例中,所述方法还包括:
在判断到所述页面外链信息与所述全部页面链接信息的匹配度未达到预设匹配度的情况下,将所述待识别网站分类为正常网站。
在其中一些实施例中,提取所述源码中的页面信息包括:通过预设的页面解析器提取所述源码中的页面信息。
第二个方面,在本实施例中提供了一种蜘蛛池网站的识别装置,包括:
第一获取模块,用于获取待识别网站的源码;
第一提取模块,用于提取所述源码中的页面信息,其中,所述页面信息包括以下至少之一:页面主题信息、页面标签信息;
第一匹配模块,用于从预设蜘蛛池中匹配与所述页面信息相对应的目标页面信息;
第一分类模块,用于在从所述预设蜘蛛池中匹配到与所述页面信息相对应的目标页面信息的情况下,将所述待识别网站分类为蜘蛛池网站。
第三个方面,在本实施例中提供了一种电子装置,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一个方面所述的蜘蛛池网站的识别方法。
第四个方面,在本实施例中提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述第一个方面所述的蜘蛛池网站的识别方法。
与相关技术相比,在本实施例中提供的蜘蛛池网站的识别方法、装置、电子装置和存储介质,通过获取待识别网站的源码;提取源码中的页面信息,其中,页面信息包括以下至少之一:页面主题信息、页面标签信息;从预设蜘蛛池中匹配与页面信息相对应的目标页面信息;在从预设蜘蛛池中匹配到与页面信息相对应的目标页面信息的情况下,将待识别网站分类为蜘蛛池网站的方式,解决了相关技术中存在监测对蜘蛛池网站中的其他网站进行检测造成资源浪费的问题,减少了监测系统对蜘蛛池网站中的其他网站进行检测的资源浪费。
本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是本实施例的蜘蛛池网站的识别方法的终端的硬件结构框图;
图2是本实施例的蜘蛛池网站的识别方法的流程图;
图3是本优选实施例的蜘蛛池网站的识别方法的流程图;
图4是本实施例的网站的特征提取的结构框图;
图5是本实施例的蜘蛛池网站的识别装置。
具体实施方式
为更清楚地理解本申请的目的、技术方案和优点,下面结合附图和实施例,对本申请进行了描述和说明。
除另作定义外,本申请所涉及的技术术语或者科学术语应具有本申请所属技术领域具备一般技能的人所理解的一般含义。在本申请中的“一”、“一个”、“一种”、“该”、“这些”等类似的词并不表示数量上的限制,它们可以是单数或者复数。在本申请中所涉及的术语“包括”、“包含”、“具有”及其任何变体,其目的是涵盖不排他的包含;例如,包含一系列步骤或模块(单元)的过程、方法和系统、产品或设备并未限定于列出的步骤或模块(单元),而可包括未列出的步骤或模块(单元),或者可包括这些过程、方法、产品或设备固有的其他步骤或模块(单元)。在本申请中所涉及的“连接”、“相连”、“耦接”等类似的词语并不限定于物理的或机械连接,而可以包括电气连接,无论是直接连接还是间接连接。在本申请中所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。通常情况下,字符“/”表示前后关联的对象是一种“或”的关系。在本申请中所涉及的术语“第一”、“第二”、“第三”等,只是对相似对象进行区分,并不代表针对对象的特定排序。
在本实施例中提供的方法实施例可以在终端、计算机或者类似的运算装置中执行。比如在终端上运行,图1是本实施例的蜘蛛池网站的识别方法的终端的硬件结构框图。如图1所示,终端可以包括一个或多个(图1中仅示出一个)处理器102和用于存储数据的存储器104,其中,处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置。上述终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述终端的结构造成限制。例如,终端还可包括比图1中所示更多或者更少的组件,或者具有与图1所示出的不同配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如在本实施例中的蜘蛛池网站的识别方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输设备106用于经由一个网络接收或者发送数据。上述的网络包括终端的通信供应商提供的无线网络。在一个实例中,传输设备106包括一个网络适配器(NetworkInterface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
首先,对本申请实施例中需要用到的术语进行描述和说明:
蜘蛛池,是指利用大量的垃圾域名站群并挂上未收录的网站链接,进而吸引搜索引擎快速收录。
搜索引擎优化(Search Engine Optimization,简写为SEO)是一种利用搜索引擎的规则提高网站在有关搜索引擎内的自然排名。目的是让其在行业内占据领先地位,获得品牌收益。很大程度上是网站经营者的一种商业行为,将自己或自己公司的排名前移。
黑帽SEO,是指通过作弊手段,让站点快速提升排名的一类SEO技术,或者说是黑客技术,比如说:黑链(暗链)、站群(蜘蛛池)、网站劫持、桥页等,黑帽SEO能够快速提升排名,但毕竟是违规作弊行为,容易被K(网站降权)。
在本实施例中提供了一种蜘蛛池网站的识别方法,图2是本实施例的蜘蛛池网站的识别方法的流程图,如图2所示,该流程包括如下步骤:
步骤S201,获取待识别网站的源码。
在本步骤中,获取待识别网站的源码可以是通过一些预设的识别工具,例如深度学习识别模型。待识别网站可以是时候获取的,也可以是在存储有待识别网站的数据库中获取到的。
步骤S202,提取源码中的页面信息,其中,页面信息包括以下至少之一:页面主题信息、页面标签信息。
在本步骤中,常见的网站内容提取技术主要通过正则表达式和DOM操作工具。正则表达式可不考虑网站的结构树,以通配符的方式抓取特定的字符组合,适用于所有类型的文字提取;DOM操作工具依赖DOM结构,针对性的对目标标签和属性进行抓取,更精准,更适合用于网页内容提取方案。本步骤中的提取方式可以采用上述方式,来达到提取的内容更加精确,从而提高网站的识别精确度。
步骤S203,从预设蜘蛛池中匹配与页面信息相对应的目标页面信息。
在本步骤中,预设蜘蛛池可以是用户预先根据实际需要设定的蜘蛛池。
在一些实施例中,用户是可以对该预设蜘蛛池进行训练以提高预设蜘蛛池的精确度。
步骤S204,在从预设蜘蛛池中匹配到与页面信息相对应的目标页面信息的情况下,将待识别网站分类为蜘蛛池网站。
基于上述步骤S201至S204,通过根据源码中的页面信息来识别云监测资产中蜘蛛池网站的方式,能够准确识别资产中的蜘蛛池网站以及被植入的蜘蛛池网站,及时发现网站是否被黑客利用于黑帽SEO,解决了相关技术中存在监测对蜘蛛池网站中的其他网站进行检测造成资源浪费的问题,减少了监测系统对蜘蛛池网站中的其他网站进行检测的资源浪费。
在其中一些实施例中,还可以在从预设蜘蛛池中未匹配到与页面信息相对应的页面信息的情况下,提取源码中的页面外链信息和全部页面链接信息;判断页面外链信息与全部页面链接信息的匹配度是否达到预设匹配度;在判断到页面外链信息与全部页面链接信息的匹配度达到预设匹配度的情况下,将待识别网站分类为蜘蛛池网站。
在本实施例中,在从预设蜘蛛池中未匹配到与页面信息相对应的页面信息的情况下,进一步通过源码中的页面外链信息和全部页面链接信息的来判断是否为蜘蛛池网站,并在判断到页面外链信息与全部页面链接信息的匹配度达到预设匹配度的情况下,将待识别网站分类为蜘蛛池网站的方式,进一步准确识别资产中的蜘蛛池网站以及被植入的蜘蛛池网站,及时发现网站是否被黑客利用于黑帽SEO,解决了相关技术中存在监测对蜘蛛池网站中的其他网站进行检测造成资源浪费的问题,减少了监测系统对蜘蛛池网站中的其他网站进行检测的资源浪费。
在其中一些实施例中,在提取源码中的页面外链信息和全部页面链接信息之前,还可以获取源码的锚链接;判断锚链接的主域名是否为待识别网站的主域名;在判断锚链接的主域名不为待识别网站的主域名的情况下,判定锚链接为外链链接,并提取源码中的页面外链信息和全部页面链接信息。
在本实施例中,外链是指跳转到其它域名网站的链接,其判断方式判断锚链接的主域名是否是当前待识别网站的主域名,如不是则定义为外链。本实施例中,先通过对锚链接的识别,并在锚链接为外链的情况下,提取源码中的页面外链信息和全部页面链接信息的方式,提高了源码中页面外链信息的精确度,以便于提高对该待识别网站的识别准确度。
在其中一些实施例中,页面外链信息包括:外链锚文本、外链页面信息、外链主机信息。
在本实施例中,锚文本:又称锚文本链接,是链接的一种形式。和超链接类似,超链接的代码是锚文本,把关键词做一个链接,指向别的网页,这种形式的链接称之为锚文本。外链主机信息可以携带有主机IP信息,以及网站备库信息。
在其中一些实施例中,在判断页面外链信息与全部页面链接信息的匹配度是否达到预设匹配度之前,还可以包括以下步骤:
步骤1,根据外链主机信息,确定主机的IP归属地信息和外链网站备案信息。
在本步骤中,可以根据通过IP纯真数据库匹配,在开源的IP纯真数据库中查询网站IP归属地信息。外链网站备案信息确定方式可以包括:工信部官网查询、站长工具网站备案查询、爱站ICP备案查询、基于自建大数据备案知识库查询,本申请实施例中可以采用但不限于自建大数据备案知识库查询。
步骤2,基于IP归属地信息,获取境外与IP归属地信息对应的第一外链列表信息。
需要说明的是,IP境外判断技术不限于IP纯真数据库匹配,其他工具类似于站长工具等也可以。
步骤3,基于外链网站备案信息,获取外链网站备案信息为空的第二外链列表信息。
需要说明的是,ICP备案信息查询技术不限于自建大数据icp备案库,其他渠道类似于工信部官网查询、站长工具网站备案查询、爱站ICP备案查询等也可以。
步骤4,确定外链锚文本与外链页面信息不相同的第三外链列表信息。
步骤5,取第一外链列表信息、第二外链列表信息和第三外链列表信息的并集,得到目标外链列表信息。
步骤6,基于目标外链列表信息,判断目标外链列表信息与全部页面链接信息的匹配度是否达到预设匹配度。
在本实施例中,通过外链主机信息,IP归属地信息以及外链网站备案信息三个信息来分别确定第一外链列表信息、第二外链列表信息和第三外链列表信息,最后根据第一外链列表信息、第二外链列表信息和第三外链列表信息的并集,来进行匹配的方式,可以更精确的确定目标外链列表信息与全部页面链接信息的匹配度,以便于后续提高对待识别网站的识别的精确度。
在其中一些实施例中,还可以在判断到页面外链信息与全部页面链接信息的匹配度未达到预设匹配度的情况下,将待识别网站分类为正常网站。
在本实施例中,通过在判断到页面外链信息与全部页面链接信息的匹配度未达到预设匹配度的情况下,将待识别网站分类为正常网站的方式,实现了对待识别网站的分类。
在其中一些实施例中,提取源码中的页面信息包括:通过预设的页面解析器提取源码中的页面信息。在本实施例中通过解析器实现了对源码中的页面信息的提取。
下面通过优选实施例对本实施例进行描述和说明。
为了准确描述,现作如下定义:
目标资产:target。
资产源码:html。
页面title:title。
页面meta:meta。
页面所有链接数(相当于上述实施例中的全部页面链接):allLinkCount。
外链:outLink。
网站备案:icp。
网站ip:ip。
网站主机HOST:host。
蜘蛛池正则匹配表达式:spiderPattern。
图3是本优选实施例的蜘蛛池网站的识别方法的流程图,如图3所示,该蜘蛛池网站的识别方法包括如下步骤:
步骤S301,将title(相当于上述实施例中的页面主题信息)、meta(相当于上述实施例中的页面标签信息)进行蜘蛛池正则匹配(apiderPattern)。
步骤S302,判断title、meta是否满足一个命中蜘蛛池,若是,则执行步骤S308,若否则执行步骤S303。
步骤S303,获取ip归属地为境外的外链列表outerOutLinks(相当于上述实施例中的第一外链列表信息)。
步骤S304,获取ICP备案为空的外链列表icpNullOutLinks(相当于上述实施例中的第二外链列表信息)。
步骤S305,获取外链锚文本与外链页面内容不一致的外链列表contentAbnormalOutLinks(相当于上述实施例中的第三外链列表信息)。
需要说明的是,步骤S303,步骤S304,步骤S305的步骤顺序可以互换。
步骤S306,取outerOutLinks、icpNullOutLinks、contentAbnormalOutLinks的并集得到spiderOuterLinks(相当于上述实施例中的目标外链列表信息)。
步骤S307,判断spiderOutLinks在页面所有链接数allLinkCount中的占比是否超过预设占比,若是,则执行步骤S308,若否则执行结束。
步骤S308,判定为蜘蛛池网站。
基于上述步骤S301至步骤S308,本申请实施例能准确识别云监测资产中的蜘蛛池网站以及被植入的蜘蛛池网站,及时发现网站是否被黑客利用于黑帽SEO,避免网站在搜索引擎中被降权,同时避免对蜘蛛池网站中的其他网站进行检测造成资源浪费。
在一些实施例中,步骤S301之前,如图4所示,还可以通过源码获取工具JSOUP获取网站资产源码html。以及提取出源码中的页面title、页面meta、外链地址URL及对应锚文本信息;通过URL解析工具解析外链地址,得到对应的HOST、IP信息;通过IP纯真数据库匹配IP地址,得到IP归属地信息;通过网站备案知识库匹配HOST,得到网站的备案信息。
在本实施例中还提供了一种蜘蛛池网站的识别装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。以下所使用的术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管在以下实施例中所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图5是本实施例的蜘蛛池网站的识别装置的结构框图,如图5所示,该装置包括:
第一获取模块51,用于获取待识别网站的源码;
第一提取模块52,耦合至第一获取模块51,用于提取源码中的页面信息,其中,页面信息包括以下至少之一:页面主题信息、页面标签信息;
第一匹配模块53,耦合至第一提取模块52,用于从预设蜘蛛池中匹配与页面信息相对应的目标页面信息;
第一分类模块54,耦合至第一匹配模块53,用于在从预设蜘蛛池中匹配到与页面信息相对应的目标页面信息的情况下,将待识别网站分类为蜘蛛池网站。
在其中一些实施例中,该装置还包括:第二提取模块,用于在从预设蜘蛛池中未匹配到与页面信息相对应的页面信息的情况下,提取源码中的页面外链信息和全部页面链接信息;第一判断模块,用于判断页面外链信息与全部页面链接信息的匹配度是否达到预设匹配度;第二分类模块,用于在判断到页面外链信息与全部页面链接信息的匹配度达到预设匹配度的情况下,将待识别网站分类为蜘蛛池网站。
在其中一些实施例中,该装置还包括:第二获取摸,用于获取源码的锚链接;第二判断模块,用于判断锚链接的主域名是否为待识别网站的主域名;判定模块,用于在判断锚链接的主域名不为待识别网站的主域名的情况下,判定锚链接为外链链接,并提取源码中的页面外链信息和全部页面链接信息。
在其中一些实施例中,页面外链信息包括:外链锚文本、外链页面信息、外链主机信息。
在其中一些实施例中,该装置还包括:第一确定模块,用于根据外链主机信息,确定主机的IP归属地信息和外链网站备案信息;第三获取模块,用于基于IP归属地信息,获取境外与IP归属地信息对应的第一外链列表信息;第四获取模块,用于基于外链网站备案信息,获取外链网站备案信息为空的第二外链列表信息;第二确定模块,用于确定外链锚文本与外链页面信息不相同的第三外链列表信息;处理模块,用于取第一外链列表信息、第二外链列表信息和第三外链列表信息的并集,得到目标外链列表信息;第一判断模块,用于基于目标外链列表信息,判断目标外链列表信息与全部页面链接信息的匹配度是否达到预设匹配度。
在其中一些实施例中,该装置还包括:第三分类模块,用于在判断到页面外链信息与全部页面链接信息的匹配度未达到预设匹配度的情况下,将待识别网站分类为正常网站。
在其中一些实施例中,第一提取模块52,还用于通过预设的页面解析器提取源码中的页面信息
需要说明的是,上述各个模块可以是功能模块也可以是程序模块,既可以通过软件来实现,也可以通过硬件来实现。对于通过硬件来实现的模块而言,上述各个模块可以位于同一处理器中;或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。
在本实施例中还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
步骤S201,获取待识别网站的源码。
步骤S202,提取源码中的页面信息,其中,页面信息包括以下至少之一:页面主题信息、页面标签信息。
步骤S203,从预设蜘蛛池中匹配与页面信息相对应的目标页面信息。
步骤S204,在从预设蜘蛛池中匹配到与页面信息相对应的目标页面信息的情况下,将待识别网站分类为蜘蛛池网站。
需要说明的是,在本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,在本实施例中不再赘述。
此外,结合上述实施例中提供的蜘蛛池网站的识别方法,在本实施例中还可以提供一种存储介质来实现。该存储介质上存储有计算机程序;该计算机程序被处理器执行时实现上述实施例中的任意一种蜘蛛池网站的识别方法。
应该明白的是,这里描述的具体实施例只是用来解释这个应用,而不是用来对它进行限定。根据本申请提供的实施例,本领域普通技术人员在不进行创造性劳动的情况下得到的所有其它实施例,均属本申请保护范围。
显然,附图只是本申请的一些例子或实施例,对本领域的普通技术人员来说,也可以根据这些附图将本申请适用于其他类似情况,但无需付出创造性劳动。另外,可以理解的是,尽管在此开发过程中所做的工作可能是复杂和漫长的,但是,对于本领域的普通技术人员来说,根据本申请披露的技术内容进行的某些设计、制造或生产等更改仅是常规的技术手段,不应被视为本申请公开的内容不足。
“实施例”一词在本申请中指的是结合实施例描述的具体特征、结构或特性可以包括在本申请的至少一个实施例中。该短语出现在说明书中的各个位置并不一定意味着相同的实施例,也不意味着与其它实施例相互排斥而具有独立性或可供选择。本领域的普通技术人员能够清楚或隐含地理解的是,本申请中描述的实施例在没有冲突的情况下,可以与其它实施例结合。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对专利保护范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
- 上一篇:石墨接头机器人自动装卡簧、装栓机
- 下一篇:一种一步式采集互联网数据的方法