一种基于大数据的政策采集、清洗及自动精准推送的方法
技术领域
本发明属于有计算机应用
技术领域
,尤其涉及一种基于大数据的政策采集、清洗及自动精准推送的方法。背景技术
企业的发展必须广泛的了解国家和地方以及行业协会的相应政策要求,这样才能遵守国家法律制度、了解行业运行规则、充分运用政策红利、做大做强企业主体、提升企业的市场竞争力,为企业发展保驾护航。
随着《优化营商环境条例》的正式实施,在政策服务方面明确指出了政府部门要不断完善政策措施,落实政策惠及企业、人才主体。虽然优惠政策种类繁多,但是各种政策相对分散、申报条件迥异、信息不对称等各种问题,让不少企业、人才错失好政策,不能获得真正的扶持,政策俨然成了摆设,使得企业、人才颇为失望。为完成政策服务的“最后一公里”,让更多的企业、人才获得政策红利,如何从海量的数据中,真正把政策红利释放出来,使得他们可以解决后顾之忧,让企业获得更多优惠、让人才安于创新、专于创业,成为信息技术处理领域重要的研究方向。
发明内容
本发明针对上述的政策的精准推送所存在的计算问题,提出一种设计合理、方法简单、操作方便且能够实现政策对相应企业实现精准推送的一种基于大数据的政策采集、清洗及自动精准推送的方法。
为了达到上述目的,本发明采用的技术方案为,本发明提供一种基于大数据的政策采集、清洗及自动精准推送的方法,包括以下有效步骤:
a、首先根据以往政府政策的内容提取关键词,构建关键词集,其中,所述关键词集包括主题关键词集和约束关键词集;
b、将政府的相关网站加入到初始地址URL种子集;
c、利用主题关键词集中的关键词形成主题爬虫,从初始地址URL种子集开始,分析爬行网页的主题相关度,将与主题相关的网页存储到数据库中;
d、分析数据库内网页的文本内容,根据约束关键词集内的关键词将含有关键词的句子提取出来;
e、根据约束关键词集对提取出来含有关键词的句子进行分析,获取关键约束属性集;
f、根据约束关键词集构建含有企业信息的企业推荐属性集;
g、将获取的关键约束属性集和企业推荐属性集进行一一比对,确定只有企业推荐属性集内的所有属性与关键约束属性集中的所有约束属性都匹配成功时,则将含有此关键约束属性集的网页推送给企业。
作为优选,所述c步骤,当网络爬虫对URL种子集内网页进行爬取时,先搜索完一个种子网页内所有连接,然后在搜索下一层所有链接,返回执行下下一层的搜索,直到最底层。
作为优选,所述d步骤中,包括以下有效步骤:
d1、首先选取适当的分隔符对网页的文本内容的句子分割成句子集P={S1,...SN},其中N为句子的总数;
d2、然后将每个句子进行分词,得到当前句子的分词集Si={wi1,....,wim},其中m为当前句子分词集的词语总数;
d3、根据公式:
Ass(k,Si)=|<wk|wk∈Si&wk∈k>|
其中,Ass(KW,Si)为关键词和当前句子的关联度;将含有关键词的句子提取出来。
作为优选,所述关键约束属性集和企业推荐属性集均包括属性名称和属性值。
作为优选,所述g步骤中,根据杜威十进制分类法的特征确定关键约束属性集和企业推荐属性集中企业所属的领域属性。
作为优选,根据杜威十进制分类法查找约束关键词集内以及企业推荐属性集内关键词的分类号,然后运用杜威十进制分类法的关键词号码的长度作为X轴,关键词分类号码作为Y轴,将关键约束属性集和企业推荐属性集内关键词对应的杜威十进制分类号码在二维坐标绘制相应的点,若企业推荐属性集内关键词所形成的点在关键约束属性集内关键词点的附近或重合,则判断领域属性匹配成功,若远离,则领域属性匹配不成功。
与现有技术相比,本发明的优点和积极效果在于,
1、本发明提供一种基于大数据的政策采集、清洗及自动精准推送的方法,根据政策文件的特性,整理出相应的关键词,然后,利用网络爬虫的爬取相关的政策文献并对政策文献的进行分析,结合企业的基本信息,形成信息匹配,进而实现对企业的政策精准推送,为企业解决最后一公里的问题,让更多的企业、人才获得政策红利。同时,本发明方法简单、操作方便,适合大规模推广使用。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合实施例对本发明做进一步说明。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用不同于在此描述的其他方式来实施,因此,本发明并不限于下面公开说明书的具体实施例的限制。
实施例1,本实施例提供一种基于大数据的政策采集、清洗及自动精准推送的方法
首先根据以往政府政策的内容提取关键词,构建关键词集,网站的抓取主要是利用网络爬虫来进行抓取,现有的网络爬虫有两种,一种是通用型的网络爬虫,一种是主题型的网络爬虫,相对于通用型的网络爬虫,主题型的网络爬虫的针对性更强,而主题型的网络爬虫就需要相应的主题,为此,在构建主题时,先根据政策以往发布的政策内容来确定主题,根据分析,针对申报类的政策而言,其在文本中都含有“申报条件”的要求,为此,“申报条件”可以作为关键词之一,另外,还有“高新技术企业”、“一企一技术”、“国家级知识产权示范中心”、“省级实验室”、“国家级实验室”等申报类的政策,此类名称都可以作为主题型网络爬虫爬取的主题词。
考虑到现有的文本摘要技术主要是通过词汇在文本中大量出现,来获取出相应的关键词,而申报类中申报条件中,所出现的词语一般都为一次性出现,为此,采用此类技术无法实现对政策的解读,为此,根据以往的政策的申报条件要求,可以将其形成关键词,这样,可以利用此类关键词,将需要的申报条件提取出来,为此,根据政府以往的政策文献的要求可以生成的关键词集就包括用于主题型网络爬虫搜索的主题关键词集以及用于实现对文献清洗解读、分析的约束关键词集。
由于政府的政策在发布后,在一些其他外网的网站上也可以看到类似的文献,这样,就导致主题型网络爬虫在根据主题爬取网站时会爬取过多的重复的文献,考虑到政府网站在发布相关政策要求时,仅会发布一次,那么将政府的相关网站加入到主题型网络爬虫爬取的初始地址URL种子集,就可以避免到大量重复文本的出现,进而省去了重复计算的过去,保留了带宽,为快速筛选提供了保障,考虑到申报类的政策往往有县级、市级、省级以及国家级的要求,为此,需要将此四级的相应政府网站全部加入到初始地址URL种子集,比如冠县科技局、聊城市科技局、山东省科学技术厅、中华人民共和国科学技术部等此类申报类政策网站。
然后,利用主题关键词集中的关键词形成主题爬虫,从初始地址URL种子集开始,分析爬行网页的主题相关度,将与主题相关的网页存储到数据库中,在本实施例中,考虑到政策的发布往往在政府网站的首先内进行显示,为此,为了避免爬行过多,在本实施例中,采用以下策略来进行爬取:
即当网络爬虫对URL种子集内网页进行爬取时,先搜索完一个种子网页内所有连接,然后在搜索下一层所有链接,待下一层所有链接搜索完成后,返回执行下下一层的搜索,直到最底层。简单的来说,假设政府网站A首页内链接有B、C、D三个链接,在B链接下面链接有E、F两个链接,在F下面链接有G链接,在C链接下面链接有H、I两个链接、D则是我们要求找的申报类政策链接,则主题型网络爬虫则按照A、B、C、D、E、F、H、I、G的顺序来进行搜索,这样搜索能够确保浅层页面的及时处理,从而保障政策文献的快速找到,而传统的搜索方式则是A、B、E、F、G、C、H、I、D的顺序来进行搜索,这样容易造成浅层网站被搜索的速度和几率降低。
将爬取出来的网站进行存储后,就需要对网页的文本进行解读,正如前面所说的那样,在一份正常文献中,申报要求所出现的词汇一般只会出现一次,而非多次出现,其一般出现更多的词语是主题关键词集的关键词,为此,为了更好的解读文献内的“申报条件”,在本实施例中,首先将原始的网页结构后,过滤掉其中的html标签、版本等信息,提取其中的正文文本信息,然后,选取适当的分隔符对网页的文本内容的句子分割成句子集P={S1,...SN},其中N为句子的总数。考虑到政策的相关文献中,其不会含有“?”、“!”等标点符号,为此,在本实施例中,以“。”为分隔符来进行分句。
然后将每个句子进行分词,分词采用现有的分词器来进行分词即可,目前,市场上常见的分词器有基于hash表的词典机制、基于TRIE索引树的词典机制以及基于python实现的基于Trie数结构的jieba分词,这三类分词器都可以满足分词的需要,为此采用哪种分词器都可以,在本实施例中,采取基于python实现的基于Trie数结构的jieba分词,这样,得到当前句子的分词集Si={wi1,....,wim},其中m为当前句子分词集的词语总数。
最后,根据公式:Ass(k,Si)=|<wk|wk∈Si&wk∈k>|其中,Ass(KW,Si)为关键词和当前句子的关联度,k则为约束关键词集,将含有关键词的句子提取出来,这样,将每个与约束关键词集内关键词有关联的句子提取出来,就会将一份政策文本中,关于申报条件的内容给提取出来,从而方便确认申报条件。
提取出来的申报条件就需要分析这些内容,目前,可以利用textrank关键词提取技术结合约束关键词集的关键词对提取出来含有关键词的句子进行分析,获取关键约束属性集,textrank根据设定约束关键词集的词语选择窗口截取文本的分词结果,将每个词语作为候选关键词图的节点,截取的每一段文本中的词语作为相邻的边,以此构建候选关键词图。然后,利用pagerank思想循环迭代候选关键词图,每个节点的权重初始化化为1.0f,通过设定的迭代次数达到稳定后,对节点权重进行倒序排序,从而得到最重要的num个单词,作为候选关键词。
也可以采用基于LDA结合D2V模型算法的来进行训练,以获取政策文本居中的关键约束属性集,在本实施例中,关键约束属性集是指在政策文献中含有属性名称和属性值的词语,比如,高新技术企业的申报条件中,其对财务的要求是保持销售收入以及企业总资产的增长性,那么他的属性名称就是销售收入,属性值则是近三年的增长幅度。
同样,本实施例的主要目的就是向符合申报条件的企业来进行推送相关的政策,那么,就需要对企业的基本信息来进行了解,为此,需要根据以往的政策即约束关键词集构建含有企业信息的企业推荐属性集,企业推荐属性集也是按照属性名称和属性值来进行设置。即企业推荐属性集包括若干个信息属性,每一个信息属性有形成一个集合,该集合内包括属性名称和属性值至少两个属性,当然,属性名称和属性值是两个最基本的,根据实时的需要,可以增加为数据类型、匹配阈值等属性。
由于在一些项目的申报中,限定了申报的领域,为此,企业是否符合申报领域也是关键的一票否决的问题,为此,根据国际上通用的杜威十进制分类法来确定约束属性集和企业推荐属性集中企业所属的领域属性,杜威十进制分类法是根据17世纪英国哲学家培根关于知识分类的思想,将人类知识分为记忆(历史)、想象(文艺)和理性(哲学、即科学)三大部分,并将其倒置排列,展开为10个大类,也是目前申报类政策文献常用的,这样,就可以判断企业的领域是否满足申报领域的要求,其具体操作如下:
首先,根据杜威十进制分类法查找约束关键词集内以及企业推荐属性集内关键词的分类号;
然后运用杜威十进制分类法的关键词号码的长度作为X轴,关键词分类号码作为Y轴,将关键约束属性集和企业推荐属性集内关键词对应的杜威十进制分类号码在二维坐标绘制相应的点,若企业推荐属性集内关键词所形成的点在关键约束属性集内关键词点的附近或重合,则判断领域属性匹配成功,若远离,则领域属性匹配不成功。这种分配方法能够避免与关键词无关点的噪音,提高预测企业领域与申报要求领域相关的准确度,为精准推荐提供了保障。
对申报条件进行解读后,就需要实现精准的推送,为此,在本实施例中,采用以下算法来进行精准推送:
首先将获取的关键约束属性集和企业推荐属性集进行一一比对,关键约束属性集是有若干个约束{C1,C2,...Cn}组成,同一类型的属性名称是唯一确定的,关键约束属性集的约束关系是并集关系,这样,只有企业推荐属性集内的所有属性与关键约束属性集中的所有约束属性都匹配成功时,该申报条件才可以满足,为此,则将含有此关键约束属性集的网页推送给企业即可。
通过上述的设置,有效实现了对申报类政策的准确推送,打通政策服务的“最后一公里”,让更多的企业、人才获得政策红利。
以上所述,仅是本发明的较佳实施例而已,并非是对本发明作其它形式的限制,任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例应用于其它领域,但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型,仍属于本发明技术方案的保护范围。