一种航运及贸易数据的高频产品关键词及词组展示系统
技术领域
本发明涉及文本处理
技术领域
、自然语言处理技术领域
,尤其涉及一种航运及贸易数据的高频产品关键词及词组展示系统。背景技术
高频产品关键词及词组是基于产品名称的词或词组出现的次数,它能反映一个时间段内该产品的关注度及需求度。日更新的高频产品关键词及词组,对于国际贸易产业的研究有重要意义,有助于国家机关及相关企业,做出科学决策,精准施策。并且,对于贸易公司的产品竞争力的研究也有重要的帮助,也可以为更多投身于国际贸易的工作人员,在产品推销和市场开发上提供强有力的依据。
发明内容
根据上述提出的技术问题,而提供一种航运及贸易数据的高频产品关键词及词组展示系统。本发明采用的技术手段如下:
一种航运及贸易数据的高频产品关键词及词组展示系统,包括:
数据更新单元,在客户交付数据之后自动通过邮箱将非结构型的文本数据传递至系统中,并使用清洗单元对数据进行整理;
清洗单元,用于获取原始航运及贸易数据,并将获取的数据清洗,基于清洗后的数据构建基本数据库;
高频产品关键词及词组挖掘单元,用于对历史数据进行分词处理,进行词频统计并计算出权重,提取出高频产品关键词及词组作为词库,再对更新数据进行分词处理,留取名词和词组,进行词频统计,对比词库获取权重较大的词和词组,并作词频排序,基于权重和阈值的对比,筛选出结果;
存储单元,用于存储高频产品关键词及词组挖掘单元挖掘的关键词;
可视化单元,用于将关键词或词组以日、月、年为单位,绘制不同的可视化图形报表。
进一步地,获取的原始航运及贸易数据,将其非结构型数据转换成结构性数据利用SQL视图方法清洗数据。
进一步地,所述高频产品关键词及词组挖掘单元使用基于隐马尔科夫模型的词性标注获得最大概率词性,具体地,
使用基于隐马尔科夫模型的词性标注,对英文标注词性语料使用HMM模型得到一个HMM链:
获得HMM链对历史数据分词进行此行判断,获得最大概率词性,将名词性最大概率单词筛选出来并获得该词前后相关的词组。
一种航运及贸易数据的高频产品关键词及词组展示系统,包括如下步骤:
获取原始航运及贸易数据;
将获取的非结构型数据转换成结构性数据,利用SQL视图方法清洗数据,清洗后构建成基本数据库;
对历史数据进行分词处理,留取名词和词组,剔除停用词和无意义词;进行词频统计并计算出权重,提取出高频产品关键词及词组作为词库;再对更新数据进行分词处理,留取名词和词组,进行词频统计,对比词库获取权重较大的词和词组,并作词频排序,基于预设的阈值,筛选结果;
将输出的数据进行可视化处理。
进一步到,所述将输出的数据进行可视化处理前,还包括如下步骤:重新构造数据源为结构性数据和计算出的高频产品关键词及词组数据存储至sql server数据库,使用sql的视图进行规范性的清洗,重构数据库的数据存入hadoop分布式系统中,作为可视化网站的后台数据库。
本发明具有以下优点:
1、原始英文语料只是将文本内容通过空格分割的单词,其中没有词组,本发明通过隐马尔科夫模型的词性标注,获得最大概率词性,将名词性最大概率单词筛选出来并获得该词前后相关的词组,解决了名词性单词和名词性词组问题。
2、整体流程快速、高效,并且其可作为一个可扩展系统呈现,可嵌入系统使用,又可以单独使用,本发明可在数据分析领域广泛使用。
3、本发明首次在航运贸易数据挖掘出较有价值的有热度的词语信息并以可视化方式呈现出来,便于直观的展示。可视化的界面,有助于更容易清晰得看到日,月,年的产品热度趋势。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明流程框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明公开了一种航运及贸易数据的高频产品关键词及词组展示系统,包括如下步骤:
获取原始航运及贸易数据;将获取的非结构型数据转换成结构性数据,利用SQL视图方法清洗数据,清洗后构建成基本数据库,Sql视图方法具体操作是对现有的数据无用字段将其过滤掉,并将原有的数据中,公司名不规范的清洗成规范的。本实施例中,获取数据的步骤可为:航运提单数据的处理规则由海关提供,人工将文本数据发送至指定邮箱,使用自动化程序,自动接收数据至本地系统。
对历史数据进行分词处理,留取名词和词组,剔除停用词和无意义词;进行词频统计并计算出权重,提取出关键词及词组作为词库;再对更新数据进行分词处理,留取名词和词组,进行词频统计,对比词库获取权重较大的词和词组,并作词频排序,基于预设的阈值,筛选结果。
具体地,分词使用以空格为分词符号,对航运数据的产品描述进行分割成一个个词单词。使用基于隐马尔科夫模型的词性标注,对公开英文标注词性语料使用HMM模型得到一个HMM链。HMM是一种概率序列模型:给定一个单位序列(单词,字母,词素,句子等),它可以计算出概率分布可能的标签顺序,并选择最佳的标签顺序。其中使用的隐马尔科夫链:
将产品描述分割后的列表作为整体进行词性标注。
获得HMM链对现有的词语(历史数据分词)进行此行判断,获得最大概率词性,将名词性最大概率单词筛选出来并获得该词前后相关的词组。因航运数据的特殊性,有一些专业名词并不属于该语料能判断出来的。对于词频较高的单词且词性标注不出的单词,与筛选出词组频较高的词组进行,人工判断,并设其为专业名词性词组和名词性词库。
使用python里的nltk的分词技术,将每一记录条的产品描述都进行分词处理。词频权重的计算方式为词在历史词群占据比例。过滤的方法为在历史词群和当前词群筛选出名词,去除停用词和无意义词后,作词频排序,剔除掉词频较低的名词。无意义词的确定方法是,判断其是否包含产品名称,本实施例中,关于产品名称的词库是由大连瀚闻资讯数据库提供打过标签的词群数据库。根据筛选剩下的词和词组的词频来计算更新词群的权重并通过使用日权重汇总得到月度权重,使用月度权重汇总得到年度权重。根据当天词群排名情况,计算同比环比。根据筛选出的词频排序的权重在超过所设的阈值,筛选结果。
重新构造数据源为结构型数据并使用sql存储过程对数据进行规范性的清洗,将计算出高频产品关键词及词组数据存储至sql server数据库中,作为可视化网站的后台数据库。
将上述的数据进行可视化处理。可视化分为五部显示,第一是将日更新的高频产品关键词及词组以柱状的的形式呈现;第二是将过去九十天以内的高频产品关键词及词组波动数据以折线图的形式呈现,可自由选择三十日,六十日和九十日进行查看;第三是对高频产品关键词及词组的月度增长/下降率以柱状图的形式呈现;第四是对高频产品关键词及词组的月度环比增长/下降率以柱状图的形式呈现;第五是对热销品年度环比增长/下降率以柱状图的形式呈现。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。