模型训练方法、主题推荐理由的获取方法及系统、电子设备
技术领域
本发明涉及模型训练领域,尤其涉及一种模型训练方法、主题推荐理由的获取方法及系统、电子设备。
背景技术
在旅游场景下,文本信息是旅游行业获取用户对产品的反馈,以及对反馈结果进行统计、分析、挑选并对外展示的重要资源之一。面对海量参差不齐的文本数据和井喷式的文本数量的增长,传统依靠人工审核、挑选文本数据选出旅游主题场景下的推荐理由的工作已经不能满足业务需求,通过人工挑选旅游主题的推荐理由耗费时间长且人工成本高,使旅游场景下景点特色内容的生产及投放效率降低。
发明内容
本发明要解决的技术问题是为了克服现有技术中旅游主题的推荐理由生成效率低,耗费时间和人工成本高的缺陷,提供一种模型训练方法、主题推荐理由的获取方法及系统、电子设备。
本发明是通过下述技术方案来解决上述技术问题:
一种模型训练方法,所述模型训练方法包括:
获取与旅游景点主题相关的文本数据;
对所述文本数据按照与旅游景点主题的相关程度以及内容优质程度进行标注;
根据标注后的文本数据建立训练数据集;
利用所述训练数据集对主题匹配模型进行第一次训练;
通过数据增强方法进行数据增强,并将增强后的数据增加至所述训练数据集;
利用包括有增强数据的所述训练数据集对所述主题模型进行第二次训练,训练完成的所述主题匹配模型用于接收输入的目标主题,生成与所述目标主题相对应的推荐理由。
较佳地,所述数据增强方法包括数据回译增强方法、通用数据增强方法、欠拟合数据增强方法中的至少一种;
所述数据回译增强方法具体包括以下步骤:
利用机器翻译技术将标注后的文本数据进行多轮翻译,并将标注后的文本数据最终翻译成中文的结果增加至所述训练数据集;和/或,
所述通用数据增强方法具体包括以下步骤:
获取内容优质的文本数据,所述内容优质的文本数据包括官方渠道提供的文本数据、从数据库中获取的文本数据中的至少一种;
通过荣誉度模式匹配方法、词法分析方法和句法分析方法对所述文本数据进行数据增强,筛选出满足荣誉度模式匹配方法、词法分析方法和句法分析方法的文本数据并增加至所述训练数据集中;和/或,
所述欠拟合数据增强方法具体包括以下步骤:
对所述主题匹配模型第一次训练后的结果进行问题分析,总结常见的错误类型和模板;
基于所述常见的错误类型和模板,构建相应的正则表达式;
基于所述正则表达式对无标注数据进行批量抽取,随机挑选数量满足预设的第一阈值的所述无标注数据作为负样本增加至所述训练数据集中。
较佳地,所述荣誉度模式匹配方法具体包括以下步骤:
根据期望的荣誉度模式配置相应的荣誉度正则表达式,通过计算所述文本数据匹配的荣誉度正则表达式的个数,根据匹配的荣誉度正则表达式的个数计算得出所述文本数据的荣誉度得分;
根据所述荣誉度得分筛选文本数据;
所述词法分析方法具体包括以下步骤:
通过词法分析工具对所述文本数据进行词语切分和词性标注;
基于词语切分和词性标注的结果,筛选出所述文本数据中的形容词、动词及名词部分,并利用word2vec(用来产生词向量的相关模型)无监督语义匹配过滤掉与旅游景点主题相关度差的所述文本数据;
判断过滤后的所述文本数据中包含的形容词数量是否少于设定的第二阈值,若少于,则剔除所述文本数据;
按照预先统计的词语IDF(逆文本频率指数)值,对筛选后的词语的TF(词频)进行加权求和,并输出所述词语的分数,并根据分数筛选文本数据;
所述句法分析方法具体包括以下步骤:
通过句法分析工具对所述文本数据进行句法结构解析,判断所述文本数据的主谓结构是否完整,若不完整,则剔除所述文本数据。
一种主题推荐理由的获取方法,所述获取方法包括以下步骤:
获取旅游主题的目标关键词;
通过主题匹配模型获取与所述目标关键词相关的原始文本数据,所述主题匹配通过所述的模型训练方法训练得到;
基于筛选方法对所述原始文本数据进行第一次筛选,筛选出情感正向的文本数据;
根据第一次筛选后的文本数据建立主题推荐理由的候选数据集;
基于word2vec对所述候选数据集进行第二次筛选,并计算所述文本数据与所述旅游主题下的标准文本数据的余弦相似度得分,剔除余弦相似度得分低于第三阈值的文本数据;
利用所述主题匹配模型对第二次筛选后的所述候选数据集进行模型预测,筛选出所述旅游主题下分数大于第四阈值的文本数据;
通过分数加权匹配方法对模型预测后的候选数据集进行分数加权,将分数排名靠前的文本数据作为所述旅游主题的推荐理由。
较佳地,所述筛选方法包括情感分类筛选方法、质量筛选方法、词法分析方法中的至少一种;
通过所述筛选方法筛选出满足所述情感分类筛选方法、所述质量筛选方法和所述词法分析方法的文本数据,并基于筛选后的文本数据建立主题推荐理由的候选数据集;
所述情感分类筛选方法用于从所述原始文本数据中筛选出情感正向的文本数据;
所述质量筛选方法用于过滤掉所述原始文本数据中出现频次较高、无意义的文本数据及剔除文本数据中部分噪音文本数据;
所述词法分析方法用于通过词法分析工具对文本数据进行词语切分和词性标注,筛选出所述文本数据中的形容词、动词及名词部分,过滤掉文本数据中形容词个数少于预设的第五阈值的文本数据。
较佳地,所述分数加权匹配方法包括荣誉度模式匹配方法和句长匹配方法中的至少一种;
所述通过分数加权匹配方法对模型预测后的候选数据集进行分数加权,将分数排名靠前的文本数据作为所述旅游主题的推荐理由的步骤具体包括以下步骤:
所述荣誉度模式匹配方法根据期望的荣誉度模式配置相应的荣誉度正则表达式,通过计算文本数据匹配的荣誉度正则表达式的个数,根据匹配的荣誉度正则表达式的个数计算得出所述文本数据的荣誉度得分;
所述句长匹配方法根据文本数据的文本字符串长度,计算文本数据的文本长度得分;
根据所述荣誉度得分的分数、所述文本长度得分的分数进行加权融合、排序,将分数排名靠前的文本数据作为所述旅游主题的推荐理由。
一种模型训练系统,所述模型训练系统包括:
获取模块,用于获取与旅游景点主题相关的文本数据;
标注模块,用于对所述文本数据按照与旅游景点主题的相关程度以及内容优质程度进行标注;
数据集模块,用于根据标注后的文本数据建立训练数据集;
训练模块,利用所述训练数据集对主题匹配模型进行第一次训练;
所述训练模块还用于通过数据增强方法进行数据增强,并将增强后的数据增加至所述训练数据集;
所述训练模块还用于利用包括有增强数据的所述训练数据集对所述主题模型进行第二次训练,训练完成的所述主题匹配模型用于接收输入的目标主题,生成与所述目标主题相对应的推荐理由。
较佳地,所述训练模块中包括数据增强模块;
所述数据增强模块包括数据回译模块、通用数据模块、欠拟合模块中的至少一种;
所述数据回译模块用于利用机器翻译技术将标注后的文本数据进行多轮翻译,并将标注后的文本数据最终翻译成中文的结果增加至所述训练数据集;和/或,
所述通用数据模块用于获取内容优质的文本数据,所述内容优质的文本数据包括官方渠道提供的文本数据、从数据库中获取的文本数据中的至少一种;
所述通用数据模块用于通过荣誉度模式匹配方法、词法分析方法和句法分析方法对所述文本数据进行数据增强,筛选出满足荣誉度模式匹配方法、词法分析方法和句法分析方法的文本数据并增加至所述训练数据集中;和/或,
所述欠拟合模块用于对所述主题匹配模型第一次训练后的结果进行问题分析,总结常见的错误类型和模板;
所述欠拟合模块基于所述常见的错误类型和模板,构建相应的正则表达式;
所述欠拟合模块基于所述正则表达式对无标注数据进行批量抽取,随机挑选数量满足预设的第一阈值的所述无标注数据作为负样本增加至所述训练数据集中。
较佳地,所述通用数据模块包括荣誉度匹配模块、词法分析模块和句法分析模块;
所述荣誉度匹配模块用于根据期望的荣誉度模式配置相应的荣誉度正则表达式,通过计算所述文本数据匹配的荣誉度正则表达式的个数,根据匹配的荣誉度正则表达式的个数计算得出所述文本数据的荣誉度得分;
根据所述荣誉度得分筛选文本数据;
所述词法分析模块用于通过词法分析工具对所述文本数据进行词语切分和词性标注;
基于词语切分和词性标注的结果,筛选出所述文本数据中的形容词、动词及名词部分,并利用word2vec无监督语义匹配过滤掉与旅游景点主题相关度差的所述文本数据;
判断过滤后的所述文本数据中包含的形容词数量是否少于设定的第二阈值,若少于,则剔除所述文本数据;
按照预先统计的词语IDF值,对筛选后的词语的TF进行加权求和,并输出所述词语的分数,并根据分数筛选文本数据;
所述句法分析模块用于通过句法分析工具对所述文本数据进行句法结构解析,判断所述文本数据的主谓结构是否完整,若不完整,则剔除所述文本数据。
一种主题推荐理由的获取系统,所述系统包括:
获取模块,用于获取旅游主题的目标关键词;
所述获取模块还用于通过主题匹配模型获取与所述目标关键词相关的原始文本数据,所述主题匹配模型通过所述的模型训练方法训练得到;
筛选模块,用于基于筛选方法对所述原始文本数据进行第一次筛选,筛选出情感正向的文本数据;
数据集模块,用于根据第一次筛选后的文本数据建立主题推荐理由的候选数据集;
所述筛选模块还用于基于word2vec对所述候选数据集进行第二次筛选,并计算所述文本数据与所述旅游主题下的标准文本数据的余弦相似度得分,剔除余弦相似度得分低于第三阈值的文本数据;
模型预测模块,用于利用所述主题匹配模型对第二次筛选后的所述候选数据集进行模型预测,筛选出所述旅游主题下分数大于第四阈值的文本数据;
主题推荐模块,用于通过分数加权匹配方法对模型预测后的候选数据集进行分数加权,将分数排名靠前的文本数据作为所述旅游主题的推荐理由。
较佳地,所述筛选模块包括情感筛选模块、质量筛选模块、词法分析模块中的至少一种;
通过所述情感筛选模块、所述质量筛选模块和所述词法分析模块筛选出满足所述情感筛选模块、所述质量筛选模块和所述词法分析模块的文本数据,并基于筛选后的文本数据建立主题推荐理由的候选数据集;
所述情感筛选模块用于从所述原始文本数据中筛选出情感正向的文本数据;
所述质量筛选模块用于过滤掉所述原始文本数据中出现频次较高、无意义的文本数据及剔除文本数据中部分噪音文本数据;
所述词法分析模块用于通过词法分析工具对文本数据进行词语切分和词性标注,筛选出所述文本数据中的形容词、动词及名词部分,过滤掉文本数据中形容词个数少于预设的第五阈值的文本数据。
较佳地,所述主题推荐模块包括分数加权模块,所述分数加权模块还包括句长模块、荣誉度匹配模块中的至少一种;
所述荣誉度匹配模块用于根据期望的荣誉度模式配置相应的荣誉度正则表达式,通过计算文本数据匹配的荣誉度正则表达式的个数,根据匹配的荣誉度正则表达式的个数计算得出所述文本数据的荣誉度得分;
所述句长模块用于根据文本数据的文本字符串长度,计算文本数据的文本长度得分;
所述主题推荐模块还用于根据所述荣誉度得分的分数、所述文本长度得分的分数进行加权融合、排序,将分数排名靠前的文本数据作为所述旅游主题的推荐理由。
一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述的模型训练方法或所述的主题推荐理由的获取方法。
一种计算机可读介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述的模型训练方法或所述的主题推荐理由的获取方法。
本发明的积极进步效果在于:通过获取与旅游景点主题相关的文本数据,按照与旅游景点主题的相关程度以及内容优质程度对文本数据进行标注,根据标注的后的文本数据建立训练数据集,利用训练数据集对主题匹配模型进行第一次训练,通过数据增强方法进行数据增强,将增强的数据增加至训练数据集,利用训练包括有增强数据的训练数据集对主题匹配模型进行第二次训练,第二次训练后及训练完成,利用训练完成的主题匹配模型用于接收输入的目标主题,生成与目标主题相对应的推荐理由,不需要通过人工筛选与旅游景点主题对应的推荐理由,提高了推荐理由的生成效率,降低了时间和人工成本。
附图说明
图1为本发明实施例1的模型训练方法的流程图。
图2为本发明实施例2的主题推荐理由的获取方法流程图。
图3为本发明实施例3的模型训练系统的模块示意图。
图4为本发明实施例4的主题推荐理由的获取系统的模块示意图。
图5为本发明实施例5的电子设备结构示意图。
具体实施方式
下面通过实施例的方式进一步说明本发明,但并不因此将本发明限制在所述的实施例范围之中。
实施例1
本实施例提供一种模型训练方法,本实施例中用于训练的初始模型是预训练模型,通过对预训练模型进行针对性配置和训练,形成目标训练模型,即主题匹配模型,如图1所示,模型训练方法包括以下步骤:
S1、获取与旅游景点主题相关的文本数据。
拟定一个旅游景点主题,用于训练,通过获取与旅游景点主题相关的文本数据,可从自有数据库获取文本数据,也可以使用官方的数据,或者可以自编数据等,文本数据可以包含用户评论、评述、文章或短文等数据,文本数据需要与拟定的旅游景点主题相关,主题相关根据旅游主题不同,定义有所区别,若旅游景点主题是江河湖、樱花等实物类主题,则要求文本数据描述核心是该实物、或文本的绝大部分是对该实物的具体描述,举例说明:拟定的旅游景点主题是江河湖,文本数据是锦江公园绿茵覆盖,花团锦簇,该文本数据中描述的内容是锦江公园,描述的内容不是江河湖,与拟定的旅游景点主题江河湖不相关;若文本数据是长江是世界水能第一大河,第三长河,亚洲第一长河,该文本数据中描述的内容是长江,与江河湖主题相关,即该文本数据与旅游景点主题相关。
若旅游景点主题是徒步、缆车等抽象类主题,则要求文本数据描述的核心是该主题下的体验或对该主题的独特性的描述,例如在徒步、乘坐缆车时的感觉、能够看到的独特的风景,或说明该徒步道、缆车的特点,举例说明:拟定的主题是步道、缆车,文本数据是上海十大徒步道之一/中国最长高通索道,文本数据上海十大徒步道之一中描述了上海步道的排名,及步道的相关特点,中国最长索道,也是索道的特点描述,描述的内容都与主题相关。
S2、对文本数据按照与旅游景点主题的相关程度以及内容优质程度进行标注。
为了保证模型的训练效果优秀,需要对获取的与旅游景点主题相关的文本数据进行标注,标注的原则是与旅游景点主题的相关程度和内容优质程度,数据标注是通过人工进行标注的,通过标注后的数据建立用于训练的训练数据集,现优选的方式是通过人工对文本数据进行标注,也可以通过模型实现,在此不做描述。具体的标注方式是,若文本数据同时满足与旅游景点主题相关且内容优质两个标准,则对该文本数据标注1,若文本数据只满足与旅游景点主题相关或内容优质其中一个标准或者两个标准都不满足,则对该文本数据标注0,与旅游景点主题相关的释义在步骤S1中已说明,在此不再进行赘述。
与内容优质程度是指文本数据描述的内容是否优质,即是否是过于白话的文本、是否包含比较多的细节、特点和客观描述,举例说明:“八重岳山是日本樱花最早盛开的地方之一,山顶山腰山路两旁有7000多棵寒绯樱”就是优质内容,八重岳山是日本樱花最早盛开的地方之一是客观描述,山顶山腰山路两旁有7000多棵寒绯樱是细节描述,所以该文本数据是优质内容,内容优质程度较高,而“河两边的樱花树绽放出美丽的樱花,如此的景色让人如痴如醉”就是非优质内容,该文本数据的内容仅包含用户在赏樱花后的个人主观感受,没有突出与八重岳山的樱花无有直接联系,看完其它樱花也会有这样的体验,没有与八重岳山相关的细节、特点和客观的描写,该文本数据与旅游景点主题不是直接相关,内容优质程度较低。
S3、根据标注后的文本数据建立训练数据集。
对文本数据标注后,根据标注数据建立与旅游景点主题相关的训练数据集,训练数据集中的训练数据的格式优选为:主题+一条文本数据+0/1(数据标注结果),文本数据在本实施例中优选为文本字数在30-150字,文本数据的字数可根据旅游景点主题不同而进行设置,在此不作限定,以之前提到的结果为例,说明训练数据集中的数据格式,例如:[赏樱,“八重岳山是日本樱花最早盛开的地方之一,山顶山腰山路两旁有7000多棵寒绯樱”,1]和[赏樱,“河两边的樱花树绽放出美丽的樱花,如此的景色让人如痴如醉”,0]就是训练集的两条文本数据范例。
S4、利用训练数据集对主题匹配模型进行第一次训练。
在训练数据集建立完成后,基于建立好的训练数据集和分层学习率的Adam优化器,分层学习率指随着模型层数由深到浅,学习率依次指数衰减,Adam优化器是一种一阶梯度下降算法,用于训练主题匹配模型,训练的初始模型是预训练模型,待主题匹配模型第一次训练完成后,根据训练完成后的主题匹配模型在开放域测试效果,因为标注数据较少,且在真实数据、场景下测试的训练效果,是指对主题匹配模型基于真实场景、数据下的预测结果进行人工抽检,及错误问题分析,后进行数据增强,但也可以先进行数据增强,数据增强后继续对主题匹配模型进行训练,本实施例优选采用的是,先对主题匹配模型通过训练数据集中的数据进行第一次训练,根据训练后的结果进行总结分析,然后在进行数据增强,以保证后续训练的效果。
S5、通过数据增强方法进行数据增强,并将增强后的数据增加至训练数据集。
进行数据增强后,增强的数据包括原始文本数据、未标注的文本数据及训练集中的文本数据,将增强的数据增加至训练数据集中,通过带有增强数据和未增强的数据对主题匹配模型再次进行训练。
数据增强方法包括数据回译增强方法、通用数据增强方法、欠拟合数据增强方法中的至少一种,也可以使用其它方法进行数据增强,本实施例优选数据回译增强方法、通用数据增强方法、欠拟合数据增强方法中的至少一种,在此不作限定。
数据回译增强方法具体包括以下步骤:
利用机器翻译技术将标注后的文本数据进行多轮翻译,并将标注后的文本数据最终翻译成中文的结果增加至训练数据集。
通用数据增强方法具体包括以下步骤:
获取内容优质的文本数据,内容优质的文本数据包括官方渠道提供的文本数据、从数据库中获取的文本数据中的至少一种。优质数据源即真实数据源,真实用户数据来源包括用户评论、商家/公司提供的官方介绍、用户发布的旅拍文章等,在此不作限定,不同数据源的数据质量有所区别,一般来说,官方提供的数据描述更加正规规范、内容充实;用户评论质量较差,包含较多的噪音,经常出现文本没有信息含量、文本描述内容和景点无关的现象,增强时使用更加优质的数据来源,能够提高数据的置信度或可用程度。
通过荣誉度模式匹配方法、词法分析方法和句法分析方法对文本数据进行数据增强,筛选出满足荣誉度模式匹配方法、词法分析方法和句法分析方法的文本数据并增加至训练数据集中。
通用数据增强方法需要满足三个筛选条件,即需要文本数据同时满足荣誉度模式匹配方法、词法分析方法和句法分析方法的筛选,才能保留,若其中一个不满足则过滤掉,荣誉度模式匹配方法、词法分析方法和句法分析方法的筛选数据的顺序不作限定。
具体地,荣誉度模式匹配方法具体包括以下步骤:
根据期望的荣誉度模式配置相应的荣誉度正则表达式,例如,最模式:故宫是世界最大的木质结构宫殿;第n模式:这里是亚洲第一湿地公园,树木众多,植被丰富,溪水长流;著名称谓模式:莫日格勒河被誉为“天下第一曲水”,获取或者给定一条文本数据时,通过计算文本数据匹配的荣誉度正则表达式的个数,给定的文本数据命中正则表达式的次数越多,得分越高,将统计命中的结果进行归一化处理,将该文本数据的分数限制在0-1,此分数限制为本实施例优选的阈值限制,可根据不同的旅游景点主题进行相对应的设置,例如,若总共有20个正则表达式,该文本数据命中了10个,该文本数据的得分就是10/20=0.5,得出的分数用于增强数据分数加权或者进行分数加权融合后,根据分数加权融合的排序生成推荐理由;
根据匹配的荣誉度正则表达式的个数计算得出文本数据的荣誉度得分;根据荣誉度得分筛选文本数据。
词法分析方法具体包括以下步骤:
通过词法分析工具对所述文本数据进行词语切分和词性标注;给定一条文本数据时,通过词法分析工具(开源)对文本数据进行词语切分以及词性标注。
基于词语切分和词性标注的结果,筛选出文本数据中的形容词、动词及名词部分,并利用word2vec无监督语义匹配过滤掉与旅游景点主题相关程度较差的文本数据;
判断过滤后的所述文本数据中包含的形容词数量是否少于设定的第二阈值,若少于,则剔除所述文本数据;
按照预先统计的词语IDF(逆文本频率指数)值,对筛选后的词语的TF(词频)进行加权求和,并输出所述词语的分数,并根据分数筛选文本数据;最终的分数用以区分常见词/白话词/优质词/罕见词,例如,文本数据是“风景好漂亮,太好看了,美美美”,该文本数据通过筛选及加权,‘漂亮’/‘美美美’/‘好看’的得分就会相对较低,若文本数据中包括“‘海天一色’/‘幽静’/‘草长莺飞’”等词,则该文本数据通过筛选及加权,得分相对较高,该文本数据让用户看起来更加有吸引力。
句法分析方法具体包括以下步骤:
通过句法分析工具对文本数据进行句法结构解析,判断文本数据的主谓结构是否完整,若不完整,则剔除所述文本数据。
欠拟合数据增强方法具体包括以下步骤:
对主题匹配模型第一次训练后的结果进行问题分析,总结常见的错误类型和模板;
基于常见的错误类型和模板,构建相应的正则表达式;
基于正则表达式对无标注数据进行批量抽取,随机挑选数量满足预设的第一阈值的无标注数据作为负样本增加至所述训练数据集中。本实施例优选的是随机挑选10-50条左右的文本数据加入到训练数据集中用于训练,挑选的文本数据的条数在此不做限定,可根据不同的旅游景点主题进行选择。
在具体应用中,可选择上述三种数据增强方法即数据回译增强方法、通用数据增强方法或欠拟合数据增强方法中的任意一种,若同时使用上述三种数据增强方法,则在本实施例中不规定其使用的先后顺序,根据不同的旅游景点主题进行选择使用即可。
S6、利用包括有增强数据的训练数据集对主题匹配模型进行第二次训练,训练完成的主题匹配模型用于接收输入的目标主题,生成与目标主题相对应的推荐理由。
通过包括有增强数据的训练数据集对主题匹配模型进行再次训练,待主题匹配模型在训练数据集上的损失趋于收敛,则表示主题匹配模型训练完成,可以进行使用,主题匹配模型训练好后,就可以使用主题匹配模型生成与旅游景点主题相关的推荐理由,先输入与目标旅游景点主题,通过主题匹配模型可以生成与目标主题相对应的推荐理由,提高了推荐理由的生成效率,降低了人工和时间成本。
本实施例提供了一种模型训练方法,通过获取与旅游景点主题相关的文本数据,文本数据为用户对该旅游景点主题的评论、评述或者写的文章等,进而对获取的文本数据进行标注,标注的条件是按照与旅游景点主题相关程度和内容优质程度进行标注,标注的形式是,若文本数据同时满足与旅游景点主题相关且内容优质程度较高,则对该文本数据标注1,若仅满足一个条件或两个都不满足,则对该文本数据标注0,根据标注后的文本数据建立训练数据集,利用训练数据集对主题匹配模型进行第一次训练,对主题匹配模型进行训练是基于封层学习率Adam优化器进行训练,因为标注较少,且根据第一次训练后的问题进行总结分析,进行数据增强,将增强后的数据增加至训练数据集中,根据带有增强数据的训练数据集对主题匹配模型进行第二次训练,待主题匹配模型在训练数据集上的损失趋于收敛,表示主题匹配模型训练完成,可以进行使用,训练完成的主题匹配模型用于接收输入的目标主题,即旅游景点主题,主题匹配模型可快速生成与目标主题相对应的推荐理由,从海量参差不齐的文本数据中自动抽取不同主题维度的优质推荐理由,生成的推荐理由角度广,更细节化且质量高,提高了推荐理由的生成效率,节省了人工和时间成本,方便用户快速了解景点各方面的特色,方便用户作选择。
实施例2
本实施例提供一种主题推荐理由的获取方法,本实施例中的主题匹配模型通过实施例1提供的一种模型训练方法训练得到,如图2所示,主题推荐理由的获取方法包括以下步骤:
S11、获取旅游主题的目标关键词。
在主题匹配模型的使用过程中,用户可给定一个旅游主题的目标关键词,主题匹配模型获取到目标关键词,会根据目标关键词获取与目标关键词对应的文本数据,文本数据包括用户评论、评述、短文或者文章等数据。
S12、通过主题匹配模型获取与所述目标关键词相关的原始文本数据。
主题匹配模型通过实施例1提供的一种模型训练方法训练得到,主题匹配模型根据获取到的目标关键词,获取与目标关键词相关的原始文本数据,原始文本数据可以使原始用户评论、文章等内容化素材,可以批量获取文本数据,也可以不分批次进行获取,根据实际需要进行设置。
S13、基于筛选方法对所述原始文本数据进行第一次筛选,筛选出情感正向的文本数据。
主题匹配模型根据目标关键词批量获取原始文本数据后,基于筛选方法对原始文本数据进行第一次筛选,具体地,筛选方法包括情感分类筛选方法、质量筛选方法、词法分析方法中的至少一种。
通过筛选方法筛选出满足情感分类筛选方法、质量筛选方法和词法分析方法的文本数据,并基于筛选后的文本数据建立主题推荐理由的候选数据集。
情感分类筛选方法用于从原始文本数据中筛选出情感正向的文本数据;情感正向即表示用户的评论或评述的文章的情感是积极的、带有正面感情色彩的,例如,带有喜欢/开心/期待等词语的文本数据,属于情感正向的文本数据。
质量筛选方法用于过滤掉原始文本数据中出现频次较高、无意义的文本数据及剔除文本数据中部分噪音文本数据;
出现频次较高数据即具备一定规律性的数据,指一些出现次数较多的文本数据,且该类文本数据能够用一个统一的正则表达式表示,就是指具备规律性,举例说明:比方说,到此一游/到这里一游/王某到此一游/到此地一游/到此地打卡,可以总结为一个统一的文本模式(正则表达式),从而进行统一过滤。
无意义的文本数据是指“哈哈哈哈哈、呵呵呵呵呵呵、门票100或者aoghohhg”等数据,该类数据是一个字在文本数据中出现多次,且没有出现对目标关键词的描述,没有可使用的内容,举例说明:不包含中文、英文的文本,字词重复过高的文本(文本很长,但是去重后保留的字、词种类很少),某些固定、不会成为推荐理由的文本数据,例如,到此一游、门票10、开放时间13.00、过长或过短的文本,具体过长或过短的文本阈值可根据实际需要进行设置,但是某一个数据中出现到此一游,例如:我到此一游/我今天终于到此一游啦,这样的数据则命中,需要剔除,若一个数据中无意义词语仅占一个数据的相当少的一部分,则保留,例如:净慈寺原名“永明禅院”是杭州四大古刹之一,在南屏山慧日峰下,依山而建,背靠翠峦,面对碧波,梵宇层叠,宏伟庄严,我终于到此一游,则该数据不会命中,因为无意义词语“到此一游”只是该句子相当少的一部分。
噪音文本数据是指某一文本数据中包含表情符号或者非法字符或者由于数据解析出错产生的html代码等,若文本数据中包含所述内容,则将文本数据中的噪音内容剔除,保留其余内容。
词法分析方法用于通过词法分析工具对文本数据进行词语切分和词性标注,筛选出所述文本数据中的形容词、动词及名词部分,过滤掉文本数据中形容词个数少于预设的第五阈值的文本数据;经过词法分析后,如果文本数据中的形容词个数少于阈值,则认为该文本数据不通过筛选,本实施例中的阈值优选设置为三个,词法分析中对各种词性的词,按照TF-IDF值加权求和,得到词性分数。
S14、根据第一次筛选后的文本数据建立主题推荐理由的候选数据集。主题匹配模型通过筛选方法对原始文本数据进行筛选后,基于筛选出来的文本数据可建立主题推荐理由的候选数据集,候选数据集中的数据为文本质量较高且情感正向的文本数据。
S15、基于word2vec对所述候选数据集进行第二次筛选,并计算所述文本数据与所述旅游主题下的标准文本数据的余弦相似度得分,剔除余弦相似度得分低于第三阈值的文本数据。
对获取的原始文本数据通过筛选方法进行筛选后,对筛选后的数据在通过word2vec的无监督匹配方式进行第二次筛选,具体地,利用word2vec计算文本数据的相似度得分,得分区间设置为0-1之间,此区间可根据实际情况进行调整,相似度得分的相似度是指:待筛选的文本数据和预先筛选的若干个标准文本之间的语义向量的平均余弦相似度,将标准文本转化成稠密向量(有多个文本就取多个文本的向量的平均值),计算向量和文本向量的余弦相似度,根据语义向量的平均余弦相似度进行打分,并给得分卡阈值,低于阈值就是不相关或相关度较低的,剔除掉分数低于阈值的文本数据。
S16、利用所述主题匹配模型对第二次筛选后的所述候选数据集进行模型预测,筛选出所述旅游主题下分数大于第四阈值的文本数据。
通过word2vec筛选出的文本数据,需要通过主题匹配模型对筛选出的文本数据进行模型预测打分,保留分数大于阈值以上的文本数据,该部分文本数据为与目标关键词相关性高、内容优质的推荐理由的集合。阈值本实施例优选设置为0.5,可根据具体需要进行设置,在此不作限定。
S17、通过分数加权匹配方法对模型预测后的候选数据集进行分数加权,将分数排名靠前的文本数据作为所述旅游主题的推荐理由。
分数加权匹配方法包括荣誉度模式匹配方法、句长匹配方法中的至少一种;
步骤S17、通过分数加权匹配方法对模型预测后的候选数据集进行分数加权,将分数排名靠前的文本数据作为所述旅游主题的推荐理由的步骤具体包括以下步骤:
S17-1、荣誉度模式匹配方法根据期望的荣誉度模式配置相应的荣誉度正则表达式,通过计算文本数据匹配的荣誉度正则表达式的个数,根据匹配的荣誉度正则表达式的个数计算得出所述文本数据的荣誉度得分;
根据期望的荣誉度模式配置相应的荣誉度正则表达式,例如,最模式:故宫是世界最大的木质结构宫殿;第n模式:这里是亚洲第一湿地公园,树木众多,植被丰富,溪水长流;著名称谓模式:莫日格勒河被誉为“天下第一曲水”,获取或者给定一条文本数据时,通过计算文本数据匹配的荣誉度正则表达式的个数,给定的文本数据命中正则表达式的次数越多,得分越高,将统计命中的结果进行归一化处理,将该文本数据的分数限制在0-1,此分数限制为本实施例优选的阈值限制,可根据不同的旅游景点主题进行相对应的设置,例如,若总共有20个正则表达式,该文本数据命中了10个,该文本数据的得分就是10/20=0.5。
根据匹配的荣誉度正则表达式的个数计算得出文本数据的荣誉度得分;根据荣誉度得分筛选文本数据
S17-2、句长匹配方法根据文本数据的文本字符串长度,计算文本数据的文本长度得分;例如,文本长度在30左右时,得分为1,否则在0-1之间,文本长度可以根据需要进行动态调整,文本长度分数会与其它分数进行加权,得出最终得分,用以对句长做软调控。
S17-3、根据荣誉度得分的分数、文本长度得分的分数进行加权融合、排序,将分数排名靠前的文本数据作为所述旅游主题的推荐理由。
本实施例通过提供一种主题推荐理由的获取方法,先获取旅游主题的目标关键词,根据目标关键词获取或者召回与目标关键词相关的原始文本数据,主题匹配模型通过实施例1提供的模型训练方法训练得出,通过筛选方法对原始文本数据进行第一次筛选,筛选方法包括情感分类筛选方法、质量筛选方法或词法分析方法,通过筛选方法筛选出质量较高、情感正向的文本数据,基于筛选方法筛选出的文本数据建立主题推荐理由的候选数据集,然后主题匹配模型基于word2vec对第一次筛选后文本数据进行第二次筛选,并计算文本数据与旅游主题下的标准文本数据的余弦相似度得分,剔除余弦相似度得分低于第三阈值的文本数据,利用主题匹配模型对第二次筛选后的候选数据集进行模型预测,筛选出旅游主题下分数大于第四阈值的文本数据,通过荣誉度模式匹配方法、句长匹配方法计算出文本数据的荣誉度得分和句长得分,对荣誉度得分和句长得分进行加权融合并排序,将排名靠前的文本数据作为旅游主题的推荐理由,通过实施例1提供的一种模型训练方法训练得出的主题匹配模型,可根据获取的目标关键词生成与目标关键词对应的推荐理由,生成推荐理由的效率高,降低了人工和时间成本,便于用户能够从多维度了解旅游景点的特色,从而进一步地吸引用户,便于用户做选择。
实施例3
本实施例提供一种模型训练系统,如图3所示,模型训练系统包括:
获取模块1,用于获取与旅游景点主题相关的文本数据。
拟定一个旅游景点主题,用于训练,获取模块1通过获取与旅游景点主题相关的文本数据,可从自有数据库获取文本数据,也可以使用官方的数据,或者可以自编数据等,文本数据可以包含用户评论、评述、文章或短文等数据,文本数据需要与拟定的旅游景点主题相关,主题相关根据旅游主题不同,定义有所区别,若旅游景点主题是江河湖、樱花等实物类主题,则要求文本数据描述核心是该实物、或文本的绝大部分是对该实物的具体描述,举例说明:拟定的旅游景点主题是江河湖,文本数据是锦江公园绿茵覆盖,花团锦簇,该文本数据中描述的内容是锦江公园,描述的内容不是江河湖,与拟定的旅游景点主题江河湖不相关;若文本数据是长江是世界水能第一大河,第三长河,亚洲第一长河,该文本数据中描述的内容是长江,与江河湖主题相关,即该文本数据与旅游景点主题相关。
若旅游景点主题是徒步、缆车等抽象类主题,则要求文本数据描述的核心是该主题下的体验或对该主题的独特性的描述,例如在徒步、乘坐缆车时的感觉、能够看到的独特的风景,或说明该徒步道、缆车的特点,举例说明:拟定的主题是步道、缆车,文本数据是上海十大徒步道之一/中国最长高通索道,文本数据上海十大徒步道之一中描述了上海步道的排名,及步道的相关特点,中国最长索道,也是索道的特点描述,描述的内容都与主题相关。
标注模块2,用于对所述文本数据按照与旅游景点主题的相关程度以及内容优质程度进行标注。
为了保证模型的训练效果优秀,需要对获取的与旅游景点主题相关的文本数据进行标注,标注的原则是与旅游景点主题的相关程度和内容优质程度,数据标注是通过人工进行标注的,通过标注后的数据建立用于训练的训练数据集,现优选的方式是人工通过标注模块2对文本数据进行标注。具体的标注方式是,若文本数据同时满足与旅游景点主题相关且内容优质两个标准,则对该文本数据标注1,若文本数据只满足与旅游景点主题相关或内容优质其中一个标准,则对该文本数据标注0,与旅游景点主题相关的释义在获取模块1获取与旅游景点主题相关的部分已说明,在此不再进行赘述。
与内容优质程度是指文本数据描述的内容是否优质,即是否是过于白话的文本、是否包含比较多的细节、特点和客观描述,举例说明:“八重岳山是日本樱花最早盛开的地方之一,山顶山腰山路两旁有7000多棵寒绯樱”就是优质内容,八重岳山是日本樱花最早盛开的地方之一是客观描述,山顶山腰山路两旁有7000多棵寒绯樱是细节描述,所以该文本数据是优质内容,内容优质程度较高,而“河两边的樱花树绽放出美丽的樱花,如此的景色让人如痴如醉”就是非优质内容,该文本数据的内容仅包含用户在赏樱花后的个人主观感受,没有突出与八重岳山的樱花无有直接联系,看完其它樱花也会有这样的体验,没有与八重岳山相关的细节、特点和客观的描写,该文本数据与旅游景点主题不是直接相关,内容优质程度较低。
数据集模块3,用于根据标注后的文本数据建立训练数据集。
对文本数据标注后,根据标注数据建立与旅游景点主题相关的训练数据集,训练数据集中的训练数据的格式优选为:主题+一条文本数据+0/1(数据标注结果),文本数据在本实施例中优选为文本字数在30-150字,文本数据的字数可根据旅游景点主题不同而进行设置,在此不作限定,以之前提到的结果为例,说明训练数据集中的数据格式,例如:[赏樱,“八重岳山是日本樱花最早盛开的地方之一,山顶山腰山路两旁有7000多棵寒绯樱”,1]和[赏樱,“河两边的樱花树绽放出美丽的樱花,如此的景色让人如痴如醉”,0]是训练集的两条文本数据范例。
训练模块4,利用所述训练数据集对主题匹配模型进行第一次训练。
在训练数据集建立完成后,基于建立好的训练数据集和分层学习率的Adam优化器,分层学习率指随着模型层数由深到浅,学习率依次指数衰减,Adam优化器是一种一阶梯度下降算法,用于训练主题匹配模型,训练的初始模型是预训练模型,待主题匹配模型第一次训练完成后,根据训练完成后的主题匹配模型在开放域测试效果,因为标注数据较少,且在真实数据、场景下测试的训练效果,是指对主题匹配模型基于真实场景、数据下的预测结果进行人工抽检,及错误问题分析,后进行数据增强,但也可以先进行数据增强,数据增强后继续对主题匹配模型进行训练,本实施例优选采用的是,先对主题匹配模型通过训练数据集中的数据进行第一次训练,根据训练后的结果进行总结分析,然后在进行数据增强,以保证后续训练的效果。
训练模块4还用于通过数据增强方法数据进行数据增强,并将增强后的数据增加至所述训练数据集。
进行数据增强后,将增强的数据增加至训练数据集中,通过带有增强数据和未增强的数据对主题匹配模型再次进行训练。
训练模块4还包括数据增强模块5,数据增强模块5包括数据回译模块51、通用数据模块52、欠拟合模块53中的至少一种。也可以使用其它数据增强模块进行数据增强,本实施例优选数据回译模块51、通用数据模块52、欠拟合模块53中的至少一种,在此不作限定。
数据回译模块51用于利用机器翻译技术将标注后的文本数据进行多轮翻译,并将标注后的文本数据最终翻译成中文的结果增加至训练数据集。
通用数据模块52用于:
获取内容优质的文本数据,内容优质的文本数据包括官方渠道提供的文本数据、从数据库中获取的文本数据中的至少一种。优质数据源即真实数据源,真实用户数据来源包括用户评论、商家/公司提供的官方介绍、用户发布的旅拍文章等,在此不作限定,不同数据源的数据质量有所区别,一般来说,官方提供的数据描述更加正规规范、内容充实;用户评论质量较差,包含较多的噪音,经常出现文本没有信息含量、文本描述内容和景点无关的现象,增强时使用更加优质的数据来源,能够提高数据的置信度或可用程度。
通用数据模块52用于通过荣誉度模式匹配方法、词法分析方法和句法分析方法对文本数据进行数据增强,筛选出满足荣誉度模式匹配方法、词法分析方法和句法分析方法的文本数据并增加至训练数据集中。
通用数据模块52包括荣誉度匹配模块521、词法分析模块522和句法分析模块523,通用数据模块52需要满足三个筛选条件,即需要文本数据同时满足荣誉度匹配模块521、词法分析模块522和句法分析模块523的筛选,也即荣誉度模式匹配方法、词法分析方法和句法分析方法的筛选,才能保留,若其中一个不满足则过滤掉,荣誉度匹配模块521、词法分析模块522和句法分析模块523的筛选顺序不作限定。
具体地,荣誉度匹配模块521用于:
根据期望的荣誉度模式配置相应的荣誉度正则表达式,例如,最模式:故宫是世界最大的木质结构宫殿;第n模式:这里是亚洲第一湿地公园,树木众多,植被丰富,溪水长流;著名称谓模式:莫日格勒河被誉为“天下第一曲水”,获取或者给定一条文本数据时,通过计算文本数据匹配的荣誉度正则表达式的个数,给定的文本数据命中正则表达式的次数越多,得分越高,将统计命中的结果进行归一化处理,将该文本数据的分数限制在0-1,此分数限制为本实施例优选的阈值限制,可根据不同的旅游景点主题进行相对应的设置,例如,若总共有20个正则表达式,该文本数据命中了10个,该文本数据的得分就是10/20=0.5,得出的分数用于增强数据分数加权或者进行分数加权融合后,根据分数加权融合的排序生成推荐理由;
根据匹配的荣誉度正则表达式的个数计算得出文本数据的荣誉度得分;根据荣誉度得分筛选文本数据。
词法分析模块522用于通过词法分析工具对所述文本数据进行词语切分和词性标注;给定一条文本数据时,通过词法分析工具(开源)对文本数据进行词语切分以及词性标注。
基于词语切分和词性标注的结果,筛选出文本数据中的形容词、动词及名词部分,并利用word2vec无监督语义匹配过滤掉与旅游景点主题相关程度较差的文本数据;
判断过滤后的所述文本数据中包含的形容词数量是否少于设定的第二阈值,若少于,则剔除所述文本数据;
按照预先统计的词语IDF(逆文本频率指数)值,对筛选后的词语的TF(词频)进行加权求和,并输出所述词语的分数,并根据分数筛选文本数据;最终的分数用以区分常见词/白话词/优质词/罕见词,例如,文本数据是“风景好漂亮,太好看了,美美美”,该文本数据通过筛选及加权,‘漂亮’/‘美美美’/‘好看’的得分就会相对较低,若文本数据中包括“‘海天一色’/‘幽静’/‘草长莺飞’”等词,则该文本数据通过筛选及加权,得分相对较高,该文本数据让用户看起来更加有吸引力。
和句法分析模块523用于:
通过句法分析工具对文本数据进行句法结构解析,判断文本数据的主谓结构是否完整,若不完整,则剔除所述文本数据。
欠拟合模块53用于:
对主题匹配模型第一次训练后的结果进行问题分析,总结常见的错误类型和模板;
基于常见的错误类型和模板,构建相应的正则表达式;
基于正则表达式对无标注数据进行批量抽取,随机挑选数量满足预设的第一阈值的无标注数据作为负样本增加至所述训练数据集中。本实施例优选的是随机挑选10-50条左右的文本数据加入到训练数据集中用于训练,挑选的文本数据的条数在此不做限定,可根据不同的旅游景点主题进行选择。
在具体应用中,可选择上述三种数据增强模块5中的数据回译模块51、通用数据模块52、欠拟合模块53中的至少一种,若同时使用上述三种数据增强模块进行数据增强,则在本实施例中不规定其使用的先后顺序,根据不同的旅游景点主题进行选择使用即可。
训练模块4还用于利用包括有增强数据的所述训练数据集对所述主题模型进行第二次训练,训练完成的所述主题匹配模型用于接收输入的目标主题,生成与所述目标主题相对应的推荐理由。
本实施例提供了一种模型训练系统,通过获取模块1获取与旅游景点主题相关的文本数据,文本数据为用户对该旅游景点主题的评论、评述或者写的文章等,进而通过标注模块2对获取的文本数据进行标注,标注的条件是按照与旅游景点主题相关程度和内容优质程度进行标注,标注的形式是,若文本数据同时满足与旅游景点主题相关且内容优质程度较高,则对该文本数据标注1,若仅满足一个条件或两个都不满足,则对该文本数据标注0,数据集模块3根据标注后的文本数据建立训练数据集,训练模块4利用训练数据集对主题匹配模型进行第一次训练,对主题匹配模型进行训练是基于封层学习率Adam优化器进行训练,因为标注较少,且根据第一次训练后的问题进行总结分析,训练模块4还包括数据增强模块5,通过数据增强模块5进行数据增强,将增强后的数据增加至训练数据集中,训练模块4根据带有增强数据的训练数据集对主题匹配模型进行第二次训练,待主题匹配模型在训练数据集上的损失趋于收敛,表示主题匹配模型训练完成,可以进行使用,训练完成的主题匹配模型用于接收输入的目标主题,即旅游景点主题,主题匹配模型可快速生成与目标主题相对应的推荐理由,从海量参差不齐的文本数据中自动抽取不同主题维度的优质推荐理由,生成的推荐理由角度广,更细节化且质量高,提高了推荐理由的生成效率,节省了人工和时间成本,方便用户快速了解景点各方面的特色,方便用户作选择。
实施例4
本实施例提供一种主题推荐理由的获取系统,本实施例中的主题匹配模型是通过实施例1提供的模型训练方法训练得出的,如图4所示,主题推荐理由的获取系统包括:
获取模块11,用于获取旅游主题的目标关键词。
在主题匹配模型的使用过程中,用户可给定一个旅游主题的目标关键词,主题匹配模型通过获取模块11获取到目标关键词,根据目标关键词获取与目标关键词对应的文本数据,文本数据包括用户评论、评述、短文或者文章等数据。
获取模块11还用于通过主题匹配模型获取与目标关键词相关的原始文本数据,主题匹配模型通过所述的模型训练方法训练得到。
主题匹配模型通过实施例3提供的一种模型训练系统训练得到,主题匹配模型的获取模块11根据获取到的目标关键词,获取与目标关键词相关的原始文本数据,原始文本数据可以使原始用户评论、文章等内容化素材,可以批量获取文本数据,也可以不分批次进行获取,根据实际需要进行设置。
筛选模块12,用于基于筛选方法对所述原始文本数据进行第一次筛选,筛选出情感正向的文本数据。
筛选模块12包括情感筛选模块121、质量筛选模块122、词法分析模块123中的至少一种;
通过情感筛选模块121、质量筛选模块122和词法分析模块123筛选出满足情感筛选模块121、质量筛选模块122和词法分析模块123的文本数据,并基于筛选后的文本数据建立主题推荐理由的候选数据集。
情感筛选模块121用于从原始文本数据中筛选出情感正向的文本数据;情感正向即表示用户的评论或评述的文章的情感是积极的、带有正面感情色彩的,例如,带有喜欢/开心/期待等词语的文本数据,属于情感正向的文本数据。
质量筛选模块122用于过滤掉所述原始文本数据中出现频次较高、无意义的文本数据及剔除文本数据中部分噪音文本数据。
无意义的文本数据是指“哈哈哈哈哈、呵呵呵呵呵呵、门票100或者aoghohhg”等数据,该类数据是一个字在文本数据中出现多次,且没有出现对目标关键词的描述,没有可使用的内容,举例说明:不包含中文、英文的文本,字词重复过高的文本(文本很长,但是去重后保留的字、词种类很少),某些固定、不会成为推荐理由的文本数据,例如,到此一游、门票10、开放时间13.00、过长或过短的文本,具体过长或过短的文本阈值可根据实际需要进行设置,但是某一个数据中出现到此一游,例如:我到此一游/我今天终于到此一游啦,这样的数据则命中,需要剔除,若一个数据中无意义词语仅占一个数据的相当少的一部分,则保留,例如:净慈寺原名“永明禅院”是杭州四大古刹之一,在南屏山慧日峰下,依山而建,背靠翠峦,面对碧波,梵宇层叠,宏伟庄严,我终于到此一游,则该数据不会命中,因为无意义词语“到此一游”只是该句子相当少的一部分。
词法分析模块123用于通过词法分析工具对文本数据进行词语切分和词性标注,筛选出所述文本数据中的形容词、动词及名词部分,过滤掉文本数据中形容词个数少于预设的第五阈值的文本数据。
词法分析模块123用于通过词法分析工具对文本数据进行词语切分和词性标注,筛选出所述文本数据中的形容词、动词及名词部分,过滤掉文本数据中形容词个数少于预设的第五阈值的文本数据;经过词法分析模块123分析后,如果文本数据中的形容词个数少于阈值,则认为该文本数据不通过筛选,本实施例中的阈值优选设置为三个,词法分析中对各种词性的词,按照TF-IDF值加权求和,得到词性分数。
数据集模块13用于根据第一次筛选后的文本数据建立主题推荐理由的候选数据集;
主题匹配模型通过筛选模块12对原始文本数据进行筛选后,数据集模块13基于筛选出来的文本数据可建立主题推荐理由的候选数据集,候选数据集中的数据为文本质量较高且情感正向的文本数据。
筛选模块12还用于基于word2vec对所述候选数据集进行第二次筛选,并计算所述文本数据与所述旅游主题下的标准文本数据的余弦相似度得分,剔除余弦相似度得分低于第三阈值的文本数据;
对获取的原始文本数据通过筛选模块12进行筛选后,对筛选后的数据在通过word2vec的无监督匹配方式进行第二次筛选,具体地,利用word2vec计算文本数据的相似度得分,得分区间设置为0-1之间,此区间可根据实际情况进行调整,相似度得分的相似度是指:待筛选的文本数据和预先筛选的若干个标准文本之间的语义向量的平均余弦相似度,将标准文本转化成稠密向量(有多个文本就取多个文本的向量的平均值),计算向量和文本向量的余弦相似度,根据语义向量的平均余弦相似度进行打分,并给得分卡阈值,低于阈值就是不相关或相关度较低的,剔除掉分数低于阈值的文本数据。
模型预测模块14,用于利用所述主题匹配模型对第二次筛选后的所述候选数据集进行模型预测,筛选出所述旅游主题下分数大于第四阈值的文本数据;
筛选模块12通过word2vec筛选出的文本数据,需要通过主题匹配模型的模型预测模块14对筛选出的文本数据进行模型预测打分,保留分数大于阈值以上的文本数据,该部分文本数据为与目标关键词相关性高、内容优质的推荐理由的集合。阈值本实施例优选设置为0.5,可根据具体需要进行设置,在此不作限定。
主题推荐模块15,用于通过分数加权匹配方法对模型预测后的候选数据集进行分数加权,将分数排名靠前的文本数据作为所述旅游主题的推荐理由。
主题推荐模块15包括分数加权模块16,分数加权模块16还包括句长模块161、荣誉度匹配模块162中的至少一种;
荣誉度匹配模块162用于根据期望的荣誉度模式配置相应的荣誉度正则表达式,通过计算文本数据匹配的荣誉度正则表达式的个数,根据匹配的荣誉度正则表达式的个数计算得出所述文本数据的荣誉度得分;
荣誉度匹配模块162根据期望的荣誉度模式配置相应的荣誉度正则表达式,例如,最模式:故宫是世界最大的木质结构宫殿;第n模式:这里是亚洲第一湿地公园,树木众多,植被丰富,溪水长流;著名称谓模式:莫日格勒河被誉为“天下第一曲水”,获取或者给定一条文本数据时,通过计算文本数据匹配的荣誉度正则表达式的个数,给定的文本数据命中正则表达式的次数越多,得分越高,将统计命中的结果进行归一化处理,将该文本数据的分数限制在0-1,此分数限制为本实施例优选的阈值限制,可根据不同的旅游景点主题进行相对应的设置,例如,若总共有20个正则表达式,该文本数据命中了10个,该文本数据的得分就是10/20=0.5。
荣誉度匹配模块162根据匹配的荣誉度正则表达式的个数计算得出文本数据的荣誉度得分;根据荣誉度得分筛选文本数据。
句长模块161用于根据文本数据的文本字符串长度,计算文本数据的文本长度得分;例如,文本长度在30左右时,得分为1,否则在0-1之间,文本长度可以根据需要进行动态调整,文本长度分数会与其它分数进行加权,得出最终得分,用以对句长做软调控。
主题推荐模块15还用于根据所述荣誉度得分的分数、所述文本长度得分的分数进行加权融合、排序,将分数排名靠前的文本数据作为所述旅游主题的推荐理由。
本实施例通过提供一种主题推荐理由的获取系统,通过获取模块11先获取旅游主题的目标关键词,根据目标关键词获取或者召回与目标关键词相关的原始文本数据,主题匹配模型通过实施例3提供的模型训练方法训练得出,通过筛选模块12对原始文本数据进行第一次筛选,筛选模块12包括包括情感筛选模块121、质量筛选模块122、词法分析模块123,通过筛选模块12筛选出质量较高、情感正向的文本数据,数据集模块13基于筛选模块12筛选出的文本数据建立主题推荐理由的候选数据集,然后筛选模块12基于word2vec对第一次筛选后文本数据进行第二次筛选,并计算文本数据与旅游主题下的标准文本数据的余弦相似度得分,剔除余弦相似度得分低于第三阈值的文本数据,模型预测模块14利用主题匹配模型通过筛选模块12对第二次筛选后的候选数据集进行模型预测,筛选出旅游主题下分数大于第四阈值的文本数据,主题推荐模块15好包括分数加权模块16,分数加权模块16包括句长模块161、荣誉度匹配模块162,通过句长模块161或荣誉度匹配模块162计算出文本数据的荣誉度得分和句长得分,主题推荐模块15对荣誉度得分和句长得分进行加权融合并排序,将排名靠前的文本数据作为旅游主题的推荐理由,通过实施例3提供的一种模型训练系统训练得出的主题匹配模型,可根据获取的目标关键词生成与目标关键词对应的推荐理由,生成推荐理由的效率高,降低了人工和时间成本,便于用户能够从多维度了解旅游景点的特色,从而进一步地吸引用户,便于用户做选择。
实施例5
图5为本发明实施例5提供的一种电子设备的结构示意图。包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现前述实施例1的模型训练方法或实施例2的主题推荐理由的获取方法。图5显示的电子设备30仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
电子设备30可以以通用计算设备的形式表现,例如其可以为服务器设备。电子设备30的组件可以包括但不限于:上述至少一个处理器31、上述至少一个存储器32、连接不同系统组件(包括存储器32和处理器31)的总线33。
总线33包括数据总线、地址总线和控制总线。
存储器32可以包括易失性存储器,例如随机存取存储器(RAM)321和/或高速缓存存储器322,还可以进一步包括只读存储器(ROM)323。
存储器32还可以包括具有一组(至少一个)程序模块324的程序/实用工具325,这样的程序模块324包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
处理器31通过运行存储在存储器32中的计算机程序,从而执行各种功能应用以及数据处理,例如本发明实施例1的模型训练方法或实施例2的主题推荐理由的获取方法。
电子设备30也可以与一个或多个外部设备34(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口35进行。并且,模型生成的设备30还可以通过网络适配器36与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器36通过总线33与模型生成的设备30的其它模块通信。应当明白,尽管图中未示出,可以结合模型生成的设备30使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID(磁盘阵列)系统、磁带驱动器以及数据备份存储系统等。
应当注意,尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
实施例6
本发明还提供一种计算机可读介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现前述实施例1的模型训练方法或实施例2的主题推荐理由的获取方法的步骤。
其中,可读存储介质可以采用的更具体可以包括但不限于:便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。
在可能的实施方式中,本发明还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行实现实施例1的模型训练方法或实施例2的主题推荐理由的获取方法的步骤。
其中,可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的程序代码,所述程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。