一种文本聚类处理方法及系统
技术领域
本申请涉及数据处理领域,尤其涉及一种文本聚类处理方法及系统。
背景技术
在当今大数据时代,文本是数据的主要来源。文本检索技术帮助我们在海量的数据中定位查找需要的文本内容。因此,文本检索具有重要的应用价值。文本检索依赖于高效准确的文本分类、聚类,通过分类、聚类的特征找到大量和输入文本相关的文本数据。
现有技术可以通过如下几类方法解决文本聚类问题:1.可以通过人为设定文本统计变量,收集数据训练有监督机器学习模型。2.人为设定文本的相似性。例如将文本对其后逐字/逐字母比较,再将比较结果投入欧式距离计算文本距离,在这些文本距离上使用K均值聚类算法(K-means clustering algorithm)聚类,将距离相近的文本归为一类。3.人为设定文本的正则模式,将具有相同正则模式的文本归为一类,再人为的将多个正则模式合并成一类具有业务意义的聚类。
但是上述三种方法中,若采用第一种方法,该模型特征需要人为设定,人的经验覆盖能力有限;有监督模型依赖标签数据,标签数据随着应用场景不同而不同。第二种方法中,模型依赖文本相似度,文本相似度的通用性较差;模型不适合在线处理数据,如果需要在线应用模型,模型需要大量数据供启动使用。若采用第三种方法,正则表达式覆盖特征的能力极其有限。
发明内容
本申请提供了一种文本聚类处理方法,该方法包括:获取输入文本并基于预设模型对所述输入文本进行拆分;获取拆分后的输入文本的文本特征;获取所述文本特征针对预设至少一个聚类的生成概率;若所述生成概率中的最大值大于预设阈值,将所述输入文本归类为所述生成概率中最大值对应的聚类;若所述生成概率中的最大值小于或等于所述预设阈值,根据所述输入文本创建新的聚类。本方法不依赖标签数据,也不依赖文本相似度。当输入文本归类为某一聚类时,可以丰富该聚类的特征,从可以提高该聚类的覆盖范围,提高方案的通用性。当为输入文本创建新的聚类时,可以创建新的聚类,提高所有聚类的覆盖范围。
可选的,结合第一方面,在第一方面的第一种可能的实现方式中,所述获取输入文本并基于预设模型对所述输入文本进行拆分包括:获取所述输入文本并基于2/3-gram模型对所述输入文本进行拆分,得到所述拆分后的输入文本。
可选的,结合第一方面的第一种可能的实现方式,在第一方面的第二种可能的实现方式中,所述文本特征包括所述拆分后的输入文本中短语在所述预设至少一个聚类的字频字典中出现的次数和/或概率,所述获取拆分后的输入文本的文本特征包括:将所述拆分后的输入文本中短语与所述预设至少一个聚类的字频字典中的字符串进行匹配,并获取所述拆分后的输入文本中短语在所述预设至少一个聚类的字频字典中出现的次数和/或概率。
可选的,结合第一方面的第二种可能的实现方式,在第一方面的第三种可能的实现方式中,所述获取所述文本特征针对预设至少一个聚类的生成概率包括:将所述拆分后的输入文本中短语在所述预设至少一个聚类的字频字典中出现的次数和/或概率投入预先设定的生成概率计算公式,获取所述文本特征针对所述预设至少一个聚类的生成概率。
可选的,结合第一方面的第三种可能的实现方式,在第一方面的第四种可能的实现方式中,所述若所述生成概率中的最大值大于预设阈值,将所述输入文本归类为所述生成概率中最大值对应的聚类之后,所述方法还包括:将所述拆分后的输入文本记录在所述生成概率中最大值对应的聚类的字频字典中。
本申请第二方面提供一种文本聚类处理系统,其特征在于,所述系统包括:第一处理模块,用于获取输入文本并基于预设模型对所述输入文本进行拆分;第二处理模块,用于获取拆分后的输入文本的文本特征;第三处理模块,用于获取所述文本特征针对预设至少一个聚类的生成概率;第四处理模块,用于当所述生成概率中的最大值大于预设阈值时,将所述输入文本归类为所述生成概率中最大值对应的聚类;第五处理模块,用于当所述生成概率中的最大值小于或等于所述预设阈值时,根据所述输入文本创建新的聚类。
可选的,结合第二方面,在第二方面的第一种可能的实现方式中,所述第一处理模块,具体用于获取所述输入文本并基于2/3-gram模型对所述输入文本进行拆分,得到所述拆分后的输入文本。
可选的,结合第二方面的第一种可能的实现方式,在第二方面的第二种可能的实现方式中,所述文本特征包括所述拆分后的输入文本中短语在所述预设至少一个聚类的字频字典中出现的次数和/或概率,所述第二处理模块,具体用于将所述拆分后的输入文本中短语与所述预设至少一个聚类的字频字典中的字符串进行匹配,并获取所述拆分后的输入文本中短语在所述预设至少一个聚类的字频字典中出现的次数和/或概率。
可选的,结合第二方面的第二种可能的实现方式,在第二方面的第三种可能的实现方式中,所述第三处理模块,具体用于将所述拆分后的输入文本中短语在所述预设至少一个聚类的字频字典中出现的次数和/或概率投入预先设定的生成概率计算公式,获取所述文本特征针对所述预设至少一个聚类的生成概率。
可选的,结合第二方面的第三种可能的实现方式,在第二方面的第四种可能的实现方式中,所述若所述生成概率中的最大值大于预设阈值,将所述输入文本归类为所述生成概率中最大值对应的聚类之后,所述第四处理模块,还用于将所述拆分后的输入文本记录在所述生成概率中最大值对应的聚类的字频字典中。
本申请提供了一种文本聚类处理方法,该方法包括:获取输入文本并基于预设模型对所述输入文本进行拆分;获取拆分后的输入文本的文本特征;获取所述文本特征针对预设至少一个聚类的生成概率;若所述生成概率中的最大值大于预设阈值,将所述输入文本归类为所述生成概率中最大值对应的聚类;若所述生成概率中的最大值小于或等于所述预设阈值,根据所述输入文本创建新的聚类。本方法不依赖标签数据,也不依赖文本相似度。当输入文本归类为某一聚类时,可以丰富该聚类的特征,从可以提高该聚类的覆盖范围,提高方案的通用性。当为输入文本创建新的聚类时,可以创建新的聚类,提高所有聚类的覆盖范围。
附图说明
图1为本申请实施例提供的一种有监督模型解决聚类问题的方法示意图;
图2为本申请实施例提供的一种无监督模型解决聚类问题的方法示意图;
图3为本申请实施例提供的一种通过正则表达式解决聚类问题的方法实示意图;
图4为本申请提供的一种文本聚类自学习流式处理方法的实施例示意图;
图5为本申请提供的一种文本聚类自学习流式系统的实施例示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块。
文本检索技术可以帮助我们在海量的数据中定位需要查找的文本内容。因此,文本检索具有重要的应用价值。文本检索依赖于高效准确的文本分类、聚类,通过分类、聚类的特征找到大量和输入文本相关的文本数据。比如黄牛收货地址聚类的场景。电商平台在运营过程中会受到黄牛党的攻击,他们通过大量机器脚本控制或者同党控制的账号批量购买稀缺商品,使得正常用户无法买到稀缺商品,而需要加价从黄牛手中购买。这些黄牛党为了绕过简单的防护措施,通过改造同一个收货地址文本得到不同的变种地址文本,作为其每单交易的收货地址,因为这些地址从字面上看并非同一地址,但是收货地址临近,背后的黄牛党仍然可以通过这些收货地址拿到货物。下面列举出几个黄牛收货地址文本聚类的例子:
示例一:
广州市/增城区/东江大道北8号6栋2203;
广州市/增城区/东江大道北8号10栋1506;
广州市/增城区/东江大道北8号12栋1808-pwl。
示例二:
嘉兴市/南湖区/凌公塘路811号usud;
嘉兴市/南湖区/凌公路811号;
嘉兴市/南湖区/凌公塘路811号kmxn。
示例三:
无锡市/惠山区/长安哥伦布3-888;
无锡市/惠山区/长安哥伦布4-222。
示例四:
青岛市/黄岛区/山东科技大学;
青岛市/黄岛区/前湾港路山东科技大学;
青岛市/黄岛区/前湾港路579号山东科技大学3号宿舍楼502室;
青岛市/黄岛区/前湾港路579号14教学楼25;
青岛市/黄岛区/前湾港路6号楼3单元5楼。
由上述示例可以看出,虽然这些地址从字面上看起来并非同一地址,但是收货地址临近。背后的黄牛党可以通过这些地址拿到货物。在业务量巨大,所售货物种类几种的电商平台,黄牛党和正常用户都对稀缺商品有很大的购买需求。大量黄牛党对稀缺商品的订单混在正常用户订单的数据流中,通过同IP/同设备/同收货地址已经无法简单地把黄牛从正常用户中区分出来。
黄牛通过在同一收货地址上更改部分文本,使得收货地址表面上看起来不是同一个收货地址从而绕过简单的风控规则,但是因为收货地址并没有被完全更改,快递人员仍然能判断出修改前的收货地址从而送达商品。所以,我们需要能够识别这种变体文本的变体处理算法,比如文本聚类,将同一收货地址文本上的各个变种文本归为同一类,加以识别。所以如何将相似的文本区分在同一个聚类中,是一个亟待解决的问题。
现有技术可以提供如下几种方法解决文本聚类问题:
1.通过有监督聚类技术。
人为设定文本统计变量,收集数据训练有监督模型。例如根据文本长度、包含连续字或字母的个数、包含特殊字符个数等特征以及标签数据训练模型,使用训练模型和文本特征预测进行文本分类。具体的,请参见图1:可以先获取文本,再从文本中提取特征得到训练集。例如特征可以包括文本长度、连续字或字母的个数、包含特殊字符个数等特征。然后根据预先设置的样本标签和训练集得到有监督机器学习模型。再将得到的模型进行模型测试或交叉验证。得到模型之后可以在线上部署模型。再次获取到文本之后可以从文本中提取出相应的特征作为训练集,再根据线上部署模型预测结果。
但是这种方法中,模型特征需要人为设计,人的经验覆盖能力有限,可能会漏掉一些特征。其次,有监督机器学习模型依赖标签数据,标签数据随着应用场景不同而不同。
2.通过无监督聚类技术
人为定义文本的相似性。例如,可以在获取文本之后,根据自定义的文本相似性规则进行自定义文本相似性计算,然后再根据无监督机器学习模型(例如Kmeans模型)进行聚类,将距离相近的文本归为一类。请参见图2,示例性的,可以先获取文本,再将文本中逐字/逐字母比较,再把比较结果投入欧式距离计算文本距离(即进行自定义文本相似性计算),然后将这些文本距离使用Kmeans算法(即无监督机器学习模型)进行聚类,将距离相近的文本归为一类。可以得到聚类结果和聚类中心参数。在使用的时候,可以先获取需要预测的文本样本,根据之前得到的聚类中心参数计算该需要预测的文本样本与各个聚类中心的相似性。然后选择相似性最小值对应聚类,得到聚类结果。在得到聚类结果之后可以更新聚类中心参数。
该方案依赖文本相似度,文本相似度通用性教差。该模型不适合在线处理数据,如果需要在线应用模型,模型需要大量数据供热启动使用。
3.通过正则匹配技术
人为设定文本的正则模式。将具有相同正则模式的文本归为一类,再人为的将多个正则模式合并为一类具有业务意义的聚类。请参见图3,该方案中,由于正则表达式覆盖特征的能力比较有限,可能存在很多正则表达式覆盖不到的文本。
所以本申请提供了一种文本聚类自学习流式处理方法,请参见图4,该方法可以在无人为设定特征或使用极其简单通用的方式的情况下提取流式文本数据的特征,可以及时更新在线使用的模板,可以更新模板使用的特征。该方法包括:
101.获取输入文本并基于预设模型对输入文本进行拆分。
获取输入文本,并基于预设模型对输入文本进行拆分。该预设模型可以为2/3-gram模型。
需说明的是,N-gram模型是大词汇连续语言识别中常用的一种统计语言模型,利用上下文中相邻词间的搭配信息,统计词频,计算出具有最大概率的句子(文本纠错),或者进行文本拼写检查。N-gram基于马尔科夫假设:第N个词的出现只与前面N-1个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积。在拼写检查的应用中,N-gram模型由于存在数据的稀疏性,需要加上平滑算法才能表现出良好的效果。
2/3-gram为N-gram模型中的一种模型,2/3-gram模型认为文本中任意一个词只与前面2个或3个词相关,而与其他任何词都不相关。基于2/3-gram模型对输入文本进行拆分即将输入文本连续两个字符或三个字符拆分一次。示例性的,若输入文本为“广州市…花园小区D栋D单元L”,若按照2/3-gram模型,可以先将该文本拆分为:“广州”、“州市”……“元L”、“广州市”……“单元L”。
可以理解的是,在对输入文本进行拆分之前,若输入文本中存在一些特殊字符,可以清理或替换特殊字符。
102.获取拆分后的输入文本的文本特征。
获取拆分后的输入文本的文本特征。需要说明的是,预先设置有至少一个聚类,每个聚类中存在一个字频字典。每个聚类中的字频字典中包含至少一个字符串(短语)。该文本特征可以为拆分后的输入文本中的短语在该预设至少一个聚类的字频字典中出现的次数和/或频率。获取拆分后的输入文本的文本特征具体可以为:将拆分后的输入文本中短语与该至少一个聚类的字频字典中的字符串进行匹配,获取该拆分后的输入文本中短语在预设至少一个聚类的字频字典中出现的次数和/或概率。
示例性的,若预先设置有N个聚类,N为大于或等于1的整数。该N个聚类中每个聚类都有一个字频字典。可以获取该拆分后的输入文本中的短语在该N个聚类中每个聚类对应的字频字典中出现的次数和/或概率。具体的,参照步骤101中的示例,若输入文本为:“广州市…花园小区D栋D单元L”,若按照2/3-gram模型将输入文本进行拆分,可以得到拆分后的输入文本:“广州”、“州市”……“元L”、“广州市”……“单元L”。将该拆分后的输入文本中的短语与该N个聚类中第一个聚类的字频字典中的字符串进行对比,得到该拆分后的输入文本对该第一个字频字典中出现的次数和/或概率。例如,可以得到:“广州”:出现次数为2次,出现概率为0.0471;“州市”:出现次数为2次,出现概率为0.0471;……“广州市”:出现次数为2次,出现概率为0.0471;“D栋D”:出现次数为1,出现概率为0.0236。然后再将该拆分后的输入文本中的短语与N个聚类中的第二个聚类的字频字典中的字符串进行对比……依次得到该拆分后的输入文本中的短语在该N个聚类中每个聚类对应的字频字典中出现的次数和/或概率。
103.获取文本特征针对预设至少一个聚类的生成概率。
获取文本特征针对预设至少一个聚类的生成概率。在统计领域,“生成概率”指的是在给定概率分布下,次概率分布随机生成这个样本的概率。这种概率的计算方法是可以选择的,或可以配置的。示例性的,可以根据多项式概率分布或一阶马尔科夫获取文本相似性,但不限于此。
例如,基于多项式概率分布获取的文本相似性:
Pj “广州市增城区”=(numj(“广州”)+numj(“州市”)+…numj(“城区”))/(numj(“广州”)!*numj(“州市”)!*…numj(“城区”)!)*Pj (“广州”)*Pj (“州市”)*…*Pj (“城区”)。
例如,基于一阶马尔科夫获取的文本相似性:
Pj “广州市增城区”=Pj “广州”*Pj “州市”*Pj “市增”*…*Pj “广州市”*Pj “州市增”…
还可以根据其他方式获取文本相似性,此处不再赘述。
这样,通过将步骤102中获取到的拆分后的输入文本中的短语在该N个聚类中每个聚类对应的字频字典中出现的次数和/或概率带入上述概率计算公式,可以获取到该输入文本针对该N个聚类中每个聚类的生成概率。
需要说明的是,该概率的计算方法可以根据不同的应用场景选择。示例性的,在针对黄牛收货地址变体识别的业务场景下,可以选择基于多项式分布的生成概率计算方法。在其他业务场景下,例如病例文本聚类、电商用户名聚类等业务场景下,可以使用基于一阶马尔科夫的生成概率计算方法。
104.若生成概率中最大值大于预设阈值,将输入文本归属为生成概率中最大值对应的聚类。
若生成概率中最大值大于预设阈值,将输入文本归属为生成概率中最大值对应的聚类。示例性的,若包含3个聚类,根据步骤103中的计算公式计算出该输入文本针对该3个聚类中第一个聚类的生成概率为20%,针对第二个聚类的生成概率为25%,针对第三个聚类的生成概率为23%。假设预设阈值为23%。则选择该生成概率最高的为第二个聚类,生成概率为25%。判断25%大于预设阈值23%。则将该输入文本归属为该第二个聚类。
105.将拆分后的输入文本记录在生成概率中最大值对应的聚类的字频字典中。
若步骤104中确定生成概率中最大值大于预设阈值,则将拆分后的的输入文本都记录在该生成概率中最大值对应的聚类的字频字典中。具体的,可以将拆分后的输入文本:“广州”、“州市”……“元L”、“广州市”……“单元L”都记录在第二个聚类的字频字典中。
这样,该输入文本被归属到聚类中后,可以增加该聚类的字频字典中的字符串数量,后续文本样本匹配上这些字符串,根据聚类对文本生成概率计算方法,后续文本样本被归属为此聚类的概率上升。
106.若生成概率中最大值小于或等于预设阈值,根据输入文本创建新的聚类。
若步骤104中,预设阈值为30%。则确定则选择该生成概率最高的为第二个聚类,生成概率为25%。判断25%小于预设阈值30%。则为该输入文本创建新的聚类,可以创建第四个聚类,并将该可以将拆分后的输入文本:“广州”、“州市”……“元L”、“广州市”……“单元L”都记录在第四个聚类的字频字典中。
本申请提供了一种文本聚类处理的方法,若输入文本可以归属于本方法中预设的聚类,可以通过本方法得到该输入文本归属的聚类,该输入文本还可以用于更新该聚类的字频字典。该字频字典的更新意味着生成概率计算所使用的参数的变化,意味着用来判断归属聚类的模型得到了更新。因此,本申请提供的这种方法不仅可以得到输入文本归属的聚类,还可以实时更新聚类的模型。可以随着数据的流入而增加聚类的个数,对于聚类的划分随着处理文本数量的增多而更加细致,有新的聚类可以用户划分,可以提高聚类空间的颗粒度。
本申请提供的这种文本聚类处理的方法具有自学习能力,在机器学习领域,自学习指的是无需提前准备新的训练集重新训练模型来替代在线使用的已经衰退的模型。自学习模型在线就可以通过正在处理的样本和算法更新自身,适应最新的样本特征,用以避免模型衰退。该方法也为流式处理的方法,流式处理指的是数据进入在线模型后,不仅可以得到处理,还可以作为模型在线学习优化本身的样本。
本申请提供的这种方法可以应用于地址文本的聚类中。示例性的,在电商平台上,购买稀缺商品的订单里面常常会混入黄牛抢购稀缺商品的订单,因为黄牛购买的稀缺商品量较大,如果使用同一个地址,通过同一收货地址上的订单量分析就可以抓住这些黄牛的订单。因此,黄牛采用低成本但是有效的方式可以绕过这些简单地风控规则。黄牛通过在同一收货地址上替换,增删少量的字符串让简单的规则无法将这些地址识别成同一地址,从而绕过收货地址和订单分析的规则。本申请提供的这种方法可以有效地识别这些在同一地址上替换,增删少量字符串而衍生出的收货地址文本,可以将来自同一地址的变体准确高效的归属为同一聚类,在此聚类上统计收货量,可以有效地打击黄牛的抢购行为,提高黄牛做坏事的成本。
下表为本申请提供的文本聚类处理的方法与现有三种方法的性能对比:
在有监督聚类技术中,该特征基于人为设定,而本申请提供的文本聚类处理方法中,特征是基于文本通用的统计参数。而且在有监督聚类技术中,有监督机器学习模型至线上部署模型过程中,模型会衰退,模型会中断,需要重新训练模型,然后再部署。而本申请提供的这种方法中,每处理完一个样本就回自动更新一次模型,不会存在模型衰退的问题,可以实时更新模型。
在无监督聚类技术中,相似性是人为设定的,而本申请提供的文本聚类处理方法中,相似性是基于文本通用的统计参数。该无监督聚类技术中,聚类的数量是固定不变的,无法根据样本的变化而拓展。本申请提供的文本聚类处理方法中,聚类的个数随着样本的累计而便所,对样本的聚类颗粒度随着样本及时更新,可以提高聚类的准确性。该无监督聚类技术中,每个聚类只有一个聚类中心参数描述。而本申请提供的文本聚类处理方法中,聚类参数来自通用的文本统计特征,每个处理的文本都可以实现对聚类参数的精确的微调。在无监督聚类技术中,相似性由各种人为设定的距离,例如和聚类中心的欧式距离,这种描述比较单一,有可能会错过文本的真实特征。本申请提供的文本聚类处理方法中,相似性基于各个聚类使用的文本样本统计数值作为参数计算的生成概率,描述通过聚类里已有样本重新构造输入文本的概率,相似性的描述更加通用,细致,随着文本数据的流入有自学习能力。
在正则匹配技术中,正则表达式是人为设定的,每种正则表达式作为一个特征,覆盖面极其小,需要大量的正则表达式来提高对文本的识别能力。而本申请提供的这种文本聚类方法中,特征来自通用的文本统计参数,可以实时更新模型,具有很高的通用性和灵活性,对特征的覆盖面比较广。
需要说明的是,本申请提供的这种文本聚类的方法可以用于识别正常用户和黄牛的收货地址。可以将来自同一地址文本变体的大量地址文本(即疑似黄牛使用的地址样本)识别出来。该方法不限于对于收货地址的识别,还可以用于其他一切文本的识别。例如,还可以应用在通过论文标题和关键字聚类相似主题的论文;通过病例关键字聚类相近的生病经历的病例;通过相近的关键字聚类品牌或者商标名称的变种;通过大量的注册用户名聚类疑似垃圾注册的用户名等。本申请提供的这种文本聚类的方法可以减少人工投入,模型在线处理文本聚类的同事可以在线自学习更新优化模型。
本申请提供了一种文本聚类处理的系统20,请参见图5,该系统20用于执行上述文本聚类处理方法中相应的步骤,该系统20包括:
第一处理模块201,用于获取输入文本并基于预设模型对所述输入文本进行拆分。
该第一处理模块201,具体用于获取所述输入文本并基于2/3-gram模型对所述输入文本进行拆分,得到所述拆分后的输入文本。
第二处理模块202,用于获取拆分后的输入文本的文本特征。
该第二处理模块202,具体用于将所述拆分后的输入文本中短语与所述预设至少一个聚类的字频字典中的字符串进行匹配,并获取所述拆分后的输入文本中短语在所述预设至少一个聚类的字频字典中出现的次数和/或概率。
第三处理模块203,用于获取所述文本特征针对预设至少一个聚类的生成概率。
该第三处理模块203,具体用于将所述拆分后的输入文本中短语在所述预设至少一个聚类的字频字典中出现的次数和/或概率投入预先设定的生成概率计算公式,获取所述文本特征针对所述预设至少一个聚类的生成概率。
第四处理模块204,用于当所述生成概率中的最大值大于预设阈值时,将所述输入文本归类为所述生成概率中最大值对应的聚类。
该第四处理模块204,还用于将所述拆分后的输入文本记录在所述生成概率中最大值对应的聚类的字频字典中。
第五处理模块205,用于当所述生成概率中的最大值小于或等于所述预设阈值时,根据所述输入文本创建新的聚类。
需说明的是,本申请提供的文本聚类处理系统20的上述处理模块的区分方式仅为逻辑上的区分。在实施过程中,可能将多个处理模块整合在一起,有可能会分更细致的处理单元,也有可能会存在上述处理模块区分的变式。比如将该第一处理模块201、第二处理模块合并成一个处理模块等,这种情况不应该理解为超出本申请的限制。
本申请提供了一种文本聚类处理方法及系统,该方法中使用的模型特征依赖于样本的统计数据特征,可以更好地和样本匹配,使用的特征也是简单的文本子字符串,具有很好的通用性。在处理流入的文本数据的同时,可以利用每个处理过的文本样本在线更新模型,每次更新模型无需下线再上线,可以节约时间成本。本申请使用的模型更新模型使用的特征受到每个最新处理数据的影响,可以做到对最新数据及时逼近。最新数据的统计特征通过灵活配置的生成概率计算模块可以更好地抓住最新数据的特征。
以上对本发明实施例所提供的一种文本聚类处理方法及系统进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。