基于人工智能的大数据业务处理方法及人工智能服务器
技术领域
本申请涉及人工智能和大数据
技术领域
,特别涉及一种基于人工智能的大数据业务处理方法及人工智能服务器。背景技术
近年来,以Hadoop为代表的大数据技术的蓬勃兴起,解决了数据库时代的数据存储和处理能力的不足限制。此外,云计算技术的大规模应用,比如Amazon和阿里云为代表的云计算厂商,将处理能力和计算能力的成本大大降低,从而让大规模的集群计算系统变得非常廉价,将针对数据的分析拓展至全量的数据分析而非数据抽样。
机器学习(Machine Learning,ML)的不断发展,使得人工智能(ArtificialIntelligence)和大数据能够深度结合,从而实现业务大数据的用户画像挖掘。用户画像(Persona)是指根据用户的属性、用户偏好、生活习惯、用户行为等信息而抽象出来的标签化用户模型。换言之,是给用户打标签,而标签是通过对用户信息分析而来的高度精炼的特征标识。通过打标签可以利用一些高度概括、容易理解的特征来描述用户,可以让人更容易理解用户,并且可以方便计算机处理。
随着数字化时代的各类业务交互行为,用户画像的精准挖掘对业务优化和升级而言是相对重要的,对业务大数据进行业务分析是获得用户画像信息的常用技术手段,然而相关的数据分析技术存在一定的缺陷。
发明内容
鉴于上述内容,本申请提供了如下方案。
本申请实施例之一的方案提供一种基于人工智能的大数据业务处理方法,所述方法包括:获取在线业务互动数据集中各在线业务互动数据的互动数据相关性;根据设定的判定值和所述各在线业务互动数据的互动数据相关性从所述在线业务互动数据集中筛选出热门业务互动数据子集;基于所述热门业务互动数据子集,确定所述在线业务互动数据集中的动态业务互动数据及所述动态业务互动数据的目标业务参数,所述动态业务互动数据的目标业务参数大于所述设定的判定值;根据所述在线业务互动数据集中除所述动态业务互动数据之外的静态业务互动数据及所述静态业务互动数据之间的关联关系,获得所述在线业务互动数据集中的冷门业务互动数据子集;基于所述冷门业务互动数据子集和所述动态业务互动数据,确定所述冷门业务互动数据子集中各在线业务互动数据的目标业务参数;其中,确定的所述目标业务参数用于生成与相应在线业务互动数据对应的业务互动画像信息。
本申请实施例之一的方案提供一种人工智能服务器,包括处理引擎、网络模块和存储器;所述处理引擎和所述存储器通过所述网络模块通信,所述处理引擎从所述存储器中读取计算机程序并运行,以执行上述的方法。
在后面的描述中,将部分地陈述其他的特征。在检查后面内容和附图时,本领域的技术人员将部分地发现这些特征,或者可以通过生产或运用了解到这些特征。通过实践或使用后面所述详细示例中列出的方法、工具和组合的各个方面,当前申请中的特征可以被实现和获得。
附图说明
本申请将以示例性实施例的方式进一步说明,这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的,在这些实施例中,相同的编号表示相同的结构,其中:
图1是根据本申请的一些实施例所示的一种示例性基于人工智能的大数据业务处理方法和/或过程的流程图;
图2是根据本申请的一些实施例所示的一种示例性基于人工智能的大数据业务处理装置的框图;
图3是根据本申请的一些实施例所示的一种示例性基于人工智能的大数据业务处理系统的框图,以及
图4是根据本申请的一些实施例所示的一种示例性人工智能服务器中硬件和软件组成的示意图。
具体实施方式
为了更清楚地说明本申请实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其它类似情景。除非从语言环境中显而易见或另做说明,图中相同标号代表相同结构或操作。
应当理解,本文使用的“系统”、“装置”、“单元”和/或“模组”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而,如果其他词语可实现相同的目的,则可通过其他表达来替换所述词语。
如本申请和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其它的步骤或元素。
本申请中使用了流程图用来说明根据本申请的实施例的系统所执行的操作。应当理解的是,前面或后面操作不一定按照顺序来精确地执行。相反,可以按照倒序或同时处理各个步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。
为了更好的理解上述技术方案,下面通过附图以及具体实施例对本发明技术方案做详细的说明,应当理解本发明实施例以及实施例中的具体特征是对本发明技术方案的详细的说明,而不是对本发明技术方案的限定,在不冲突的情况下,本发明实施例以及实施例中的技术特征可以相互组合。
本申请提供的基于人工智能的大数据业务处理方法及人工智能服务器的整体方案可以总结为如下:首先通过各在线业务互动数据的互动数据相关性从在线业务互动数据集中筛选出热门业务互动数据子集,其次根据热门业务互动数据子集确定在线业务互动数据集中的动态业务互动数据及其目标业务参数,然后基于在线业务互动数据集中的静态业务互动数据及静态业务互动数据之间的关联关系确定在线业务互动数据集中的冷门业务互动数据子集,最后基于冷门业务互动数据子集和动态业务互动数据,确定冷门业务互动数据子集中各在线业务互动数据的目标业务参数。
可以理解的是,本方案对各类业务互动数据的互动数据相关性和目标业务参数进行了分析处理,通过对热门业务互动数据子集以及动态业务互动数据的筛选和确定,能够进一步确定出静态业务互动数据,以便通过静态业务互动数据之间的关联关系确定冷门业务互动数据子集。这样,可以结合冷门业务互动数据子集和动态业务互动数据进行相关目标业务参数的确定,所确定的目标业务参数可以用于生成对应的业务互动画像信息,且冷门业务互动数据子集分别与静态业务互动数据、动态业务互动数据以及热门业务互动数据子集存在关联,由此尽可能确保冷门业务互动数据子集对应的业务互动画像信息与在线业务的高度相关性,同时可以结合不同类型的业务互动数据尽可能挖掘出更为精准的潜在画像信息。这样能够改善相关技术在对冷门数据进行业务分析处理时所存在的效率低下的问题。
首先,对基于人工智能的大数据业务处理方法进行示例性的说明,请参阅图1,是根据本申请的一些实施例所示的一种示例性基于人工智能的大数据业务处理方法和/或过程的流程图,基于人工智能的大数据业务处理方法可以包括以下步骤100-步骤500所描述的技术方案。
步骤100、获取在线业务互动数据集中各在线业务互动数据的互动数据相关性。
例如,在线业务互动数据可以是业务用户设备和人工智能服务器通信交互时产生的数据,亦或者不同业务用户设备之间通信交互时产生的数据。而在线业务可以包括在线电商购物、在线视频观看、在线业务查询等。
此外,互动数据相关性可以用于从业务事件关联度层面或者业务对象关联度层面表达不同在线业务互动数据之间的相关性,一般而言,互动数据相关性可以通过相关性系数进行表达,包括但不限于皮尔斯相关性系数(person correlation coefficient)、斯皮尔曼相关性系数(spearman correlation coefficient)或者肯德尔相关性系数(kendallcorrelation coefficient)等。
在一些可能的实施方式中,上述步骤100所描述的获取在线业务互动数据集中各在线业务互动数据的互动数据相关性,可以通过以下方式实施:获取所述在线业务互动数据集;确定所述在线业务互动数据集中各在线业务互动数据的关联业务互动数据的分布情况;将所述关联业务互动数据的分布情况作为相应在线业务互动数据的互动数据相关性。
举例而言,各在线业务互动数据的关联业务互动数据可以理解为存在与在线业务互动数据相对应的关联标签的业务互动数据,关联业务互动数据的分布情况可以用于表征关联业务互动数据在线业务互动数据集中的分布位置或者分布区域,比如位于哪个子集中。如此,可以基于分布情况对应的分布概率或者分布占比确定相应的在线业务互动数据的互动数据相关性,而在基于分布情况对应的分布概率或者分布占比确定相应的在线业务互动数据的互动数据相关性时,可以采用上述的相关性系数的计算方法进行计算。
步骤200、根据设定的判定值和所述各在线业务互动数据的互动数据相关性从所述在线业务互动数据集中筛选出热门业务互动数据子集。
在本实施例中,设定的判定值可以用于对不同类型的业务互动数据的分析和处理提供量化标准,从而提高数据分析和处理的效率。热门业务互动数据子集可以指代业务交互频率较高或者搜索指数较高的业务互动数据。
在一些可能的实施方式中,上述步骤200所描述的根据设定的判定值和所述各在线业务互动数据的互动数据相关性从所述在线业务互动数据集中筛选出热门业务互动数据子集,进一步可以通过以下实施方式实现:获取所述设定的判定值;从所述在线业务互动数据集中过滤掉所述互动数据相关性小于或等于所述设定的判定值的在线业务互动数据及所述在线业务互动数据所对应的关联关系,根据所述在线业务互动数据集中静态业务互动数据及所述静态业务互动数据之间的关联关系获得所述热门业务互动数据子集。
例如,设定的判定值可以根据实际情况进行设置或者调整。比如,对于互动数据相关性判断而言,设定的判定值的取值范围可以是0~1。进一步地,在线业务互动数据所对应的关联关系可以通过图表、曲线的形式进行表达。进一步地,通过过滤互动数据相关性小于或等于所述设定的判定值的在线业务互动数据及所述在线业务互动数据所对应的关联关系,能够有效减少噪声业务互动数据的,并减少相应的数据量,从而提高后续筛选热门业务互动数据子集的效率和准确率。关于静态业务互动数据的说明请参阅后续内容。
步骤300、基于所述热门业务互动数据子集,确定所述在线业务互动数据集中的动态业务互动数据及所述动态业务互动数据的目标业务参数。
在本实施例中,动态业务互动数据可以理解为具有时序可变性和业务可变性的业务互动数据,比如,动态业务互动数据可以随着时间的推移而变化,也可以随着业务类别的跳转而变化。进一步地,所述动态业务互动数据的目标业务参数大于所述设定的判定值。目标业务参数可以理解为动态业务互动数据的互动维度特征,比如互动事件特征、互动行为特征、互动对象特征、互动时段特征等。相应地,与目标业务参数对应的设定的判定值可以是设定维度。
可以理解,在一些示例中,上述步骤300所描述的基于所述热门业务互动数据子集,确定所述在线业务互动数据集中的动态业务互动数据及所述动态业务互动数据的目标业务参数,可以包括以下步骤310-步骤350所描述的内容。
步骤310、根据各在线业务互动数据在所述热门业务互动数据子集中关联业务互动数据的分布情况,获得各在线业务互动数据在所述热门业务互动数据子集的互动数据相关性,将在所述热门业务互动数据子集中的互动数据相关性作为相应在线业务互动数据初始的当前目标业务参数。
步骤320、循环地执行对于所述热门业务互动数据子集中的每个在线业务互动数据,根据所述在线业务互动数据在所述热门业务互动数据子集中的关联业务互动数据的当前目标业务参数,确定所述在线业务互动数据对应的全局相关度。
例如,全局相关度可以理解为在线业务互动数据在整体业务层面上的相关度,可以通过结合相关的全局权重计算该全局相关度。
步骤330、当所述全局相关度小于或等于设定的判定值时,从所述热门业务互动数据子集中过滤掉所述在线业务互动数据。
步骤340、当所述全局相关度大于所述判定值且小于所述在线业务互动数据的当前目标业务参数时,则根据所述在线业务互动数据的全局相关度更新所述在线业务互动数据的当前目标业务参数的步骤,直至当轮循环过程中所述热门业务互动数据子集中各在线业务互动数据的当前目标业务参数均未被更新时终止循环。
例如,更新在线业务互动数据的当前目标业务参数可以理解为对相关的互动特征维度进行增减。
步骤350、将终止循环时获得的热门业务互动数据子集中的在线业务互动数据作为所述动态业务互动数据,并将终止循环时所述动态业务互动数据的当前目标业务参数作为所述动态业务互动数据对应的目标业务参数。
在一些示例中,动态业务互动数据也可以理解为互动特征维度存在变化的业务互动数据,如此设计,可以基于不断的循环迭代更新过程确定动态业务互动数据以及动态业务互动数据对应的目标业务参数,从而确保动态业务互动数据以及动态业务互动数据对应的目标业务参数的准确性。
在一些可选的实施例中,在上述步骤310-步骤350的基础上,该方法还可以包括以下内容:在当轮循环结束后,记录当轮循环过程中当前目标业务参数被更新的在线业务互动数据;记录的在线业务互动数据用于指示在下次循环启动时,将所述记录的在线业务互动数据在所述热门业务互动数据子集中的关联业务互动数据,作为下次循环过程中需要重新确定全局相关度的目标在线业务互动数据。
在一些可能的实施例中,上述步骤320所描述的对于所述热门业务互动数据子集中的每个在线业务互动数据,根据所述在线业务互动数据在所述热门业务互动数据子集中的关联业务互动数据的当前目标业务参数,确定所述在线业务互动数据对应的全局相关度,可以通过以下实施方式实现:对于所述热门业务互动数据子集中的目标在线业务互动数据,根据所述目标在线业务互动数据在所述热门业务互动数据子集中的关联业务互动数据的当前目标业务参数,确定所述目标在线业务互动数据对应的全局相关度。
如此,通过对当前目标业务参数进行分析,能够考虑不同的互动特征维度,进而确保目标在线业务互动数据对应的全局相关度的准确性和可信度。
步骤400、根据所述在线业务互动数据集中除所述动态业务互动数据之外的静态业务互动数据及所述静态业务互动数据之间的关联关系,获得所述在线业务互动数据集中的冷门业务互动数据子集。
例如,静态业务互动数据是相对于动态业务互动数据的,比如可以是具有固定不变的数据内容的业务互动数据。而冷门业务互动数据子集是相对于热门业务互动数据子集,冷门业务互动数据子集通常难以被重视,从而可能导致一些潜在画像信息被忽略,而本申请则可以对冷门业务互动数据子集进行针对性处理,从而准确可靠地挖掘出冷门业务互动数据子集所对应的潜在画像信息,便于后续进行相关的业务服务产品的推送。
基于此,上述步骤400所描述的根据所述在线业务互动数据集中除所述动态业务互动数据之外的静态业务互动数据及所述静态业务互动数据之间的关联关系,获得所述在线业务互动数据集中的冷门业务互动数据子集,可以通过以下实施方式实现:从所述在线业务互动数据集中过滤掉所述动态业务互动数据;根据过滤掉所述动态业务互动数据后所述静态业务互动数据及所述静态业务互动数据之间的关联关系,获得所述冷门业务互动数据子集。
步骤500、基于所述冷门业务互动数据子集和所述动态业务互动数据,确定所述冷门业务互动数据子集中各在线业务互动数据的目标业务参数。
在相关实施例中,确定的所述目标业务参数用于生成与相应在线业务互动数据对应的业务互动画像信息。换言之,确定的所述目标业务参数用于生成冷门业务互动数据子集中各在线业务互动数据的业务互动画像信息(潜在画像信息)。如此,可以对冷门业务互动数据子集进行针对性处理,从而准确可靠地挖掘出冷门业务互动数据子集所对应的潜在画像信息,便于后续进行相关的业务服务产品的推送。
在相关实施例中,上述步骤500所描述的基于所述冷门业务互动数据子集和所述动态业务互动数据,确定所述冷门业务互动数据子集中各在线业务互动数据的目标业务参数,可以通过以下步骤510-步骤540所描述的内容实现。
步骤510、根据所述冷门业务互动数据子集中各在线业务互动数据在原始的所述在线业务互动数据集中关联业务互动数据的分布情况,初始化所述冷门业务互动数据子集中各在线业务互动数据的当前目标业务参数。
步骤520、循环地执行对于所述冷门业务互动数据子集中的每个在线业务互动数据,根据所述在线业务互动数据在所述在线业务互动数据集中的关联业务互动数据的当前目标业务参数,确定所述在线业务互动数据对应的全局相关度。
步骤530、当所述全局相关度小于所述在线业务互动数据的当前目标业务参数时,则根据所述在线业务互动数据的全局相关度更新所述在线业务互动数据的当前目标业务参数的步骤,直至当轮循环过程中所述冷门业务互动数据子集中各在线业务互动数据的当前目标业务参数均未被更新时终止循环。
步骤540、将终止循环时所述在线业务互动数据的当前目标业务参数作为所述在线业务互动数据对应的目标业务参数。
可以理解的是,通过执行上述步骤510-步骤540,能够将不同的循环更新过程考虑在内,从而结合全局关联度确定冷门业务互动数据子集所对应的目标业务参数,这样可以在确保目标业务参数的准确性的前提下保证冷门业务互动数据子集所对应的目标业务参数与热门业务互动数据子集所对应的目标业务参数在业务层面的关联性。
在上述步骤510-步骤540的基础上,该方法还可以包括以下内容:在当轮循环结束后,记录当轮循环过程中当前目标业务参数被更新的在线业务互动数据;记录的在线业务互动数据用于指示在下次循环启动时,将所述记录的在线业务互动数据在所述冷门业务互动数据子集中的关联业务互动数据,作为下次循环过程中需要重新确定全局相关度的目标在线业务互动数据。
在一些可选的实施例中,上述步骤520所描述的对于所述冷门业务互动数据子集中的每个在线业务互动数据,根据所述在线业务互动数据在所述在线业务互动数据集中的关联业务互动数据的当前目标业务参数,确定所述在线业务互动数据对应的全局相关度,可以包括以下内容:对于所述冷门业务互动数据子集中的目标在线业务互动数据,根据所述目标在线业务互动数据在所述在线业务互动数据集中的关联业务互动数据的当前目标业务参数,确定所述目标在线业务互动数据对应的全局相关度。
可以理解的是,对于上述步骤320或步骤520而言,所述在线业务互动数据对应的全局相关度还可以通过以下方式实现:若所述在线业务互动数据满足关联业务互动数据中存在i个关联业务互动数据的当前目标业务参数大于或等于i,且不满足存在i+1个关联业务互动数据的当前目标业务参数大于或等于i+1时,则确定所述在线业务互动数据对应的全局相关度为i,其中i为正整数。当然,在实际实施时,还可以通过其他的方式计算在线业务互动数据对应的全局相关度。
在一些可选的实施例中,在上述步骤300或步骤500的基础上,该方法还可以包括以下内容:在当轮循环过程启动时,初始化在线业务互动数据的累积更新次数为0,所述在线业务互动数据的累积更新次数用于记录当轮循环过程中当前目标业务参数被更新的在线业务互动数据的分布情况;统计当轮循环过程中当前目标业务参数被更新的在线业务互动数据的分布情况;根据所述分布情况更新所述在线业务互动数据的累积更新次数;若当轮循环过程结束时,所述在线业务互动数据的累积更新次数为非0,则继续下一次循环过程;若当轮循环过程结束时,所述在线业务互动数据的累积更新次数为0,则终止循环。这样,可以根据在线业务互动数据的累积更新次数进行循环执行过程的启动和结束,从而确保循环更新过程的有序性,避免循环更新过程存在混乱。
在一些可选的实施例中,在上述步骤100-步骤500的基础上,该方法还可以包括以下内容:获取与互动对象业务签名对应的办公协助内容;根据所述办公协助内容获得所述互动对象业务签名之间的办公协助执行行为;根据所述办公协助执行行为生成业务协助互动数据集。
举例而言,所述业务协助互动数据集的在线业务互动数据表示互动对象业务签名,所述业务协助互动数据集中两个在线业务互动数据之间的关联关系表示相应的两个互动对象业务签名之间存在办公协助互动行为。
可以理解的是,通过确定业务协助互动数据集,能够将协助行为考虑在内,从而在后续进行画像分析是基于协助需求进行画像挖掘和定位,提高画像信息挖掘的全面性。
在一些示例中,所述在线业务互动数据集可以为业务协助互动数据集,所述业务协助互动数据集中的在线业务互动数据可以表示互动对象业务签名,所述业务协助互动数据集中两个在线业务互动数据之间的关联关系可以表示相应的两个互动对象业务签名之间存在办公协助互动行为。
基于此,该方法还可以包括以下内容:根据所述业务协助互动数据集中各在线业务互动数据的目标业务参数,生成所述在线业务互动数据表示的互动对象业务签名所对应的业务互动画像信息;通过预先训练好的的画像信息识别模型,基于所述业务互动画像信息挖掘所述互动对象业务签名对应的办公协助画像特征。
在本实施例中,预先训练好的的画像信息识别模型可以是深度神经网络模型或者分类器,用于对业务互动画像信息进行画像特征挖掘,这样以来,可以尽可能精准地挖掘办公协助画像特征,从而通过办公协助画像特征确定出相关的办公协助需求,以基于办公协助需求进行相关办公服务产品的优化升级。
综上,基于上述方案,对各类业务互动数据的互动数据相关性和目标业务参数进行了分析处理,通过对热门业务互动数据子集以及动态业务互动数据的筛选和确定,能够进一步确定出静态业务互动数据,以便通过静态业务互动数据之间的关联关系确定冷门业务互动数据子集。这样,可以结合冷门业务互动数据子集和动态业务互动数据进行相关目标业务参数的确定,所确定的目标业务参数可以用于生成对应的业务互动画像信息,且冷门业务互动数据子集分别与静态业务互动数据、动态业务互动数据以及热门业务互动数据子集存在关联,由此尽可能确保冷门业务互动数据子集对应的业务互动画像信息与在线业务的高度相关性,同时可以结合不同类型的业务互动数据尽可能挖掘出更为精准的潜在画像信息。这样能够改善相关技术在对冷门数据进行业务分析处理时所存在的效率低下的问题。
在一些选择性的实施例中,在对在线业务互动数据集进行画像处理时,可能需要对用户的隐私画像信息进行保护,基于此,在上述步骤100之前,还可以包括以下内容:获取待进行匿名化处理的业务大数据和对应的匿名化指示数据,所述匿名化指示数据包括待匿名化片段和匿名化标识;将所述待进行匿名化处理的业务大数据进行图节点化,得到业务大数据图节点,并将所述待匿名化片段进行图节点化,得到待匿名化片段图节点;基于所述业务大数据图节点进行动态特征识别和静态特征识别,得到动态特征图节点和静态特征图节点,基于所述匿名化标识从所述动态特征图节点和所述静态特征图节点中确定目标动态特征图节点和目标静态特征图节点;基于所述目标动态特征图节点和目标静态特征图节点进行关联特征识别,得到所述匿名化标识的关联特征图节点;基于所述匿名化标识的关联特征图节点和所述待匿名化片段图节点进行匿名化分析,得到可匿名化权重,所述可匿名化权重用于表征所述待进行匿名化处理的业务大数据中所述匿名化标识对应的业务大数据片段被所述待匿名化片段进行匿名化的分析结果。
进一步地,可以将所述待进行匿名化处理的业务大数据和所述匿名化指示数据输入业务大数据处理网络中,所述业务大数据处理网络将所述待进行匿名化处理的业务大数据进行图节点化,得到业务大数据图节点,并将所述待匿名化片段进行图节点化,得到待匿名化片段图节点,基于所述业务大数据图节点进行动态特征识别和静态特征识别,得到动态特征图节点和静态特征图节点,基于所述匿名化标识从所述动态特征图节点和所述静态特征图节点中确定目标动态特征图节点和目标静态特征图节点。
然后基于所述目标动态特征图节点和目标静态特征图节点进行关联特征识别,得到所述匿名化标识的关联特征图节点,基于所述匿名化标识的关联特征图节点和所述待匿名化片段图节点进行匿名化分析,得到可匿名化权重;所述业务大数据处理网络是基于机器学习模型使用业务大数据样本集和对应的匿名化指示数据样本集进行训练得到的。
进而基于所述可匿名化权重使用所述待匿名化片段对所述待进行匿名化处理的业务大数据中所述匿名化标识对应的业务大数据片段进行匿名化,得到匿名化业务大数据。
在本实施例中,匿名化业务大数据可以理解为步骤100中的在线业务互动数据集。
为便于对上述选择性的实施例进行说明,请参阅以下内容。
步骤S110、获取待进行匿名化处理的业务大数据和对应的匿名化指示数据。
相关实施例中,待进行匿名化处理的业务大数据可以是业务用户设备上传至人工智能服务器并保存在人工智能服务器中的业务大数据,待进行匿名化处理的业务大数据包括业务用户设备对应的画像信息和隐私信息。一般而言,为了确保业务大数据中部分画像信息和隐私信息的安全性,避免这类信息被非法访问或者窥探,需要对业务大数据进行匿名化处理。
进一步地,所述匿名化指示数据可以包括待匿名化片段和匿名化标识。待匿名化片段可以理解为用于对业务大数据进行覆盖处理或者乱码处理的数据片段,比如待匿名化片段xxx可以用于对业务大数据data1进行覆盖处理或者乱码处理。匿名化标识可以理解为需要进行匿名化处理的业务大数据的数据片段或者数据块的位置信息。
一般而言,待进行匿名化处理的业务大数据的数据量较为庞大,如果直接对待进行匿名化处理的业务大数据进行匿名化分析和处理,可能会增加人工智能服务器的数据处理负荷,为此,可以通过以下的图节点处理实现对业务大数据简化,从而提高匿名化分析和处理效率。
步骤S120、将所述待进行匿名化处理的业务大数据进行图节点化,得到业务大数据图节点,并将所述待匿名化片段进行图节点化,得到待匿名化片段图节点。
在相关实施例中,为了提高对数据的匿名化分析和处理效率,可以利用图节点化技术对相关数据进行优化处理。图节点化技术可以理解为基于图数据(Graphic Data)的数据转化技术,可以将大量的数据进行节点化处理,不仅可以减少数据量,还可以确保图节点对相应数据集或者数据块的特征表达,同时也能反映不同数据集或者数据块的之间的关联关系和传递关系,这样能够提高数据的匿名化分析和处理效率。
为此,在本实施例中,可以分别对所述待进行匿名化处理的业务大数据以及所述待匿名化片段进行图节点处理,得到业务大数据图节点和待匿名化片段图节点。
步骤S130、基于所述业务大数据图节点进行动态特征识别和静态特征识别,得到动态特征图节点和静态特征图节点,基于所述匿名化标识从所述动态特征图节点和所述静态特征图节点中确定目标动态特征图节点和目标静态特征图节点。
在相关实施例中,动态特征识别用于对相应的图节点的动态特征进行分析,静态特征识别用于对相应的图节点的静态特征进行分析。一般而言,动态特征可以理解为随着时间或者业务场景的变化而变化的特征,比如业务交互对象、业务交互事项等特征。而静态特征可以理解为不随时间或者业务场景的变化而变化的特征,可以理解为图节点固有的特征,比如数据类型特征、数据格式特征等。
相应地,基于所述业务大数据图节点进行动态特征识别和静态特征识别,能够通过不同特征识别实现图节点的特征分类,从而得到动态特征图节点和静态特征图节点。
进一步地,基于所述匿名化标识从所述动态特征图节点和所述静态特征图节点中确定目标动态特征图节点和目标静态特征图节点可以理解为,通过所述匿名化标识从所述动态特征图节点和所述静态特征图节点中确定出与所述匿名化标识匹配的目标动态特征图节点和目标静态特征图节点。
在一些可能的实施例中,所述匿名化标识可以包括待匿名化片段分布标识和待匿名化片段长度。待匿名化片段分布标识可以理解为待匿名化片段的位置分布信息,待匿名化片段长度可以理解为待匿名化片段的数据长度或者数据大小。基于此,上述步骤S130所描述的“基于所述业务大数据图节点进行动态特征识别和静态特征识别,得到动态特征图节点和静态特征图节点,基于所述匿名化标识从所述动态特征图节点和所述静态特征图节点中确定目标动态特征图节点和目标静态特征图节点”,可以包括以下步骤S131-步骤S133所描述的内容。
步骤S131、基于所述业务大数据图节点进行动态特征识别,得到所述动态特征图节点,从所述动态特征图节点中确定在所述待匿名化片段分布标识之前的特征图节点,得到第一动态特征图节点。
在实际实施时,从所述动态特征图节点中确定在所述待匿名化片段分布标识之前的特征图节点可以理解为选取的特征图节点的片段分布标识在所述待匿名化片段分布标识之前,换言之,第一动态特征图节点的片段分布标识在所述待匿名化片段分布标识之前。
在一些可能的实施例中,上述步骤S131所描述的“基于所述业务大数据图节点进行动态特征识别,得到所述动态特征图节点,从所述动态特征图节点中确定在所述待匿名化片段分布标识之前的特征图节点,得到第一动态特征图节点”,可以通过以下步骤S1311-步骤S1314实现。
步骤S1311、获取预设初始图节点,并按照从图节点起点到图节点终点的顺序从业务大数据图节点中确定当前属性图节点。
在本实施例中,不同的图节点之间互相连接以形成图节点网络,初始图节点可以根据实际情况进行选择。当前属性图节点可以理解为具有隐私用户属性或者特定用户属性的、具有较高特征区分度和画像区分度的图节点。
步骤S1312、基于所述预设初始图节点和当前属性图节点进行动态风险识别,得到所述当前属性图节点对应的当前属性动态特征图节点。
在本实施例中,动态风险识别可以理解为对当前属性图节点进行基于时序变化和业务场景变化的信息窃取模拟,从而得到当前属性动态特征图节点。相应的,当前属性动态特征图节点可以理解为在时序上或者业务场景层面上存在可变的隐私用户属性、特定用户属性、特征区分度和画像区分度的图节点。
步骤S1313、将所述当前属性动态特征图节点作为预设初始图节点,并返回按照从图节点起点到图节点终点的顺序依次从业务大数据图节点中确定当前属性图节点的步骤重复识别,直到得到所述业务大数据图节点中各个属性图节点对应的动态特征图节点。
可以理解,通过步骤S1313,能够实现对各个属性图节点对应的动态特征图节点的迭代识别,从而确保各个属性图节点对应的动态特征图节点之间的局部独立性和全局关联性。
步骤S1314、从所述各个属性图节点中确定在所述匿名化标识之前的目标属性动态图节点,将所述目标属性动态图节点对应的动态特征图节点作为第一动态特征图节点。
在实际实施过程中,在确定了各个属性图节点对应的动态特征图节点之后,可以根据所述匿名化标识确定对应的目标属性动态图节点,从而将匿名化标识对应的位置信息考虑在内,进而精准地确定第一动态特征图节点。
步骤S132、基于所述待匿名化片段分布标识和所述待匿名化片段长度确定目标标识,从所述动态特征图节点中确定所述目标标识对应的特征图节点,得到第二动态特征图节点。
在本实施例中,目标标识可以用于表征存在匿名化需求的图节点对应的标识,换言之,第二动态特征图节点可以理解为存在匿名化需求的图节点。
通过上述步骤S131和步骤S132能够分别确定出片段分布标识在所述待匿名化片段分布标识之前的第一动态特征图节点以及存在匿名化需求的第二动态特征图节点,从而为后续的关联特征识别提供完整的识别依据,确保关联特征识别的准确性。
步骤S133、基于所述业务大数据图节点进行静态特征识别,得到所述静态特征图节点,从所述静态特征图节点中确定所述待匿名化片段分布标识对应的特征图节点,得到第一静态特征图节点;从所述静态特征图节点中确定在所述目标标识之后的特征图节点,得到第二静态特征图节点。
可以理解的是,通过上述步骤S131-步骤S133,可以确定出片段分布标识在所述待匿名化片段分布标识之前的第一动态特征图节点以及存在匿名化需求的第二动态特征图节点,并确定出待匿名化片段分布标识对应的第一静态特征图节以及节点标识在所述目标标识之后第二静态特征图节点,这样能够确保不同状态特征的图节点的完整性和全面性,为后续的关联特征识别提供完整的识别依据,确保关联特征识别的准确性。
步骤S140、基于所述目标动态特征图节点和目标静态特征图节点进行关联特征识别,得到所述匿名化标识的关联特征图节点。
在相关实施例中,通过对所述目标动态特征图节点和所述目标静态特征图节点进行关联特征识别,能够得到反映业务大数据的整体情况的关联特征图节点,从而为后续的数据匿名化处理提供全局层面的分析依据和判定依据。
相应的,在步骤S131-步骤S133的基础上,上述步骤S140所描述的“基于所述目标动态特征图节点和目标静态特征图节点进行关联特征识别,得到所述匿名化标识的关联特征图节点”,可以通过以下实施方式实现:基于所述第一动态特征图节点、所述第二动态特征图节点、所述第一静态特征图节点和所述第二静态特征图节点进行节点关联信息分析,得到所述匿名化标识的关联特征图节点。
可以理解,通过对所述第一动态特征图节点、所述第二动态特征图节点、所述第一静态特征图节点和所述第二静态特征图节点进行节点关联信息分析,能够考虑动态特征图节点之间的关联性,静态特征图节点之间的关联性以及动态特征图节点与静态特征图节点之间的关联性,从而确保得到的匿名化标识的关联特征图节点能够反映业务大数据的整体情况,为后续的数据匿名化处理提供全局层面的分析依据和判定依据。
步骤S150、基于所述匿名化标识的关联特征图节点和所述待匿名化片段图节点进行匿名化分析,得到可匿名化权重。
在本实施例中,所述可匿名化权重可以用于表征所述待进行匿名化处理的业务大数据中所述匿名化标识对应的业务大数据片段被所述待匿名化片段进行匿名化的分析结果。进一步地,该分析结果可以记录所述匿名化标识对应的业务大数据片段被所述待匿名化片段进行匿名化之后,相关的没有被匿名化处理的业务大数据片段的信息内容表达准确性。
比如,对于业务大数据而言,包括业务大数据片段p1、业务大数据片段p2、业务大数据片段p3、业务大数据片段p4和业务大数据片段p5。所述匿名化标识对应的业务大数据片段为业务大数据片段p4,那么在业务大数据片段p4被所述待匿名化片段xxx匿名化之后,剩余的业务大数据片段p1、业务大数据片段p2、业务大数据片段p3和业务大数据片段p5的信息内容表达准确性可以通过分析结果进行表达。
在一些示例中,可匿名化权重越大,表明所述匿名化标识对应的业务大数据片段被所述待匿名化片段进行匿名化之后,相关的没有被匿名化处理的业务大数据片段的信息内容表达准确性越高,可匿名化权重越小,表明所述匿名化标识对应的业务大数据片段被所述待匿名化片段进行匿名化之后,相关的没有被匿名化处理的业务大数据片段的信息内容表达准确性越低。
如此设计,可以基于可匿名化权重以及待匿名化片段对匿名化标识对应的业务大数据片段进行匿名化处理,从而在实现数据匿名化的前提下,尽可能确保匿名化之后的业务大数据的其他内容表达的准确性,避免匿名化处理对业务大数据本身的数据结构和数据内容表达的破坏,进而提高数据匿名化处理的可靠性。
在一些可选的实施例中,上述步骤S150所描述的“基于所述匿名化标识的关联特征图节点和所述待匿名化片段图节点进行匿名化分析,得到可匿名化权重”,可以包括以下内容:基于所述匿名化标识的关联特征图节点和所述待匿名化片段图节点进行匿名化风险识别,得到待匿名化的潜在图节点,基于所述待匿名化的潜在图节点进行线性识别,得到可匿名化权重。
在本实施例中,匿名化风险识别可以理解为进行匿名化之后的数据偏差风险或者数据损坏风险识别,通过匿名化风险识别,能够得到待匿名化的潜在图节点,而待匿名化的潜在图节点可以包括具有不同匿名化需求和不同匿名化程度的图节点。这样一来,通过待匿名化的潜在图节点进行线性识别,能够考虑不同的潜在图节点在匿名化过程中的互相影响,从而确保可匿名化权重的可信度。
在另外的一些实施例中,上述步骤“基于所述匿名化标识的关联特征图节点和所述待匿名化片段图节点进行匿名化风险识别,得到待匿名化的潜在图节点,基于所述待匿名化的潜在图节点进行线性识别,得到可匿名化权重”,可以包括以下步骤S151-步骤S155所描述的内容。
步骤S151、获取预设目标潜在图节点,按照从图节点起点到图节点终点的顺序从所述待匿名化片段图节点中确定当前待匿名化属性图节点。
在实际实施过程中,预设目标潜在图节点可以根据实际需求进行选择。当前待匿名化属性图节点可以理解为存在匿名化可能性的图节点。
步骤S152、基于所述预设目标潜在图节点、所述匿名化标识的关联特征图节点和所述当前待匿名化属性图节点识别所述当前待匿名化属性图节点对应的当前待匿名化属性潜在图节点。
在本实施例中,当前待匿名化属性潜在图节点可以理解为在匿名化过程中可能存在对其他图节点的关联影响的图节点。
步骤S153、基于所述当前待匿名化属性潜在图节点进行线性识别,得到所述当前待匿名化属性图节点对应的当前匿名化权重值。
可以理解,通过当前待匿名化属性潜在图节点进行线性识别,能够准确确定当前待匿名化属性图节点对应的当前匿名化权重值。
步骤S154、将所述当前待匿名化属性潜在图节点作为预设目标潜在图节点,并返回按照从图节点起点到图节点终点的顺序从所述待匿名化片段图节点中确定当前待匿名化属性图节点的步骤重复执行,直到得到各个待匿名化属性图节点对应的匿名化权重值。
在该步骤中,通过重复确定各个待匿名化属性图节点对应的匿名化权重值,能够确保各个待匿名化属性图节点对应的匿名化权重值之前的区分度,进而便于后续进行可匿名化权重的确定。
步骤S155、基于所述各个待匿名化属性图节点对应的匿名化权重值进行迭代识别,得到所述可匿名化权重。
在本实施例中,基于所述各个待匿名化属性图节点对应的匿名化权重值进行迭代识别可以理解为:通过各个待匿名化属性图节点对应的匿名化权重值进行多次匿名化模拟,然后根据不同的模拟结果进行加权计算,以得到可匿名化权重。比如,待匿名化属性图节点对应的匿名化权重值为i,i为正整数,那么迭代识别的次数可以为i次。
可以理解,通过实施上述步骤S151-步骤S155,通过重复确定各个待匿名化属性图节点对应的匿名化权重值,能够确保各个待匿名化属性图节点对应的匿名化权重值之前的区分度,进而在确定可匿名化权重时,能够确保可匿名化权重与实际业务交互场景的高度匹配,并且保证可匿名化权重的可信度。
在一些可能的实施例中,上述方法还可以包括以下步骤S161和步骤S163所描述的内容。
步骤S161、将所述待进行匿名化处理的业务大数据和所述匿名化指示数据输入业务大数据处理网络中,所述业务大数据处理网络将所述待进行匿名化处理的业务大数据进行图节点化,得到业务大数据图节点,并将所述待匿名化片段进行图节点化,得到待匿名化片段图节点,基于所述业务大数据图节点进行动态特征识别和静态特征识别,得到动态特征图节点和静态特征图节点,基于所述匿名化标识从所述动态特征图节点和所述静态特征图节点中确定目标动态特征图节点和目标静态特征图节点。
步骤S162、基于所述目标动态特征图节点和目标静态特征图节点进行关联特征识别,得到所述匿名化标识的关联特征图节点,基于所述匿名化标识的关联特征图节点和所述待匿名化片段图节点进行匿名化分析,得到可匿名化权重。
在上述步骤S161和步骤S162中,所述业务大数据处理网络是基于机器学习模型使用业务大数据样本集和对应的匿名化指示数据样本集进行训练得到的。
步骤S163、基于所述可匿名化权重使用所述待匿名化片段对所述待进行匿名化处理的业务大数据中所述匿名化标识对应的业务大数据片段进行匿名化,得到匿名化业务大数据。
可以理解,结合业务大数据处理网络,能够在实现数据匿名化的前提下,尽可能确保匿名化之后的业务大数据的其他内容表达的准确性,避免匿名化处理对业务大数据本身的数据结构和数据内容表达的破坏,进而提高数据匿名化处理的可靠性。
在另外的一些实施例中,所述业务大数据处理网络可以包括图节点化层和匿名化分析层,图节点化层和匿名化分析层可以理解为业务大数据处理网络的相关功能网络层,在对业务大数据处理网络进行训练时,可以对这些相关的功能网络层进行一并训练。基于此,上述步骤S161所描述的“将所述待进行匿名化处理的业务大数据和所述匿名化指示数据输入业务大数据处理网络中”,可以包括以下内容:将所述待进行匿名化处理的业务大数据和所述匿名化指示数据输入到所述图节点化层中,所述图节点化层将所述待进行匿名化处理的业务大数据进行图节点化,得到业务大数据图节点,并将所述待匿名化片段进行图节点化,得到待匿名化片段图节点,基于所述业务大数据图节点进行动态特征识别和静态特征识别,得到动态特征图节点和静态特征图节点,基于所述匿名化标识从所述动态特征图节点和所述静态特征图节点中确定目标动态特征图节点和目标静态特征图节点,基于所述目标动态特征图节点和目标静态特征图节点进行关联特征识别,得到所述匿名化标识的关联特征图节点;将所述匿名化标识的关联特征图节点和所述待匿名化片段图节点输入到所述匿名化分析层中,所述匿名化分析层基于所述匿名化标识的关联特征图节点和所述待匿名化片段图节点进行匿名化分析,得到可匿名化权重。
可以理解,通过训练上述的业务大数据处理网络及其相关的相关功能网络层,可以将业务大数据处理网络应用到不同的业务场景下,从而在不同的业务场景下进行数据匿名化处理,以在实现数据匿名化的前提下,尽可能确保匿名化之后的业务大数据的其他内容表达的准确性,避免匿名化处理对业务大数据本身的数据结构和数据内容表达的破坏,进而提高数据匿名化处理的可靠性。
在一些选择性的实施例中,在上述步骤S163所描述的“基于所述可匿名化权重使用所述待匿名化片段对所述待进行匿名化处理的业务大数据中所述匿名化标识对应的业务大数据片段进行匿名化,得到匿名化业务大数据”的基础上,还可以包括以下步骤S170所描述的内容。
步骤S170,对所述匿名化业务大数据进行用户画像挖掘以得到画像挖掘结果,对所述画像挖掘结果进行隐私信息识别以得到隐私信息识别结果,通过所述隐私信息识别结果确定所述匿名化业务大数据的匿名化保护评分。
在实际实施时,匿名化保护评分的取值可以是0~1,取值越高,表明匿名化业务大数据的隐私保护能力越强。进一步地,对画像挖掘结果进行隐私信息识别可以利用预先确定的隐私信息标签进行识别,相应的,隐私信息识别结果可以是隐私信息的识别匹配度,通过识别匹配度以及相关的评价因子可以计算得到匿名化业务大数据的匿名化保护评分。相关的评价因子可以根据实际情况进行增减,在此不作赘述。
在一些选择性的实施例中,上述步骤S170所描述的“对所述匿名化业务大数据进行用户画像挖掘以得到画像挖掘结果”,可以包括以下步骤S171-步骤S175所描述的内容。
步骤S171、通过所述匿名化业务大数据获取群体用户画像信息集合。
在本实施例中,所述群体用户画像信息集合包括连续的j个群体用户画像信息,j为大于1的整数。
步骤S172、根据所述群体用户画像信息集合获取个体用户画像信息集合。
在本实施例中,所述个体用户画像信息集合包括连续的j个个体用户画像信息。
步骤S173、基于所述群体用户画像信息集合,通过群体用户识别模型所包括的第一关键词抽取网络获取群体用户关键词信息集合,基于所述个体用户画像信息集合,通过所述群体用户识别模型所包括的第二关键词抽取网络获取个体用户关键词信息集合。
在本实施例中,所述群体用户关键词信息集合包括j个群体用户关键词信息,所述个体用户关键词信息集合包括j个个体用户关键词信息;
步骤S174、基于所述群体用户关键词信息集合以及所述个体用户关键词信息集合,通过所述群体用户识别模型所包括的画像标签定位层获取所述群体用户画像信息集合所对应的画像标签定位结果。
步骤S175、根据所述画像标签定位结果确定所述群体用户画像信息集合的画像挖掘结果。
可以理解,通过对个体用户画像和群体用户画像进行分析,能够得到个体用户关键词信息和群体用户关键词信息,这样能够进行隐私匿名化检测,从而得到用于表征个体画像和群体画像分布的画像标签定位结果。如此,可以基于画像标签定位结果确定群体用户画像信息集合的画像挖掘结果,进而实现对匿名化业务大数据的群体画像和个体画像的针对性挖掘,确保画像挖掘结果的完整性。
在一些选择性的实施例中,上述步骤S174所描述的“基于所述群体用户关键词信息集合以及所述个体用户关键词信息集合,通过所述群体用户识别模型所包括的画像标签定位层获取所述群体用户画像信息集合所对应的画像标签定位结果”,可以通过以下两种实施方式实现。
第一种实施方式,基于所述群体用户关键词信息集合,通过所述群体用户识别模型所包括的第一特征分类层获取j个第一关键词特征,其中,每个第一关键词特征对应于一个群体用户关键词信息;基于所述个体用户关键词信息集合,通过所述群体用户识别模型所包括的第二特征分类层获取j个第二关键词特征,其中,每个第二关键词特征对应于一个个体用户关键词信息;对所述j个第一关键词特征以及所述j个第二关键词特征进行特征整合处理,得到j个目标关键词特征,其中,每个目标关键词特征包括一个第一关键词特征以及一个第二关键词特征;基于所述j个目标关键词特征,通过所述群体用户识别模型所包括的匿名化定位网络获取全局关键词特征,其中,所述全局关键词特征为根据所述j个目标关键词特征以及j个匿名化定位热度确定的,每个目标关键词特征对应于一个匿名化定位热度;基于所述全局关键词特征,通过所述群体用户识别模型所包括的画像标签定位层获取所述群体用户画像信息集合所对应的画像标签定位结果。
第二种实施方式,基于所述群体用户关键词信息集合,通过所述群体用户识别模型所包括的第一非匿名化定位网络获取j个第一关键词特征,其中,每个第一关键词特征对应于一个群体用户关键词信息;基于所述个体用户关键词信息集合,通过所述群体用户识别模型所包括的第二非匿名化定位网络获取j个第二关键词特征,其中,每个第二关键词特征对应于一个个体用户关键词信息;对所述j个第一关键词特征以及所述j个第二关键词特征进行特征整合处理,得到j个目标关键词特征,其中,每个目标关键词特征包括一个第一关键词特征以及一个第二关键词特征;基于所述j个目标关键词特征,通过所述群体用户识别模型所包括的所述画像标签定位层获取所述群体用户画像信息集合所对应的画像标签定位结果。
如此,通过择一实施上述针对“基于所述群体用户关键词信息集合以及所述个体用户关键词信息集合,通过所述群体用户识别模型所包括的画像标签定位层获取所述群体用户画像信息集合所对应的画像标签定位结果”的实施方式,能够准确可靠地确定画像标签定位结果,进而确保画像标签定位结果对个体画像和群体画像分布的表达准确性。
在一些选择性的实施例中,上述步骤所描述的“基于所述群体用户关键词信息集合,通过所述群体用户识别模型所包括的第一非匿名化定位网络获取j个第一关键词特征”,可以包括以下内容:对于所述群体用户关键词信息集合中的每个群体用户关键词信息,通过所述第一非匿名化定位网络所包括的动态隐私分类层获取第一动态个体关键词信息,其中,所述第一非匿名化定位网络属于所述群体用户识别模型;对于所述群体用户关键词信息集合中的每个群体用户关键词信息,通过所述第一非匿名化定位网络所包括的特征分类层获取第一潜在个体关键词信息;对于所述群体用户关键词信息集合中的每个群体用户关键词信息,基于所述第一动态个体关键词信息以及所述第一潜在个体关键词信息,通过所述第一非匿名化定位网络所包括的用户分类层获取第一全局关键词信息;对于所述群体用户关键词信息集合中的每个群体用户关键词信息,基于所述第一全局关键词信息以及所述群体用户关键词信息,通过所述第一非匿名化定位网络所包括的第一特征分类层获取第一关键词特征。
在一些选择性的实施例中,上述步骤所描述的“基于所述个体用户关键词信息集合,通过所述群体用户识别模型所包括的第二非匿名化定位网络获取j个第二关键词特征”,可以包括以下内容:对于所述个体用户关键词信息集合中的每个个体用户关键词信息,通过所述第二非匿名化定位网络所包括的动态隐私分类层获取第二动态个体关键词信息,其中,所述第二非匿名化定位网络属于所述群体用户识别模型;对于所述个体用户关键词信息集合中的每个个体用户关键词信息,通过所述第二非匿名化定位网络所包括的特征分类层获取第二潜在个体关键词信息;对于所述个体用户关键词信息集合中的每个个体用户关键词信息,基于所述第二动态个体关键词信息以及所述第二潜在个体关键词信息,通过所述第二非匿名化定位网络所包括的用户分类层获取第二全局关键词信息;对于所述个体用户关键词信息集合中的每个个体用户关键词信息,基于所述第二全局关键词信息以及所述个体用户关键词信息,通过所述第二非匿名化定位网络所包括的第二特征分类层获取第二关键词特征。
应当理解,上述针对群体画像、个体画像、群体关键词以及个体关键词的相关释义可以参阅相关现有技术,在此不一一列举。通过实施上述方案,能够完整地确定出第一关键词特征和第二关键词特征,从而便于后续进行群体画像分布和个体画像分布的准确划分。
其次,针对上述基于人工智能的大数据业务处理方法,本发明实施例还提出了一种示例性的基于人工智能的大数据业务处理装置,如图2所示,基于人工智能的大数据业务处理装置200可以包括以下的功能模块。
数据获取模块210,用于获取在线业务互动数据集中各在线业务互动数据的互动数据相关性。
数据筛选模块220,用于根据设定的判定值和所述各在线业务互动数据的互动数据相关性从所述在线业务互动数据集中筛选出热门业务互动数据子集。
数据确定模块230,用于基于所述热门业务互动数据子集,确定所述在线业务互动数据集中的动态业务互动数据及所述动态业务互动数据的目标业务参数,所述动态业务互动数据的目标业务参数大于所述设定的判定值。
数据获得模块240,用于根据所述在线业务互动数据集中除所述动态业务互动数据之外的静态业务互动数据及所述静态业务互动数据之间的关联关系,获得所述在线业务互动数据集中的冷门业务互动数据子集。
参数确定模块250,用于基于所述冷门业务互动数据子集和所述动态业务互动数据,确定所述冷门业务互动数据子集中各在线业务互动数据的目标业务参数;其中,确定的所述目标业务参数用于生成与相应在线业务互动数据对应的业务互动画像信息。
然后,基于上述的方法实施例和装置实施例,本发明实施例还提出了一种系统实施例,也即基于人工智能的大数据业务处理系统,请结合参阅图3,基于人工智能的大数据业务处理系统30可以包括人工智能服务器10和业务用户设备20。其中,人工智能服务器10和业务用户设备20通信用以实施上述方法,进一步地,基于人工智能的大数据业务处理系统30的功能性描述如下。
人工智能服务器10获取业务用户设备20的在线业务互动数据集中各在线业务互动数据的互动数据相关性;根据设定的判定值和所述各在线业务互动数据的互动数据相关性从所述在线业务互动数据集中筛选出热门业务互动数据子集;基于所述热门业务互动数据子集,确定所述在线业务互动数据集中的动态业务互动数据及所述动态业务互动数据的目标业务参数,所述动态业务互动数据的目标业务参数大于所述设定的判定值;根据所述在线业务互动数据集中除所述动态业务互动数据之外的静态业务互动数据及所述静态业务互动数据之间的关联关系,获得所述在线业务互动数据集中的冷门业务互动数据子集;基于所述冷门业务互动数据子集和所述动态业务互动数据,确定所述冷门业务互动数据子集中各在线业务互动数据的目标业务参数;其中,确定的所述目标业务参数用于生成与相应在线业务互动数据对应的业务用户设备20的业务互动画像信息。
进一步地,请结合参阅图4,人工智能服务器10可以包括处理引擎110、网络模块120和存储器130,处理引擎110和存储器130通过网络模块120通信。
处理引擎110可以处理相关的信息和/或数据以执行本申请中描述的一个或多个功能。例如,在一些实施例中,处理引擎110可以包括至少一个处理引擎(例如,单核处理引擎或多核处理器)。仅作为示例,处理引擎110可以包括中央处理单元(Central ProcessingUnit,CPU)、专用集成电路(Application-Specific Integrated Circuit,ASIC)、专用指令集处理器(Application-Specific Instruction-set Processor,ASIP)、图形处理单元(Graphics Processing Unit,GPU)、物理处理单元(Physics Processing Unit,PPU)、数字信号处理器(Digital Signal Processor,DSP)、现场可编程门阵列(Field ProgrammableGate Array,FPGA)、可编程逻辑器件(Programmable Logic Device,PLD)、控制器、微控制器单元、精简指令集计算机(Reduced Instruction-Set Computer,RISC)、微处理器等或其任意组合。
网络模块120可以促进信息和/或数据的交换。在一些实施例中,网络模块120可以是任何类型的有线或无线网络或其组合。仅作为示例,网络模块120可以包括缆线网络、有线网络、光纤网络、电信网络、内部网络、互联网、局域网络(Local Area Network,LAN)、广域网(Wide Area Network,WAN)、无线局域网络(Wireless Local Area Network,WLAN)、城域网(Metropolitan Area Network,MAN)、公用电话交换网(Public Telephone SwitchedNetwork,PSTN)、蓝牙网络、无线个域网络、近场通讯(Near Field Communication,NFC)网络等或上述举例的任意组合。在一些实施例中,网络模块120可以包括至少一个网络接入点。例如,网络模块120可以包括有线或无线网路接入点,如基站和/或网路接入点。
存储器130可以是,但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-OnlyMemory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。其中,存储器130用于存储程序,所述处理引擎110在接收到执行指令后,执行所述程序。
可以理解,图4所示的结构仅为示意,人工智能服务器10还可包括比图4中所示更多或者更少的组件,或者具有与图4所示不同的配置。图4中所示的各组件可以采用硬件、软件或其组合实现。
需要理解的是,针对上述内容,本领域技术人员可以根据上述所公开的内容进行前后推导毫无疑义地确定相关技术术语所指代的含义,例如针对一些值、系数、权重、指数、因子等术语,本领域技术人员可以根据前后的逻辑关系进行推导和确定,这些数值的取值范围可以根据实际情况进行选取,例如0~1,又例如1~10,再例如50~100,在此均不作限定。
本领域技术人员可以根据上述已公开的内容毫无疑义对一些预设的、基准的、预定的、设定的以及目标的技术特征/技术术语进行确定,例如阈值、阈值区间、阈值范围等。对于一些未作解释的技术特征术语,本领域技术人员完全能够基于前后文的逻辑关系进行合理地、毫无疑义地推导,从而清楚、完整地实施上述技术方案。未作解释的技术特征术语的前缀,例如“第一”、“第二”、“上一个”、“下一个”、“前一个”、“后一个”、“当前”、“历史”、“最新”、“最佳”、“目标”、“指定”和“实时”等,可以根据前后文进行毫无疑义地推导和确定。未作解释的技术特征术语的后缀,例如“列表”、“特征”、“序列”、“集合”、“矩阵”、“单元”、“元素”、“轨迹”和“清单”等,也可以根据前后文进行毫无疑义地推导和确定。
本发明实施例公开的上述内容对于本领域技术人员而言是清楚完整的。应当理解,本领域技术人员基于上述公开的内容对未作解释的技术术语进行推导和分析的过程是基于本申请所记载的内容进行的,因此上述内容并不是对整体方案的创造性的评判。
应当理解,上述所示的系统及其模块可以利用各种方式来实现。例如,在一些实施例中,系统及其模块可以通过硬件、软件或者软件和硬件的结合来实现。其中,硬件部分可以利用专用逻辑来实现;软件部分则可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域技术人员可以理解上述的方法和系统可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本申请的系统及其模块不仅可以有诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用例如由各种类型的处理器所执行的软件实现,还可以由上述硬件电路和软件的结合(例如,固件)来实现。
需要说明的是,不同实施例可能产生的有益效果不同,在不同的实施例里,可能产生的有益效果可以是以上任意一种或几种的组合,也可以是其他任何可能获得的有益效果。
上文已对基本概念做了描述,显然,对于本领域技术人员来说,上述详细披露仅仅作为示例,而并不构成对本申请的限定。虽然此处并没有明确说明,本领域技术人员可能会对本申请进行各种修改、改进和修正。该类修改、改进和修正在本申请中被建议,所以该类修改、改进、修正仍属于本申请示范实施例的精神和范围。
同时,本申请使用了特定词语来描述本申请的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本申请至少一个实施例相关的某一特征、结构或特点。因此,应强调并注意的是,本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一个替代性实施例”并不一定是指同一实施例。此外,本申请的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。
此外,本领域技术人员可以理解,本申请的各方面可以通过若干具有可专利性的种类或情况进行说明和描述,包括任何新的和有用的工序、机器、产品或物质的组合,或对他们的任何新的和有用的改进。相应地,本申请的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外,本申请的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品,该产品包括计算机可读程序编码。
计算机存储介质可能包含一个内含有计算机程序编码的传播数据信号,例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式,包括电磁形式、光形式等,或合适的组合形式。计算机存储介质可以是除计算机可读存储介质之外的任何计算机可读介质,该介质可以通过连接至一个指令执行系统、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机存储介质上的程序编码可以通过任何合适的介质进行传播,包括无线电、电缆、光纤电缆、RF、或类似介质,或任何上述介质的组合。
本申请各部分操作所需的计算机程序编码可以用任意一种或多种程序语言编写,包括面向对象编程语言如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB.NET、Python等,常规程序化编程语言如C语言、Visual Basic、Fortran 2003、Perl、COBOL 2002、PHP、ABAP,动态编程语言如Python、Ruby和Groovy,或其他编程语言等。该程序编码可以完全在用户计算机上运行、或作为独立的软件包在用户计算机上运行、或部分在用户计算机上运行部分在远程计算机运行、或完全在远程计算机或服务器上运行。在后种情况下,远程计算机可以通过任何网络形式与用户计算机连接,比如局域网(LAN)或广域网(WAN),或连接至外部计算机(例如通过因特网),或在云计算环境中,或作为服务使用如软件即服务(SaaS)。
此外,除非权利要求中明确说明,本申请所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用,并非用于限定本申请流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例,但应当理解的是,该类细节仅起到说明的目的,附加的权利要求并不仅限于披露的实施例,相反,权利要求旨在覆盖所有符合本申请实施例实质和范围的修正和等价组合。例如,虽然以上所描述的系统组件可以通过硬件设备实现,但是也可以只通过软件的解决方案得以实现,如在现有的服务器或移动设备上安装所描述的系统。
同理,应当注意的是,为了简化本申请披露的表述,从而帮助对一个或多个发明实施例的理解,前文对本申请实施例的描述中,有时会将多种特征归并至一个实施例、附图或对其的描述中。但是,这种披露方法并不意味着本申请对象所需要的特征比权利要求中提及的特征多。实际上,实施例的特征要少于上述披露的单个实施例的全部特征。
一些实施例中使用了描述成分、属性数量的数字,应当理解的是,此类用于实施例描述的数字,在一些示例中使用了修饰词“大约”、“近似”或“大体上”来修饰。除非另外说明,“大约”、“近似”或“大体上”表明所述数字允许有适应性的变化。相应地,在一些实施例中,说明书和权利要求中使用的数值参数均为近似值,该近似值根据个别实施例所需特点可以发生改变。在一些实施例中,数值参数应考虑规定的有效数位并采用一般位数保留的方法。尽管本申请一些实施例中用于确认其范围广度的数值域和参数为近似值,在具体实施例中,此类数值的设定在可行范围内尽可能精确。
针对本申请引用的每个专利、专利申请、专利申请公开物和其他材料,如文章、书籍、说明书、出版物、文档等,特此将其全部内容并入本申请作为参考。与本申请内容不一致或产生冲突的申请历史文件除外,对本申请权利要求最广范围有限制的文件(当前或之后附加于本申请中的)也除外。需要说明的是,如果本申请附属材料中的描述、定义、和/或术语的使用与本申请所述内容有不一致或冲突的地方,以本申请的描述、定义和/或术语的使用为准。
最后,应当理解的是,本申请中所述实施例仅用以说明本申请实施例的原则。其他的变形也可能属于本申请的范围。因此,作为示例而非限制,本申请实施例的替代配置可视为与本申请的教导一致。相应地,本申请的实施例不仅限于本申请明确介绍和描述的实施例。