一种跨社交网络用户对齐方法以及装置

文档序号:9159 发布日期:2021-09-17 浏览:55次 英文

一种跨社交网络用户对齐方法以及装置

技术领域

本发明主要涉及社交网络分析

技术领域

,具体涉及一种跨社交网络用户对齐方法以及装置。

背景技术

各种功能各异的社交平台极大丰富了人们的生活,但是也使得用户的各类信息散布于各个社交平台中无法整合。因为社交平台的的根源是用户,所以各个社交平台都想独占用户,不愿用户流失,因此各个社交平台之间的信息共享机制缺失,导致用户的数据碎片化。用户数据碎片化导致用户在加入新社交平台时丢失了之前的社交数据,需要重新花费时间构建社交圈,导致用户体验不佳。而对于社交平台而言,新用户加入时没有之前的社交数据,无法知道其社交关系与喜好,无法进行有效的个性化推荐,也为社交平台带来了弊端。跨社交网络用户对齐是通过将多个网络中属于现实世界中同一人的不同账号匹配起来,这对于社交网络领域的多个方面研究或应用都具有重大意义。

而对社交网络的研究方向可以大致分为三类:基于用户属性的用户对齐技术研究,基于网络结构的用户对齐技术研究,结合属性与网络结构的多因素用户对齐技术研究。其中,结合属性与网络结构的多因素用户对齐技术研究无论是通过网络结构进行用户对齐还是基于属性进行用户对齐,都在近些年取得了不错的效果。既然各种方法都各自有着自己的优势,自然就有学者尝试着将各种方式相结合一起进行用户对齐。现有技术有的是使用社交网络结构和用户档案属性实现用户对齐;有的是将LHNE模型用于跨网络用户对齐任务,该模型同时利用了网络结构和用户文本信息;有的是同时利用网络结构和用户位置信息,采用深度神经网络完成用户对齐任务。但是上述方法均没有提取出区分性语义特征,且网络结构信息的稀疏性对用户对齐准确率造成了极大的影响。

发明内容

本发明所要解决的技术问题是针对现有技术的不足,提供一种跨社交网络用户对齐方法以及装置。

本发明解决上述技术问题的技术方案如下:一种跨社交网络用户对齐方法,包括如下步骤:

导入社交网络用户数据,并构建用于进行特征提取的训练模型,根据所述社交网络用户数据对所述训练模型进行优化处理,得到优化模型;

导入待测社交网络用户数据,通过所述优化模型对所述待测社交网络用户数据进行对齐处理,得到用户对齐结果。

本发明的有益效果是:通过构建用于进行特征提取的训练模型,根据社交网络用户数据对训练模型的优化处理得到优化模型,通过优化模型对待测社交网络用户数据的对齐处理得到用户对齐结果,能够提取区分性语义特征,减少网络结构信息的稀疏性,大大地提高了跨社交网络用户对齐的准确性。

附图说明

图1为本发明实施例提供的跨社交网络用户对齐方法的流程示意图;

图2为本发明实施例提供的跨社交网络用户对齐装置的模块框图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。

图1为本发明实施例提供的跨社交网络用户对齐方法的流程示意图。

如图1所示,一种跨社交网络用户对齐方法,包括如下步骤:

导入社交网络用户数据,并构建用于进行特征提取的训练模型,根据所述社交网络用户数据对所述训练模型进行优化处理,得到优化模型;

导入待测社交网络用户数据,通过所述优化模型对所述待测社交网络用户数据进行对齐处理,得到用户对齐结果。

上述实施例中,通过构建用于进行特征提取的训练模型,根据社交网络用户数据对训练模型的优化处理得到优化模型,通过优化模型对待测社交网络用户数据的对齐处理得到用户对齐结果,能够提取区分性语义特征,减少网络结构信息的稀疏性,大大地提高了跨社交网络用户对齐的准确性。

可选地,作为本发明的一个实施例,所述社交网络用户数据包括携带预设用户编号的多个社交网络用户子数据,每个所述社交网络用户子数包括用户属性信息、结构数据和真实值;所述构建用于进行特征提取的训练模型的过程包括如下步骤:

从每个所述社交网络用户子数据中获得用户属性信息,并分别对各个所述用户属性信息进行属性特征提取,得到与各个所述预设用户编号对应的属性特征向量组;

从每个所述社交网络用户子数据中获得结构数据,并分别对各个所述结构数据进行结构特征提取,得到与各个所述预设用户编号对应的结构特征向量;

从每个所述社交网络用户子数据中获得真实值,并将所有的属性特征向量组、所有的真实值以及所有的结构特征向量一并进行融合损失计算,得到融合损失函数;

所述根据所述社交网络用户数据对所述训练模型进行优化处理,得到优化模型的过程包括:

根据所述融合损失函数对所述训练模型进行参数更新,得到优化模型。

具体地,步骤S1:将含属性信息和结构信息的所述社交网络用户数据进行属性特征向量提取得到用户节点的属性特征向量(即所述属性特征向量组);步骤S2:将含属性信息和结构信息的所述社交网络用户数据进行结构特征向量提取得到用户节点的结构特征向量;步骤S3:以步骤S1和步骤S2的输出为输入,融合属性特征向量(即所述属性特征向量组)与结构特征向量,判定用户对齐结果,与地面真实值(即所述真实)作比较并计算融合损失。

上述实施例中,分别对各个用户属性信息的属性特征提取得到与各个预设用户编号对应的属性特征向量组,分别对各个结构数据的结构特征提取得到与各个预设用户编号对应的结构特征向量,将所有的属性特征向量组、所有的真实值以及所有的结构特征向量一并进行融合损失计算得到融合损失函数,能够提取区分性语义特征,大大地提高了跨社交网络用户对齐的准确性。

可选地,作为本发明的一个实施例,所述用户属性信息包括邻居节点信息和多个用户属性参数,多个所述用户属性信息两两对应;所述分别对各个所述用户属性信息进行属性特征提取,得到与所述预设用户编号对应的属性特征向量组的过程包括:

分别对与所述预设用户编号对应的多个所述用户属性参数进行单词特征提取,得到与所述用户属性参数对应的多个单词特征向量;

分别对各个所述单词特征向量进行信息的平衡处理,得到与所述单词特征向量对应的单词平衡向量;

通过TextCNN卷积网络分别对多个所述单词平衡向量进行局部特征提取,得到与所述用户属性参数对应的局部特征向量组;

分别对各个所述局部特征向量组进行评估处理,得到与所述用户属性参数对应的语义特征向量;

通过第一式分别对与所述预设用户编号对应的多个所述语义特征向量进行融合,得到与所述预设用户编号对应的融合属性特征向量,所述第一式为:

其中,zik为预设用户编号i的第k个属性的语义特征向量,γk∈R,γk为要学习的相应加权参数,vi为融合属性特征向量,m为预设用户编号对应的语义特征向量的个数;

根据各个所述邻居节点信息得到与所述预设用户编号相邻的预设用户编号,并将所述相邻的预设用户编号对应的融合属性特征向量作为邻居属性特征向量;

分别对两两对应的所述用户属性信息各自所对应的所述融合属性特征向量以及与各自的所述融合属性特征向量对应的多个所述邻居属性特征向量进行向量融合,得到与所述预设用户编号对应的属性特征向量组。

应理解地,多个所述用户属性信息两两对应其对应关系为已知的,在所述社交网络用户数据中就已知晓,如在社交网络用户数据中,有A、B、C三个用户属性信息,A用户属性信息与B用户属性信息对应,B用户属性信息与C用户属性信息对应。

应理解地,所述TextCNN卷积网络为利用不同大小卷积核提取不同颗粒度语义特征的卷积神经网络。

应理解地,将不同属性的所述语义特征向量一起作为输入,经过注意机制得到用户节点的融合属性特征(即所述融合属性特征向量)。

应理解地,该属性所有单词嵌入(即所述单词平衡向量)通过包含不同颗粒度大小的TextCNN卷积网络捕捉局部特征,输出该属性不同抽象层次的语义信息(即所述局部特征向量组)。

上述实施例中,分别对各个用户属性信息的属性特征提取得到与预设用户编号对应的属性特征向量组,为后续数据处理提供基础,能够提取区分性语义特征,减少网络结构信息的稀疏性,大大地提高了跨社交网络用户对齐的准确性。

可选地,作为本发明的一个实施例,所述分别对与所述预设用户编号对应的多个所述用户属性参数进行单词特征提取,得到与所述用户属性参数对应的多个单词特征向量的过程包括:

分别对与所述预设用户编号对应的多个所述用户属性参数进行单词划分,得到与各个所述用户属性参数对应的多个单词信息,并将各个所述单词信息转换为单词向量;

分别对各个所述单词信息进行字符划分,得到与所述单词信息对应的多个字符信息,并将各个所述字符信息转换为字符向量;

通过预设一维卷积层分别对各个所述字符向量进行特征提取,得到与所述字符向量对应的字符特征向量;

通过预设最大池化层分别对各个所述字符特征向量进行筛选,经筛选得到与所述单词信息对应的多个字符筛选向量;

分别对各个所述单词向量和与所述单词向量对应的多个字符筛选向量进行向量拼接,得到与所述单词向量对应的单词特征向量。

应理解地,将一种属性(即所述用户属性参数)分成一个单词列表(即多个所述单词信息),将每个单词(即所述单词信息)表示为词嵌入(即所述单词向量)并将每个单词(即所述单词信息)分为一个字符列表(即多个所述字符信息),将每个字符(即所述字符信息)表示为字符嵌入(即所述字符向量),对所有字符嵌入(即所述字符向量)进行一维卷积和最大池化,将词嵌入(即所述单词向量)与池化后的字符(即所述字符向量)嵌入拼接,作为一个单词的最终嵌入(即所述单词特征向量)。

上述实施例中,分别对与预设用户编号对应的多个用户属性参数的单词特征提取得到与用户属性参数对应的多个单词特征向量,为后续提取区分性的语义特征提供数据基础,大大地提高了跨社交网络用户对齐的准确性。

可选地,作为本发明的一个实施例,所述分别对各个所述单词特征向量进行信息的平衡处理,得到与所述单词特征向量对应的单词平衡向量的过程包括:

通过第二式分别对各个所述单词特征向量进行信息平衡处理,得到与所述单词特征向量对应的单词平衡向量,所述第二式为:

z=t⊙g(WHh+bH)+(1-t)⊙h,

其中,t=σ(WTh+bT),

其中,WH和WT均为方阵,bH和bT均为偏置向量,g为非线性函数tanh,h为单词特征向量,z为单词平衡向量。

应理解地,所述第二式为highway网络的计算过程。

应理解地,单词嵌入(即所述单词特征向量)通过highway网络平衡词信息与字符信息。

上述实施例中,通过第二式分别对各个单词特征向量的信息平衡处理,得到与单词特征向量对应的单词平衡向量,能够提取区分性语义特征,大大地提高了跨社交网络用户对齐的准确性。

可选地,作为本发明的一个实施例,所述分别对各个所述局部特征向量组进行评估处理,得到与所述用户属性参数对应的语义特征向量的过程包括:

通过第三式分别对各个所述局部特征向量组进行评估处理,得到与所述用户属性参数对应的语义特征向量,所述第三式为:

其中,

其中,Aij=α(zi),zj∈Rd

其中,

其中,Aij为相似度矩阵,为元素相乘,[;]为向量按行拼接,为上下文重要信息,W1T、W2T、W3T∈R2d×d,b1、b2、b3∈Rd,W1T、W2T、W3T、b1、b2和b3均为可训练参数,σ为非线性函数sigmoid,zi为局部特征向量组,为语义特征向量。

应理解地,语义信息(即所述局部特征向量组)经过自注意机制以评估每个信息的重要程度,得到该属性的语义特征(即所述语义特征向量)。

应理解地,R3d表示维度为1*3d,R2d×d表示维度为2d*d,Rd表示维度为1*d,Aij是通过α(·)计算得到的相似度矩阵。

应理解地,zj加权求和得到zi,以表示上下文较为重要的信息。

上述实施例中,通过第三式分别对各个局部特征向量组的评估处理得到与用户属性参数对应的语义特征向量,能够评估每个信息的重要程度,大大地提高了跨社交网络用户对齐的准确性。

可选地,作为本发明的一个实施例,所述分别对两两对应的所述用户属性信息各自所对应的所述融合属性特征向量以及与各自的所述融合属性特征向量对应的多个所述邻居属性特征向量进行向量融合,得到与所述预设用户编号对应的属性特征向量组的过程包括:

通过第四式分别对两两对应的所述用户属性信息各自所对应的所述融合属性特征向量以及与各自的所述融合属性特征向量对应的多个所述邻居属性特征向量进行向量融合,,得到与所述预设用户编号对应的第一属性特征向量和与所述第一属性特征向量对应的第二属性特征向量,所述第四式为:

其中,

其中,

其中,eji为注意力系数,vi为第一个融合属性特征向量,ui为第二个融合属性特征向量,vj为第一个融合属性特征向量对应的第j个邻居属性特征向量,uj为第二个融合属性特征向量对应的第j个邻居属性特征向量,aji为归一化系数,σ(·)为非线性函数,为第一属性特征向量,为第二属性特征向量,WT和b均为要学习的模型参数;

根据各个所述第一属性特征向量和与所述第一属性特征向量对应的所述第二属性特征向量得到与所述预设用户编号对应的属性特征向量组。

应理解地,待预测用户对(即两两对应的所述用户属性信息)和其邻居节点对的融合属性特征(即所述融合属性特征向量)作为输入,经过注意机制融合不同邻居对属性特征的影响,输出待预测用户对最终的属性特征向量(即所述属性特征向量组)。

具体地,注意机制的计算过程如下:

eji=g(vj,uj,vi,ui),

其中eji为注意力系数,表示邻居对(vj,uj)对预测待预测用户vi(即所述第一个融合属性特征向量)、ui(即所述第二个融合属性特征向量)是否为同一人的贡献,g:RK×RK×RK×RK→R。aji表示所有邻居对的归一化系数,归一化系数用于计算待预测用户节点与邻居节点特征向量的线性组合,在线性组合上应用非线性函数σ(·),计算待预测用户对属性的最终特征向量(即所述第一属性特征向量和所述第二属性特征向量)。

考虑到邻居对中每个用户的个体特征、邻居对中两个用户之间的相似性以及邻居对与焦点对的关系,提出了个体注意、差异注意、关系注意三种具体的注意机制:

eji=WT[vj;uj]+b,

eji=WT|vj-uj|+b,

eji=WT||vj-vi|-|uj-ui||+b,

其中,W和b是要学习的模型参数。考虑三种注意机制统一在一个方程中作为模型中使用的统一注意力:

上述实施例中,分别对两两对应的用户属性信息各自所对应的融合属性特征向量以及与各自的融合属性特征向量对应的多个邻居属性特征向量的向量融合得到与预设用户编号对应的属性特征向量组,融合了邻居节点的影响,能够提取区分性语义特征,大大地提高了跨社交网络用户对齐的准确性。

可选地,作为本发明的一个实施例,所述分别对各个所述结构数据进行结构特征提取,得到与各个所述预设用户编号对应的结构特征向量的过程包括:

分别对各个所述结构数据进行邻接矩阵的转换,得到与各个所述预设用户编号对应的网格结构数据;

分别对各个所述网格结构数据进行归一化处理,得到与各个所述预设用户编号对应的归一化结构数据;

通过预设卷积神经网络分别对各个所述归一化结构数据进行特征提取,得到与各个所述预设用户编号对应的结构特征向量。

应理解地,邻接矩阵是存放图中节点间关系数据的一个二维数组,若两节点相连则对应位置数字为1,不相连为0。

具体地,将匹配社交网络数据中不规则的图形结构数据(即所述结构数据)利用邻接矩阵转换为规则的所述网格结构数据;对所述网络结构数据进行排序、补零等归一化处理;将归一化图(即所述归一化结构数据)作为输入,通过卷积神经网络提取结构特征,输出待预测用户对的所述结构特征向量。

上述实施例中,分别对各个结构数据的邻接矩阵转换得到与各个预设用户编号对应的网格结构数据,分别对各个网格结构数据的归一化处理得到与各个预设用户编号对应的归一化结构数据,通过预设卷积神经网络分别对各个归一化结构数据的特征提取得到与各个预设用户编号对应的结构特征向量,为后续处理提供数据支撑,能够提取区分性语义特征,大大地提高了跨社交网络用户对齐的准确性。

可选地,作为本发明的一个实施例,所述将所有的属性特征向量组、所有的真实值以及所有的结构特征向量一并进行融合损失计算,得到融合损失函数的过程包括:

通过第五式将所有的属性特征向量组、所有的真实值以及所有的结构特征向量一并进行融合损失计算,得到融合损失函数,所述第五式为:

Loss=LossCE+λLosscos

其中,

其中,

其中,Loss为融合损失函数,LossCE为交叉熵损失,Losscos为余弦损失,为第一属性特征向量,为第二属性特征向量,y为匹配分数,yi为真实值,n为属性特征向量组的总数,为属性特征向量之间的差异,si为结构特征向量。

应理解地,用于预测匹配分数。

具体地,将所述属性特征向量组和所述结构特征向量拼接作为输入,预测匹配分数;根据余弦相似度构造余弦损失函数(即所述余弦损失),与交叉熵损失加权融合得到融合损失函数;将得到的匹配分数与地面真实值(即所述真实值)对比,计算融合损失。

上述实施例中,通过第五式将所有的属性特征向量组、所有的真实值以及所有的结构特征向量一并进行融合损失计算得到融合损失函数,优化了损失函数,能够提取区分性语义特征,大大地提高了跨社交网络用户对齐的准确性。

图2为本发明实施例提供的跨社交网络用户对齐装置的模块框图。

可选地,作为本发明的另一个实施例,如图2所示,一种跨社交网络用户对齐装置,包括:

模型优化模块,用于导入社交网络用户数据,并构建用于进行特征提取的训练模型,根据所述社交网络用户数据对所述训练模型进行优化处理,得到优化模型;

对齐结果获得模块,用于导入待测社交网络用户数据,通过所述优化模型对所述待测社交网络用户数据进行对齐处理,得到用户对齐结果。

可选地,本发明的另一个实施例提供一种跨社交网络用户对齐装置,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,当所述处理器执行所述计算机程序时,实现如上所述的跨社交网络用户对齐方法。该装置可为计算机等装置。

可选地,本发明的另一个实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,当所述计算机程序被处理器执行时,实现如上所述的跨社交网络用户对齐方法。

需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。

所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。

作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

完整详细技术资料下载
上一篇:石墨接头机器人自动装卡簧、装栓机
下一篇:渠道对象的数据处理、通信方法、装置、服务端及介质

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!