一种基于符号网络的节点关系获取方法及存储介质
技术领域
本发明涉及社交网络
技术领域
,尤其是涉及一种基于符号网络的节点关系获取方法及存储介质。背景技术
符号网络的关系类型预测简单来说就是推测某个用户节点对其他节点的潜在态度,该研究方向可用于为企业或者个人提供用户个性化服务,同时对进一步研究社交网络的拓扑结构、功能、动力学行为等具有十分重要的理论意义和应用价值
在线社交网络中研究中用户之间关系不仅包括彼此添加好友或者关注而形成的显示关系,还应该包括从用户的行为出发和偏好等角度出发通过相似度是否超过给定的阈值来判断用户之间是否存在的隐式关系,并且在大多数已有研究中,直接忽略了消极关系(即不信任关系),默认所有存在的关系链接均为积极关系,但实际上消极关系在于社交网络中的重要性并不亚于积极关系。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种有效实现符号网络中节点关系获取、准确率高的基于符号网络的节点关系获取方法及存储介质。
本发明的目的可以通过以下技术方案来实现:
一种基于符号网络的节点关系获取方法,所述的节点关系获取方法包括:
步骤1:建立社交网络模型,并获取节点的度、聚集系数;
步骤2:确定节点间PA指标和亲密度;
步骤3:确定节点间存在潜在链接的概率;
步骤4:确定节点的相关特征属性;
步骤5:对节点的属性特征进行融合,采用logistic回归模型判断节点间关系极性。
优选地,所述的步骤1具体为:
将社交网络数据集抽象成一个无向图G=(V,E),其中V表示网络中节点的集合,E表示网络的连边集合;网络中不存在的连边表示为(x,y)∈U-E,其中x,y∈V,U表示网络中所有可能的边,并获取节点的度和聚集系数属性。
优选地,所述步骤2中节点间的PA指标具体为:
其中,k(x)和k(y)分别表示节点x和y的度。
优选地,所述步骤2中节点间的亲密度具体为:
其中,Γ(x)和Γ(y)分别为节点x和节点y的邻居节点的集合;kx和ky分别为节点x和y的度;分子上的1表示节点x和节点y之间有一条连通边。
优选地,所述步骤3中节点间存在潜在链接概率的计算方法为:
优选地,所述的步骤4具体为:
确定节点的节点特征、节点相似度特征和结构平衡特征。
更加优选地,所述的节点特征包括正入度比负入度比正出度比负出度比和PA相似度;所述的PA相似度即为PA指标;
正入度比的计算方法为:
负入度比的计算方法为:
正出度比的计算方法为:
负出度比的计算方法为:
其中,din(u)表示节点u的总入度;dout(u)表示节点u的总出度;和分别表示节点u的正入度和负入度;和分别表示节点u的正出度和负出度。
更加优选地,所述的节点相似度特征包括正相似度S+(u,v)和负相似度S-(u,v),计算公式分别为:
其中,W+表示向v提供积极链接的节点集;W-是表示对v发出消极链接的节点集;sim(u,w)为节点u与节点W之间的相似度;
所述的节点间相似度sim(u,w)计算公式为:
式中,e(u,i)和e(w,i)是分别从节点u和节点w指向节点i的链接的关系标签,I是u和w的共同邻居节点的集合。
更加优选地,所述的结构平衡特征由在三元组属性和四元组属性抽取的负三元组和负四元组特征确定;其中,节点u和v的负三元组比值计算公式为:
其中,W表示节点u和节点v的邻居,|W|是节点u和节点v的共同邻居的数量;
节点u和节点v的负四元组比值计算公式为:
其中,表示从节点u到节点v经过遍历路径长度为3的所有路径的总数。
一种存储介质,所述的存储介质内存储有上述任一项所述的基于符号网络的节点关系获取方法。
与现有技术相比,本发明具有以下有益效果:
实现符号网络中节点关系的获取:本发明中的节点关系获取方法充分利用符号社交网络中的拓扑特性和节点相似属性,提出基于符号网络的消极关系挖掘技术;由于现有的链接预测技术较少关注到网络中的消极关系,针对这一问题,本发明中的节点关系获取方法融合节点本身属性和节点间相似特征,针对积极和消极关系之间的潜在联系,探索出了适合关系类型预测的特征,实现了对关系类型的有效判定,判定准确率高。
附图说明
图1为本发明中节点关系获取方法的流程图;
图2为本发明实施例中在3个数据集上本发明的基于符号网络的消极关系挖掘方法与基准算法链路预测实验AUC值对比示意图表;
图3为本发明实施例中在3个数据集上本发明的基于符号网络的消极关系挖掘方法与基准算法关系类型预测实验F1值和AUC值对比示意图;
其中图3(a)为预测结果F1值对比示意图;图3(b)为预测结果AUC值对比示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。
一种基于符号网络的节点关系获取方法,其流程如图1所示,包括:
步骤1:建立社交网络模型,并获取节点的度、聚集系数;
将社交网络数据集抽象成一个无向图G=(V,E),其中V表示网络中节点的集合,E表示网络的连边集合;网络中不存在的连边表示为(x,y)∈U-E,其中x,y∈V,U表示网络中所有可能的边,并获取节点的度和聚集系数属性;
步骤2:确定节点间PA指标和亲密度;
节点间的PA指标具体为:
其中,k(x)和k(y)分别表示节点x和y的度;
节点间的亲密度具体为:
其中,Γ(x)和Γ(y)分别为节点x和节点y的邻居节点的集合;kx和ky分别为节点x和y的度;分子上的1表示节点x和节点y之间有一条连通边;
步骤3:确定节点间存在潜在链接的概率;
节点间存在潜在链接概率的计算方法为:
步骤4:确定节点的相关特征属性;
确定节点的节点特征、节点相似度特征和结构平衡特征;
节点特征包括正入度比负入度比正出度比负出度比和PA相似度;所述的PA相似度即为PA指标;
正入度比的计算方法为:
负入度比的计算方法为:
正出度比的计算方法为:
负出度比的计算方法为:
其中,din(u)表示节点u的总入度;dout(u)表示节点u的总出度;和分别表示节点u的正入度和负入度;和分别表示节点u的正出度和负出度;
节点相似度特征包括正相似度S+(u,v)和负相似度S-(u,v),计算公式分别为:
其中,W+表示向v提供积极链接的节点集;W-是表示对v发出消极链接的节点集;sim(u,w)为节点u与节点W之间的相似度;
所述的节点间相似度sim(u,w)计算公式为:
式中,e(u,i)和e(w,i)是分别从节点u和节点w指向节点i的链接的关系标签,I是u和w的共同邻居节点的集合;
结构平衡特征由在三元组属性和四元组属性抽取的负三元组和负四元组特征确定;其中,节点u和v的负三元组比值计算公式为:
其中,W表示节点u和节点v的邻居,|W|是节点u和节点v的共同邻居的数量;
节点u和节点v的负四元组比值计算公式为:
其中,表示从节点u到节点v经过遍历路径长度为3的所有路径的总数;
步骤5:对节点的属性特征进行融合,采用logistic回归模型判断节点间关系极性,推断给定边e(u,v)的符号euv是否为消极。
本实施例中节点关系获取方法的效果可通过以下实验作进一步说明。
实验条件:本实验是在硬件Intel(R)Core(TM)i7-8550U [email protected],Windows 10系统下,Jet Brains PyCharm Community软件平台上完成的。
实验内容:本发明的实验是采用本发明的方法与Common Neighbors(CN)算法、Adamic-Adar(AA)算法、Preferential Attachment(PA)算法、Jaccard算法、ResourceAllocation(RA)算法5个现有技术,分别在Bitcoin-Alpha、Bitcoin-Otc和Slashdot三个符号网络数据集上做链路预测和关系类型预测的实验。
实验一:链路预测实验。
本实验划分的测试集所占比例为10%,在实验中每次随机从测试集中选取一条边,再从不存在的数据集中随机选择一条边,然后计算这两条边的相似度得分,如果测试集中的边得分大于不存在边的得分则加1,如果相等则加0.5,完成n次的独立重复实验,以AUC指标作为评估指标。实验结果见图2。由图2可见,本发明的方法PACD相较于其他5个基准算法对预测精度的提升十分明显。
实验二:关系类型预测实验。
本实验从原始数据集中随机抽取10%的数据作为测试集,剩下的数据用于该模型的训练,然后通过完成对模型的训练,利用测试数据来对模型的效果进行评估。整个过程重复进行10次,保证评估结果的有效性。最后,将本发明提出的方法与3个现有的符号预测方法进行对比分析。实验结果见图3。由图3可见,提出的关系类型预测模型Ne-LP在这三个数据集上几乎达到了最佳性能,这表明本发明有效地选取了合适的网络拓扑结构属性并成功地将相关的社会学理论应用到我们的模型中,使得预测的性能得到了一定的提高。
本实施例还涉及一种存储介质,该介质内存储有上述任一项节点关系获取方法。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。