一种融合关系分析方法及系统
技术领域
本发明涉及大数据领域,特别是涉及一种融合关系分析方法及系统。
背景技术
随着社交、电商、金融、零售、物联网等行业的快速发展,现实社会织起了了一张庞大而复杂的关系网,传统数据库很难处理关系运算。大数据行业需要处理的数据之间的关系随数据量呈几何级数增长,也需要支持海量复杂数据关系运算的数据库,例如,图数据库。
在图数据库中,是以图的方式来存储数据的,其数据结构最重要的元素是节点和关系,每个节点代表一个实体,例如,人、物、地点、类别或其他数据,每条关系代表的两个实体之间的事件类型,例如,物与物之间的连接关系、人与人之间的社会关系、人与物之间的归属关系等等。相比传统数据库,其存储方式更直观的体现了实体间复杂的关系,同时在查询、计算关系时也有着极高的效率。
关系图谱可基于图数据库,将各类实体以及实体之间的关系加以收集,提炼后存储在图数据库中,以便更进一步的数据挖掘、检索、分析等应用。根据不同的应用需求,关系图谱在内容结构上也有不同的着重点,例如,人物关系图谱、知识图谱、推荐系统、银行欺诈检测等。
人物关系图谱存储人和人之间的连接关系,如家庭血缘关系、通讯关系、社交关系等。在构建人员关系图谱时,人和人之间往往存在多种多样的关系,这样繁杂的关系给使用者带来了两个方面的困扰。一、无法在众多关系中直观的展示有效信息,无法甄别和排除重点关注对象;二、不便于提供一种有效的权重指标作为关系强弱的评判依据。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种融合关系分析方法及系统,用于解决现有技术中不便于分析人与人之间的多种多样的关系的问题。
为实现上述目的及其他相关目的,本发明提供一种融合关系分析方法,包括:
获取事件记录信息,其中,所述事件记录信息包括:人员和事件类型,根据所述事件记录信息确定各个所述事件类型中相关的人员的关联关系;
通过两个所述人员的一关联关系的发生属性,确定两个所述人员关于所述关联关系的第一亲密度分值,其中,所述发生属性包括发生次数和发生时间;
获取两个所述人员的多种关联关系的第一亲密度分值,并根据多种所述关联关系的第一亲密度分值来确定第二亲密度分值;
通过所述第二亲密度分值对待分析的人员进行融合关系分析。
可选的,所述发生次数包括历史总次数和近期次数,所述发生时间还包括最近一次关联关系距当前的时间。
可选的,所述第一亲密度分值的数学表达为:
其中,fintimacy(Ri,a→b)为人员a和b关于事件类型Ri的第一亲密度分值;cp为近期次数;ct为历史总次数;gt为历史总次数对于亲密度分值增长产生影响的系数;gp为近期次数的增长对于亲密度分值增长产生影响的系数;d为近期次数为0时,亲密度分值保留的最低值的影响系数;tl为最后一次关联关系距当前的时间;gl为tl增长对于亲密度分值增长产生影响的系数。
可选的,所述第二亲密度分值的数学表达为:
其中,Fintimacy(a→b)为人员a和b的第二亲密度分值,max(fintimacy(Ri,a→b))为人员a和b的第一亲密度分值的最大值,avg(fintimacy(Ri,a→b))为人员a和b的第一亲密度分值的平均值,n为人员a和b的事件类型的数量,ga为n对于亲密度分值增长产生影响的系数。
可选的,通过所述第二亲密度分值对待分析的人员进行融合关系分析的步骤包括:
建立人员以及第二亲密度分值的融合关系,并将所述融合关系同步至图数据库;
利用融合关系处理待分析人员的亲密度。
一种融合关系分析系统,包括:
数据采集模块,用于获取事件记录信息,其中,所述事件记录信息包括:人员和事件类型,根据所述事件记录信息确定各个所述事件类型中相关的人员的关联关系;
关系分析模块,用于通过两个所述人员的一关联关系的发生属性,确定两个所述人员关于所述关联关系的第一亲密度分值,其中,所述发生属性包括发生次数和发生时间,获取两个所述人员的多种关联关系的第一亲密度分值,并根据多种所述关联关系的第一亲密度分值来确定第二亲密度分值;
关系挖掘模块,用于通过所述第二亲密度分值对待分析的人员进行融合关系分析;
所述数据采集模块、所述关系分析模块和所述关系挖掘模块信号连接。
可选的,所述融合关系分析系统还包括:
同步模块,用于建立人员、关联关系以及第二亲密度分值的融合关系,并将所述融合关系同步至图数据库;
接口模块,用于提供访问接口并连接所述关系挖掘模块。
可选的,所述发生次数包括历史总次数和近期次数,所述发生时间还包括最近一次关联关系距当前的时间。
一种电子设备,包括:
一个或多个处理器;和其上存储有指令的一个或多个机器可读介质,当所述一个或多个处理器执行时,使得所述电子设备执行任一所述的方法。
一种机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得设备执行任一所述的方法。
如上所述,本发明的融合关系分析方法及系统,具有以下有益效果:
将关联关系中事件类型、发生的次数、发生时间作为权重或者影响因子,获取单一维度的条件下两个人员关于所述事件类型的第一亲密度分值,根据多种事件类型的第一亲密度分值,获取多个维度的条件下两个人员的第二亲密度分值,并通过第二亲密度分值确定人员之间的关联性,为后续分析和挖掘提供参考价值。
附图说明
图1显示为本发明实施例的融合关系分析方法的流程示意图。
图2显示为本发明实施例的融合关系分析系统的结构示意图。
图3显示为本发明另一实施例的融合关系分析系统的结构示意图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。
需要说明的是,本实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。本说明书所附图式所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容得能涵盖的范围内。同时,本说明书中所引用的如“上”、“下”、“左”、“右”、“中间”及“一”等的用语,亦仅为便于叙述的明了,而非用以限定本发明可实施的范围,其相对关系的改变或调整,在无实质变更技术内容下,当亦视为本发明可实施的范畴。
请参阅图1,本发明实施例提供一种融合关系分析方法,包括:
S1:获取事件记录信息,其中,所述事件记录信息包括:人员和事件类型,根据所述事件记录信息确定各个所述事件类型中相关的人员的关联关系,例如,在一个关于住宿的事件记录信息中包括同住的人员、以及同住的时间类型,获取事件记录信息的方式可以通过至少以下之一:大数据平台接入、采集原始数据集,并通过采集和汇总多个事件记录信息来进行罗列,确定各个事件类型中相关的人员的关联信息,还可以将人员、事件类型以及关联关系上传至本地系统或者服务器;
S2:通过两个所述人员的一关联关系的发生属性,确定两个所述人员关于所述关联关系的第一亲密度分值,其中,所述发生属性包括发生次数和发生时间,关联关系发生的次数一定程度与两个所述人员之间的关联关系的亲密度正相关,通过两个所述人员的关联关系发生的次数,获取单一维度的条件下,两个所述人员关于所述事件类型的第一亲密度分值,例如,可以按照发生时间作为索引,将人员和关联关系追加至数据库的关系列表中,数据库可采用关系型数据库;
S3:获取两个所述人员的多种关联关系的第一亲密度分值,并根据多种所述关联关系的第一亲密度分值来确定第二亲密度分值,获取多个维度的条件下,两个所述人员关于各种事件类型的第二亲密度分值,并将所述第二亲密度分值作为判断两个人员之间融合关系亲密度的判断指标;
S4:通过所述第二亲密度分值对待分析的人员进行融合关系分析。例如,建立人员与第二亲密度分值之间的融合关系,并查询一人员存在较高第二亲密度分值的关联人员/重点人员,将第二亲密度分值作为权重,查询该人员相对应的关联人员/重点人员。将关联关系中事件类型、发生的次数、发生时间作为权重或者影响因子,获取单一维度的条件下两个人员关于所述事件类型的第一亲密度分值,根据多种事件类型的第一亲密度分值,获取多个维度的条件下两个人员的第二亲密度分值,并通过第二亲密度分值确定人员之间的关联性,为后续分析和挖掘提供参考价值。
在一些实施过程中,关联关系发生的次数至少包括以下之一:历史总次数、近期次数。例如,历史总次数包括两个人员关于一事件类型的发生的总的关联关系的次数,近期次数包括最近一段时期内两个人员关于一事件类型的发生的关联关系的次数,最近一段时期包括最近一个日/月/年、两个日/月/年、三个日/月/年、……、n个日/月/年,n为正整数。通过考虑历史总次数和近期次数的影响,提高时间因素对于亲密度分值的影响权重,近期次数减少代表关系活跃度的降低,亲密度分值会因预设的近段时间内关系产生次数的减少而变小。所述发生时间还包括最近一次关联关系距当前的时间。
为了提高第一亲密度分值的参考性和真实性,可将两个所述人员关于一事件类型的关联关系的近期次数作为衡量权重或者影响因子,综合考虑历史总次数以及近期次数对第一亲密度分值的影响,所述第一亲密度分值的数学表达为:
其中,fintimacy(Ri,a→b)为人员a和b关于事件类型Ri的第一亲密度分值;cp为近期次数;ct为历史总次数;gt为历史总次数对于亲密度分值增长产生影响的系数;gp为近期次数的增长对于亲密度分值增长产生影响的系数;d为近期次数为0时,亲密度分值保留的最低值的影响系数;tl为最后一次关联关系距当前的时间;gl为tl增长对于亲密度分值增长产生影响的系数。例如,可以从公安大数据平台调取人员a和b关于事件类型为通话的数据信息,并获取近期次数cp和历史总次数ct。例如,时间类型为同住,历史总次数在30次以上,最后一次关联关系距当前的时间为30天,同住的近期次数为10次的第一亲密度分值的系数为0.8时,可以设定gt=0.3,d=9,gp=4,gl=0.004。
一种类型的事件类型往往只能从单一维度去衡量两个人员之间关于该特定类型的亲密度分值,因此,还可以通过获取两个人员各个事件类型的对应的第一亲密度分值,达到在多个维度的条件下,衡量两个所述人员关于各种事件类型的亲密度的目的,所述第二亲密度分值的数学表达为:
其中,Fintimacy(a→b)为人员a和b的第二亲密度分值,max(fintimacy(Ri,a→b))为人员a和b的第一亲密度分值的最大值,avg(fintimacy(Ri,a→b))为人员a和b的第一亲密度分值的平均值,n为人员a和b的事件类型的数量,ga为n对于亲密度分值增长产生影响的系数。避免出现个别事件类型对亲密度分值的影响权重较大,造成不便于筛选有用信息也不便于排除无用信息的情况发生。以第一亲密度分值最高的事件类型的关联关系作为基础值,其他的事件类型的关联关系的第一亲密度分值平均值作为附加值,关联关系数量越多、平均值越高时,得到的第二亲密度分值的结果也就越高,可避免新增一条第一亲密度分值较低的关联关系后,反而将第二亲密度分值的总体分值拉低的情况发生,提高第二亲密度分值的衡量精确性。
在一些实施过程中,通过所述第二亲密度分值对待分析的人员进行融合关系分析的步骤包括:
建立人员以及第二亲密度分值的融合关系,例如可以采用Python语言建立数据库信息,并将所述关联关系同步至大数据平台或者图数据库;
通过融合关系处理待分析人员的亲密度。
在一些实施过程中,可以从公安大数据平台或者别的信息平台获取人员以及对应的融关系,通过处理人员之间类型事件类型获取明细数据,所述事件类型至少包括以下之一:通话、同行、同住、亲友、同事,其中,同行还包括搭乘同一交通工具,例如,火车、公交、航班、货轮。
请参阅图2,本发明在一实施例中还提供一种融合关系分析系统,包括:
数据采集模块,用于获取事件记录信息,其中,所述事件记录信息包括:人员和事件类型,根据所述事件记录信息确定各个所述事件类型中相关的人员的关联关系;
关系分析模块,用于通过两个所述人员的一关联关系的发生属性,确定两个所述人员关于所述关联关系的第一亲密度分值,其中,所述发生属性包括发生次数和发生时间,获取两个所述人员的多种关联关系的第一亲密度分值,并根据多种所述关联关系的第一亲密度分值来确定第二亲密度分值;
关系挖掘模块,用于通过所述第二亲密度分值对待分析的人员进行融合关系分析;
所述数据采集模块、所述关系分析模块以及所述关系挖掘模块之间信号连接。
可选的,所述发生次数包括历史总次数和近期次数,所述发生时间还包括最近一次关联关系距当前的时间。
可选的,所述第一亲密度分值的数学表达为:
其中,fintimacy(Ri,a→b)为人员a和b关于事件类型Ri的第一亲密度分值;cp为近期次数;ct为历史总次数;gt为历史总次数对于亲密度分值增长产生影响的系数;gp为近期次数的增长对于亲密度分值增长产生影响的系数;d为近期次数为0时,亲密度分值保留的最低值的影响系数;tl为最后一次关联关系距当前的时间;gl为tl增长对于亲密度分值增长产生影响的系数。
可选的,所述第二亲密度分值的数学表达为:
其中,Fintimacy(a→b)为人员a和b的第二亲密度分值,max(fintimacy(Ri,a→b))为人员a和b的第一亲密度分值的最大值,avg(fintimacy(Ri,a→b))为人员a和b的第一亲密度分值的平均值,n为人员a和b的事件类型的数量,ga为n对于亲密度分值增长产生影响的系数。
可选的,通过所述第二亲密度分值对待分析的人员进行融合关系分析的步骤包括:
建立人员、关联关系以及第二亲密度分值的融合关系,并将所述融合关系同步至图数据库;
利用融合关系处理待分析人员的亲密度。
请参阅图3,本发明在另一实施例还提供了一种融合关系分析系统,所述融合关系分析系统还包括:
同步模块,用于建立人员以及第二亲密度分值的融合关系,并将所述融合关系同步至图数据库;
接口模块,用于提供访问接口并连接所述关系挖掘模块,可以基于java开发后端接口模块,访问所述关系挖掘模块的图数据库,查询所需的人员的融合关系。
本发明实施例提供一种电子设备,包括:一个或多个处理器;和其上存储有指令的一个或多个机器可读介质,当所述一个或多个处理器执行时,使得所述电子设备执行一个或多个所述的方法。本发明可用于众多通用或专用的计算系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
本发明实施例还提供一个或多个机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得设备执行中一个或多个所述的方法。本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。
- 上一篇:石墨接头机器人自动装卡簧、装栓机
- 下一篇:一种隧道施工安全监管系统及方法