一种基于多维度的案件合并方法、装置及存储介质

文档序号:7577 发布日期:2021-09-17 浏览:36次 英文

一种基于多维度的案件合并方法、装置及存储介质

技术领域

本发明涉及数据处理领域,尤其是一种基于多维度的案件合并方法、装置及存储介质。

背景技术

近年来随着经济、科技越来越发达,犯罪活动也日益猖獗,犯罪活动呈规模化、团伙化,全球化的特征和趋势。各种新型盗窃、诈骗等案件层出不穷,但往往犯罪有多次实施侵害的特性,这就为系列案件的串并提供了侦破基础。现今,警务系统中经过多年发展已经建立有案件数据库,数据库中已经积累了大量的警情、不同案件的数据,但是在现实工作中,去深入分析不同案件之间是否具有关联,多个案件是独立案件还是系列案件往往依赖于较有经验的人员通过个别关键字查询,然后将查询到的案件基于关键字以及其他可能的关联点进行分析判断是否进行合并,显然该种方式取决于个人或团队的经验以及对多起案件的熟悉程度,且案件数据为海量的数据,人为分析效率低,同时也无法关联市、省乃至全国的海量警情及案件,从而无法有效地进行关联案件的分析。

发明内容

有鉴于此,为了解决上述技术问题,本发明的目的是提供一种基于多维度的案件合并方法、装置及存储介质,提高分析效率以及保证关联案件分析的有效性。

本发明采用的技术方案是:

一种基于多维度的案件合并方法,包括:

获取原点案件以及候选案件集;所述原点案件包括第一维度集合,所述第一维度集合包括多个第一维度,所述候选案件集包括多个候选案件,每一所述候选案件包括多个第二维度;

从所述候选案件集中选取一个所述候选案件;

分别计算每一所述第一维度与选取的所述候选案件中与所述第一维度相同的每一所述第二维度的第一相似度;

根据所述第一相似度与预设维度权重,确定所述原点案件与选取的所述候选案件的第二相似度;

根据所述第二相似度,确定数据集合;所述数据集合包括第一重点类数据或第二重点类数据,所述第二重点类数据的重要度高于所述第一重点类数据;

将所述第二重点类数据与所述原点案件进行合并,得到合并案件;

将所述合并案件作为新的原点案件,并从所述候选案件集内除所述数据集合以外的候选案件中选取新的候选案件,返回所述分别计算每一所述第一维度与选取的所述候选案件中与所述第一维度相同的每一所述第二维度的第一相似度的步骤进行迭代,直至达到预设迭代条件,得到合并结果。

进一步,每一所述第一维度包括至少一个第一元素,每一所述第二维度包括至少一个第二元素,所述分别计算每一所述第一维度与选取的所述候选案件中与所述第一维度相同的每一所述第二维度的第一相似度,包括:

获取每一所述第一维度中的所述第一元素的第一数据深度分值以及每一所述第二维度中的所述第二元素的第二数据深度分值;

根据所述第一元素的第一数据深度分值以及与所述第一元素所对应的第一维度相同的第二元素的第二数据深度分值,确定每一所述第一维度与选取的所述候选案件中与所述第一维度相同的每一所述第二维度的第一相似度。

进一步,所述第一维度包括何受害人维度、何时维度、何地维度、何嫌疑人维度、何工具维度、何手段维度、何原因维度、何行为维度、何结果维度和何状态维度。

进一步,所述根据所述第一相似度与预设维度权重,确定所述原点案件与选取的所述候选案件的第二相似度,包括:

将所述第一相似度与所述预设维度权重进行加权,得到所述原点案件与选取的所述候选案件的第二相似度;所述预设维度权重中权重由大至小依次为何行为维度、何时维度、何工具维度、何手段维度、何地维度、何原因维度、何结果维度、何状态维度、何嫌疑人维度、何受害人维度。

进一步,所述根据所述第二相似度,确定数据集合,包括:

当所述第二相似度大于等于第一阈值且小于第二阈值,确定选取的所述候选案件为所述第一重点类数据;

或者,

当所述第二相似度大于等于第二阈值,确定选取的所述候选案件为所述第二重点类数据。

进一步,所述达到预设迭代条件,包括:

当所有所述数据集合中重点类数据的总数量大于等于第三阈值,达到所述预设迭代条件;

或者,

当进行迭代的次数大于第四阈值,达到所述预设迭代条件;

或者,

若当前的所有所述数据集合中重点类数据的总数量等于上一次迭代所得到的数据集合中重点类数据的总数量,达到所述预设迭代条件。

进一步,所述方法还包括:

将所述原点案件和每一所述数据集合展示于地图上,并展示每一所述数据集合以及所述原点案件的所述第二维度与所述第一维度的关联关系;

或者,

将所述原点案件和每一所述数据集合展示于地图上,响应于轨迹确定操作,基于何时维度和何地维度显示所述合并结果的时空运动轨迹;所述第一维度以及数据集合均包括何时维度和何地维度;

或者,

将所述原点案件和每一所述数据集合展示于地图上,响应于元素输入操作,在地图上定位至输入的元素所对应的所述原点案件或者所述数据集合。

本发明还提供一种基于多维度的案件合并装置,包括:

获取模块,用于获取原点案件以及候选案件集;所述原点案件包括第一维度集合,所述第一维度集合包括多个第一维度,所述候选案件集包括多个候选案件,每一所述候选案件包括多个第二维度;

选取模块,用于从所述候选案件集中选取一个所述候选案件;

第一计算模块,用于分别计算每一所述第一维度与选取的所述候选案件中与所述第一维度相同的每一所述第二维度的第一相似度;

第一确定模块,用于根据所述第一相似度与预设维度权重,确定所述原点案件与选取的所述候选案件的第二相似度;

第二确定模块,用于根据所述第二相似度,确定数据集合;所述数据集合包括第一重点类数据和第二重点类数据中的至少一种,所述第二重点类数据的重要度高于所述第一重点类数据;

合并模块,用于将所述第二重点类数据与所述原点案件进行合并,得到合并案件;

迭代模块,用于将所述合并案件作为新的原点案件,并从所述候选案件集内除所述数据集合以外的候选案件中选取新的候选案件,返回所述分别计算每一所述第一维度与选取的所述候选案件中与所述第一维度相同的每一所述第二维度的第一相似度的步骤进行迭代,直至达到预设迭代条件,得到合并结果。

本发明还提供一种基于多维度的案件合并装置,包括处理器以及存储器;

所述存储器存储有程序;

所述处理器执行所述程序以实现所述方法。

本发明还提供一种计算机可读存储介质,所述存储介质存储有程序,所述程序被处理器执行时实现所述方法。

本发明的有益效果是:获取原点案件以及候选案件集,分别计算每一所述第一维度与选取的所述候选案件中与所述第一维度相同的每一所述第二维度的第一相似度,根据所述第一相似度与预设维度权重,确定所述原点案件与选取的所述候选案件的第二相似度,根据所述第二相似度,确定数据集合,将所述第二重点类数据与所述原点案件进行合并,得到合并案件,基于原点案件与候选案件的相似度自动确定合并案件,提高了关联案件的分析效率;而将所述合并案件作为新的原点案件,并从所述候选案件集内除所述数据集合以外的候选案件中选取新的候选案件,返回所述分别计算每一所述第一维度与选取的所述候选案件中与所述第一维度相同的每一所述第二维度的第一相似度的步骤进行迭代,直至达到预设迭代条件,得到合并结果,使得最终的合并结果包含与原点案件关联的若干个候选案件,在具有多个候选案件的情况下也能够自动分析效率,且在一定程度上保证了关联案件分析的有效性。

附图说明

图1为本发明基于多维度的案件合并方法的步骤流程示意图;

图2为本发明具体实施例串并案智能运算中心的示意图;

图3为本发明具体实施例可视化关系图谱的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。

本申请的说明书和权利要求书及附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。

如图1所示,本实施例提供一种基于多维度的案件合并方法,包括步骤S100-S700:

S100、获取原点案件以及候选案件集。

具体地,原点案件指的是需要确定是否其他关联案件的案件,原点案件包括第一维度集合,第一维度集合包括多个第一维度。候选案件集包括多个候选案件,每一候选案件包括多个第二维度。可选地,第一维度包括何受害人维度、何时维度、何地维度、何嫌疑人维度、何工具维度、何手段维度、何原因维度、何行为维度、何结果维度和何状态维度,即上述第一维度集合包括十个种类的第一维度;同样地,第二维度也包括上述十个维度。

本发明实施例中,每一第一维度包括至少一个第一元素,例如:在何受害人维度中,第一元素包括但不限于身份证号、居住地址、手机号码、性别、年龄段(青少年[age<=17]、青年[18<=age<=45]、中年[46<=age<=69]、老年[70<=age])、职业(外国人、涉黄人员、涉毒人员、涉赌人员、港澳台、学生、其他职业等)、籍贯、手机电话、邮箱等元素;在何时维度中,第一元素包括但不限于案发日期、案发时间段(凌晨[02:00-06:00]、上午[06:00-12:00]、中午[12:00-14:00]、下午[14:00-17:00]、晚上[17:00-24:00]、深夜[24:00-03:00])、工作日、周末、节假日等;在何地维度中,第一元素包括但不限于案发地址、地点类型(花园小区、别墅、多层楼房、高层楼房、城中村、旧式住宅、宿舍、校园宿舍、工厂宿舍等)、所属区划、经纬度坐标(84坐标系)、周边基站和信息采集设备信息;在何嫌疑人维度中,第一元素包括但不限于身份证号码、体貌特征、手机号码、人员姓名、昵称、性别、年龄段(青少年[age<=17]、青年[18<=age<=45]、中年[46<=age<=69]、老年[70<=age])等元素;在何工具维度中,第一元素包括但不限于银行账号、开卡姓名、QQ号码、微信号码、支付宝号码、涉及网址、采集手机号码、手机串号SN码、MAC地址、涉及相关的车辆信息(车牌号、车架号、品牌)元素;在何手段维度中,第一元素包括但不限于制造条件、准备工具、从门侵入、洞口侵入、暴力胁迫、持枪,持械、施暴、劫持、破锁盗窃、窃车、冒充身份、行骗、夹带、藏匿、其他手段;在何原因维度中,第一元素包括但不限于政治动机、财物动机、报复动机、恐惧动机、其他动机等等;在何行为维度中,第一元素包括但不限于纠纷、治安类、刑事类、盗窃(入室盗窃、扒窃,其他盗窃)、抢劫、抢夺、诈骗(接触类诈骗,非接触类诈骗)、涉毒案件等元素;在何结果维度中,第一元素包括但不限于已做法医鉴定、轻微伤、轻伤、重伤、致死、未受伤、经济侵害、无法确认;在何状态维度中,第一元素包括但不限于受理中、立案、审理中、执行中、破案、已结案。同样地,每一第二维度包括至少一个第二元素,第二元素和第一元素的种类相同,不再赘述。

需要说明的是,在获取原点案件以及候选案件集前可以先收集案件数据并进行预处理,从而得到原点案件以及候选案件集。可选地,预处理可以包括数据清洗、转换(标准化)、装载等等。其中,数据清洗可以根据元素黑名单对候选集合中的对应元素进行清洗。

S200、从候选案件集中选取一个候选案件。

可选地,对候选案件集中的候选案件进行编号或者按顺序进行排列,按照编号或者按排列的顺序的先后从候选案件集中选取一个候选案件。例如,原点案件集合Y={Y1,Y2,Y3.....,Yn},Yn为第n个原点案件,假设选取的一个原点案件Y1,候选案件集为M={M1,M2,M3.....,Mn},Mn为第n个候选案件,从候选案件集中选取候选案件M1。

S300、分别计算每一第一维度与选取的候选案件中与第一维度相同的每一第二维度的第一相似度。

具体地,与第一维度相同的第二维度指的是类型相同的维度,例如第一维度包括十个维度,第二维度包括十个维度,当第一维度为何受害人维度,则计算第二维度同样为何受害人维度的该第一维度和该第二维度的第一相似度,即相当于计算原点案件Y1的何受害人维度与候选案件M1的何受害人维度的第一相似度,可以理解的是,通过十次计算则可以确定每一第一维度与每一对应与第一维度相同的第二维度的第一相似度,最终得到十个第一相似度。

可选地,步骤S300包括步骤S310-S320:

S310、获取每一第一维度中的第一元素的第一数据深度分值以及每一第二维度中的第二元素的第二数据深度分值。

具体地,第一数据深度分值和第二数据深度分值基于元素深度性所确定,由于数据维度的元素之间可能包含上下级关系,示例性地以何地维度为例,如案发地点是属于小区,具体的为是围合式小区,此时围合式小区相对小区为更深度的数据,围合式小区的数据深度分值会比小区的数据深度分值更高,因为从犯罪人员的活动规律以及接触圈子分析,同一犯罪分子会频繁作案于同一类型小区,所以在数据处理的过程中对于数据节点越下一级,数据加权深度越高。需要说明的是,其他维度的数据深度分值的设定原理类似,可以根据实际需要确定,本发明实施例不作具体限定。

S320、根据第一元素的第一数据深度分值以及与第一元素所对应的第一维度相同的第二元素的第二数据深度分值,确定每一第一维度与选取的候选案件中与第一维度相同的每一第二维度的第一相似度。

具体地,公式为:

其中,ssim(x,y)为第一相似度,越趋近于1表示该维度的两个元素越相似,x表示第一维度,y表示与第一维度相同类型的第二维度,xi表示x中的第i个第一元素,yi表示y中的第i个第二元素,n的取值为第一元素或者第二元素的数量,Lx表示第一元素的第一数据深度分值,Ly表示第二元素的第二数据深度分值。可选地,xi和yi可以预设一个数值,从而代入获得计算结果,例如1、2等有理数。可以理解的是,通过上述公式可以计算第一维度与和该第一维度相同的第二维度的第一相似度,通过多次计算即可以得到每一第一维度与和每一第一维度相同的每一第二维度的每一第一相似度,即得到十个第一相似度,得到原点案件Y1与候选案件M1之间十个维度对应的十个第一相似度。需要说明的是,在本发明实施例中由于第一元素和第二元素具有元素广度性,每个维度都涉及一个元素或多个元素,多个元素的情况如入室盗窃案件的涉案物品同时包括手机以及贵重首饰,因此在数据处理的过程中多个元素都需匹配,以增加相似度匹配的全面性和准确性。

需要说明的是,本发明实施例的第一元素和第二元素还具有元素模糊性和元素噪点性。其中,元素模糊性指的是案件数据中可能存储模糊处理的特殊符号,大多数情况下部分信息没有办法非常准确的获取,数据中只能通过*省略的记录。示例性的,如M1案件的嫌疑人邮箱地址:“XY275**[email protected]”,M2案件的邮箱地址记录“[email protected]”,在数据处理的过程中使用字符串匹配方法,将原始的元素通过*分割成数组,通过匹配规则依次比较,若都能匹配上则说明M1和M2嫌疑人邮箱元素具有相识度,整体数据获得加权。而元素噪点性指的是在数据预处理过程中,如第一元素和第二元素中包含“其他”、“等”、“不确定”元素,由于没有串并意义并且可能影响串并准确率,需要将该项元素在预处理环节进行剔除。

本发明实施例中,针对大量侦破警情案件的数据分析,发现不同犯罪类型的案件,所获得的十何要素(即第一维度和第二维度)线索不尽相同。具体的,诈骗类警情获得的何嫌疑人维度更加丰富和详尽,包括诈骗人昵称,汇款银行账号,联系方式等渠道信息。相对的盗窃类警情案件何嫌疑人维度数据的基本很难获取,其主要体现在何手段维度和何工具维度层面,包括实施盗窃的工具、方式手段、指纹、鞋印等信息,所以从不产生串并数据遗漏角度出发,需要从十何要素维度全面运算。

S400、根据第一相似度与预设维度权重,确定原点案件与选取的候选案件的第二相似度。

可选地,步骤S400包括步骤S410:

S410、将第一相似度与预设维度权重进行加权,得到原点案件与选取的候选案件的第二相似度。

本发明实施例中,预设维度权重中权重由大至小依次为何行为维度、何时维度、何工具维度、何手段维度、何地维度、何原因维度、何结果维度、何状态维度、何嫌疑人维度、何受害人维度,即:预设维度权重依据何行为维度(φ7)>何时维度(φ1)>何工具维度(φ4)>何手段维度(φ5)>何地维度(φ2)>何原因维度(φ6)>何结果维度(φ8)>何状态维度(φ9)>何嫌疑人维度(φ3)>何受害人维度(φ10),且φ7≥1,1≥φ1452689310≥0,φ1452689310=1。

需要说明的是,预设维度权重可以根据实际需求进行设定。本发明实施例中,通过大量数据实践分析出,跨犯罪类型何行为维度进行串并价值不大。示例性地,如盗窃类案件与抢劫类案件,其余的9个维度都不尽相同,则综合相似度基本趋近于0;时间空间何时维度维度表现为时空互斥性,既是犯罪嫌疑人不可能同时实施多起案件,但是却有相同时间段作案的习惯规律;而针对于涉案物品何工具维度而言,其中如QQ号,银行卡号这些信息都如同一个人的身份信息一样,具有唯一性,利于甄别破获,所以权重级别表现的尤为重要,针对于何嫌疑人维度权重大于何受害人维度,本发明的涉及主体思路既同一犯罪人员或犯罪团伙对侵害不同的受害群体,去串并受害人信息本身结果意义不大,由此确定上述的预设维度权重。

具体地,依据公式计算第二相似度:

其中,wsim(x,y)为第二相似度,ssimm(x,y)为第m个第一相似度,通过上述ssim(x,y)的公式计算所得,φm为第m个维度对应的权重。需要说明的是,第二相似度表征原点案件Y1与候选案件M1的整体相似度。

需要说明的是,如图2所示,本发明实施例的数据处理通过串并案智能运算中心实现,其提供运算管理服务,例如包含获取原点案件以及候选案件集以及计算第一相似度和第二相似度等的服务,采用建模串并案运算基础分布式节点(即算法运算切片E),E={E1,E2,E3,…,En},En表示第n个节点,其对内管理所属的算法运算服务和所需的硬件计算资源,对外接收任务发起者的处理任务请求,进行数据预处理,同时向全网广播自身的业务状态信息,包括数据存储分片、空闲的任务数以及硬件计算资源的负载情况等等,再通过ETL数据交换工具将已经预处理的数据装载到运算服务节点,等待运算的任务的发起,同时通过算法运算切片E所处理的数据存储后可以用于生成可视化关系图谱。其中,哨兵表示哨兵数据的传输。

S500、根据第二相似度,确定数据集合。

具体地,数据集合包括第一重点类数据或第二重点类数据,第二重点类数据的重要度高于第一重点类数据。

可选地,步骤S500包括步骤S510或者步骤520:

S510、当第二相似度大于等于第一阈值且小于第二阈值,确定选取的候选案件为第一重点类数据。

具体地,第一阈值为U1、第二阈值为U2,1≤U1<U2,当U2>wsim(x,y)≥U1,确定选取的候选案件M1为第一重点类数据D1。

S520、当第二相似度大于等于第二阈值,确定选取的候选案件为第二重点类数据。

具体地,当wsim(x,y)≥U2,确定选取的候选案件M1为第二重点类数据D2。需要说明的是当候选案件为第二重点类数据时,认为具有串并价值,可能是同一团伙或者存在同一犯罪人员使用不同作案形式的串并案件,可以进行案件的合并。

S600、将第二重点类数据与原点案件进行合并,得到合并案件。

具体地,当候选案件为第二重点类数据时,将该候选案件与原点案件进行合并。例如:当候选案件M1为第二重点类数据D2,将M1与D2合并得到合并案件B1。可以理解的是,合并相当于将M1的第二维度下的第二元素加入对应的与第二维度相同的第一维度下,若第二元素与第一元素相同则可以保留一个避免重复。

示例性的,如一宗案件犯罪人员使用QQ号码,另一案件使用银行卡号,但是通过上述相似度计算确定案件为第二重点类数据,则两宗案件的QQ号码以及银行卡号都有必要作为下一轮串并元素的意义,即将银行卡号、QQ号码都合并到一个案件的维度下。

S700、将合并案件作为新的原点案件,并从候选案件集内除数据集合以外的候选案件中选取新的候选案件,返回分别计算每一第一维度与选取的候选案件中与第一维度相同的每一第二维度的第一相似度的步骤进行迭代,直至达到预设迭代条件,得到合并结果。

具体地,将合并案件B1作为新的原点案件,并从候选案件集M内除数据集合以外的候选案件中选取新的候选案件,例如,从M2-Mn中选取新的候选案件,例如M2,返回分别计算每一第一维度与选取的候选案件中与第一维度相同的每一第二维度的第一相似度的步骤进行迭代,即以B1作为上述步骤S300中的Y1,以M2作为上述步骤S300中的M1,重新执行步骤S300,确定新的数据集合和新的合并案件B2,为一次迭代的结果,直至达到预设迭代条件,确定多个新的数据集合和新的合并案件Bn,得到最终的合并结果。需要说明的是,该合并结果为将未原点案件Y1与候选案件集M中被确定为第二重点类数据的所有候选案件进行合并后的结果。

本发明实施例公开的合并方式增加了纵向串并深挖的方法,也既是在横向计算其他案件与原点案件Y1相似度的基础上,将其他案件中可能更具有串并价值的线索纵向加入原点数据包中,在进行一下轮串并深挖,增加了合并的广泛性和包容性。

可以理解的是,当迭代结束后,可以从原点案件集合中抽取新的原点案件Yn(例如Y2),与候选案件集M采用如上述的步骤得到新的合并结果,重复迭代直到Yn原点案件全部运算分析结束,不再赘述。其中,针对每一原点案件的合并结果均保存在数据存储器上,以便后续的任务式过程回溯,为案件串并线索提供现实性分析依据。

可选地,步骤S700中的达到预设迭代条件可以包括步骤S710、S720或者S730:

S710、当所有数据集合中重点类数据的总数量大于等于第三阈值,达到预设迭代条件。

具体地,所有数据集合中重点类数据的总数量指的是通过迭代过程确定的多个数据集合中第一重点类数据和第二重点类数据的总数量,总数量用Sumn表示,n指的是迭代次数,Sumn个指的是第n次迭代后所有数据集合中重点类数据的总数量,U3为第三阈值,当Sumn≥U3,认为预设迭代条件,得到最终的合并结果。

S720、当进行迭代的次数大于第四阈值,达到预设迭代条件。

具体地,当进行迭代的次数大于第四阈值U4,达到预设迭代条件,达到预设迭代条件。

需要说明的是,U3、U4可以根据实际情况设置,例如U3为100、U4为20,即案件的合并结果不能超过100个案件,原点数据包(即新的合并案件Bn)串并次数不应超过20次,而设置第三阈值和第四阈值的原因在于若不满足第三阈值和第四阈值的条件,得到的最终合并结果可能会出现数据异常,所得的串并结果也是无意义的,并且可能产生分析数据包异常过大,造成服务超负荷运算。示例性的,如一宗案件犯罪嫌疑人使用QQ号码,并且通过短信‘10086’号码伪装作案,而另外一宗案件使用银行卡号,并且也通过伪装‘10086’作案,结果会造成原点数据包使用本身就错误关联的QQ号码和银行卡号进行深挖串并,会使得串并案件数量和串并次数产生较大偏离,需要将这引起数据异常的元素加入黑名单中。另外,在上述数据预处理中,可以将需要装载数据运算切片En的数据结果黑名单过滤,剔除异常数据,并且对于新发现引起数据异常的元素,在运算过程中采用上述第三阈值、第四阈值熔断的措施,并将新发现元素审核后加入黑名单。

S730、若当前的所有数据集合中重点类数据的总数量等于上一次迭代所得到的数据集合中重点类数据的总数量,达到预设迭代条件。

同样地,具体地,所有数据集合中重点类数据的总数量指的是通过迭代过程确定的多个数据集合中第一重点类数据和第二重点类数据的总数量,总数量用Sumn表示,n指的是迭代次数,Sumn个指的是第n次迭代后所有数据集合中重点类数据的总数量,当Sumn=Sumn-1,Sumn-1的是第n-1次迭代后所有数据集合中重点类数据的总数量,认为预设迭代条件,得到最终的合并结果。

本发明实施例的基于多维度的案件合并方法还可以包括步骤S810、S820或者S830,提供合并结果的可视化图谱服务,整个案件串并(即合并)过程具有高度交叉相关联性,在涉及由B1数据向Bn多维数据挖掘的过程中,构建灵活的用户界面和探索式的挖掘体验,以可视化关系图谱的形式展示逐层串并的过程,并在串并案模型迭代串并过程中,构建多维深挖串并方法,使得用户在交付界面中进行下钻、筛选、设置预警值等操作。另外,对于轨迹类信息的展示,采用GIS技术,将案件发生地点和嫌疑人活动轨迹以散点形态展示在地图上。以上所有原点案件、数据集合、合并案件等信息均支持最终结果的一档EXCEL导出,具体地,通过将装置中每层的串并结果使用Exce l方法将原始数据按照分sheet页签把每一项每一维度进行导出,为案件后续侦破提供数据基础。

具体地:

S810、将原点案件和每一数据集合展示于地图上,并展示每一数据集合以及原点案件的第二维度与第一维度的关联关系。

具体地,以原点案件为圆心,分层显示每一次的合并结果和数据集合并展示于地图上,

如图3所示,具有第一层和第二层,原点(案件)Y1与Mn案件之间通过十何要素(即十个维度)的相似度进行关联,可以很清晰的研判出相关串并案件的应用价值以及是否精确,能够很好地展示每一数据集合以及原点案件的第二维度与第一维度的关联关系。

可选地,在展示时可以页面的展示方式或者以过程动画的形式,展示每一层串并(即合并)挖掘的关联关系,具体的,在第一层串并中,展示{Y1,C1}案件以及相关的十何要素和简要警情,Y1为原点案件,C1为第一次迭代得到的数据集合,继续第二次下钻时,展示第二次串并(即合并)结果,包括{Y1,C1,C2}案件以及相关的维度要素,C2为第二次迭代得到的数据集合。以此类推,可以逐级下钻直到串并结束为止。对于不同层的串并结果都有不同的研判意义,下钻层级越深,串并数据结果往往几何倍增大,数据准确性将会降低,所以需要结合实际业务情况,使用相应层级的下钻串并结果。

S820、将原点案件和每一数据集合展示于地图上,响应于轨迹确定操作,基于何时维度和何地维度显示合并结果的时空运动轨迹。

具体地,第一维度以及数据集合均包括何时维度和何地维度,将原点案件和每一数据集合展示于地图上,响应于用户的轨迹确定操作,系统利用案件的十何维度要素中何地维度和何时维度,例如获取原点案件和数据集合的案件案发的84坐标系GIS地址,再依据何时维度所案发的具体时间,可以在显示页面显示串并案结果(即合并结果)的时空运动轨迹,为案件侦破提供新的技术手段,且提高了分析的效率。

S830、将原点案件和每一数据集合展示于地图上,响应于元素输入操作,在地图上定位至输入的元素所对应的原点案件或者数据集合。

具体地,可以在显示页面上提供检索筛选文本框,供用户输入元素,例如十个维度中的第一元素或者第二元素,系统响应于用户的元素输入操作,在地图上定位至输入的元素所对应的原点案件或者数据集合的位置,以在地图上可以快速定位关系图谱中的案件位置,例如原点案件或者数据集合的位置。

综上,本发明实施例通过统计并归类包含警情、案件信息、笔录数据等等的原点案件和候选案件集M,并获取原点案件以及候选案件集M中候选案件的十何维度特征,进行相似度计算,获取候选案件集M下的数据矩阵,结果满足上述设置的阈值的规则后数据才判定为有效合并结果;通过结构化相似度比对算法,将相似度数组矩阵算法进行关联挖掘计算,最终迭代深挖形成案件线索关系链图谱。

本发明实施例还提供一种基于多维度的案件合并装置,包括:

获取模块,用于获取原点案件以及候选案件集;原点案件包括第一维度集合,第一维度集合包括多个第一维度,候选案件集包括多个候选案件,每一候选案件包括多个第二维度;

选取模块,用于从候选案件集中选取一个候选案件;

第一计算模块,用于分别计算每一第一维度与选取的候选案件中与第一维度相同的每一第二维度的第一相似度;

第一确定模块,用于根据第一相似度与预设维度权重,确定原点案件与选取的候选案件的第二相似度;

第二确定模块,用于根据第二相似度,确定数据集合;数据集合包括第一重点类数据和第二重点类数据中的至少一种,第二重点类数据的重要度高于第一重点类数据;

合并模块,用于将第二重点类数据与原点案件进行合并,得到合并案件;

迭代模块,用于将合并案件作为新的原点案件,并从候选案件集内除数据集合以外的候选案件中选取新的候选案件,返回分别计算每一第一维度与选取的候选案件中与第一维度相同的每一第二维度的第一相似度的步骤进行迭代,直至达到预设迭代条件,得到合并结果。

上述方法实施例中的内容均适用于本系统实施例中,本系统实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

本发明实施例还提供了一种基于多维度的案件合并装置,该设备包括处理器以及存储器;

存储器用于存储程序;

处理器用于执行程序实现本发明实施例的基于多维度的案件合并方法。本发明实施例的装置可以实现基于多维度的案件合并的功能。该装置可以为包括手机、平板电脑、个人数字助理(Personal Digital Assistant,简称PDA)、销售终端(Point of Sales,简称POS)、车载电脑等任意智能终端。

上述方法实施例中的内容均适用于本装置实施例中,本装置实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

本发明实施例还提供一种计算机可读存储介质,该计算机可读存储介质存储有程序,该程序被处理器执行完成如前述发明实施例的基于多维度的案件合并方法。

本发明实施例还提供一种包括指令的计算机程序产品,当其在计算机上运行时,使得计算机执行前述发明实施例的基于多维度的案件合并方法。

本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。

在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括多指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等各种可以存储程序的介质。

以上,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

完整详细技术资料下载
上一篇:石墨接头机器人自动装卡簧、装栓机
下一篇:基于降维算法的数据关联方法及系统

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!