数据修复方法、装置及数据处理设备
技术领域
本申请涉及大数据处理
技术领域
,具体而言,涉及一种数据修复方法、装置及数据处理设备。背景技术
在大数据处理过程中,常需要对从多个不同的数据源获取数据进行整合处理,但是从不同渠道获取到的数据的数据质量往往不同,有的数据源有比较好的数据质量,有的数据源的数据质量很差,比如在人参与的数据存储、拷贝、修复过程中可能会出现数据信息的错误填写、信息丢失、错误修复等问题。当从不同的渠道拿到待处理数据后,如何有效识别这些有问题的数据和修复这些数据十分重要。
传统的修复数据的方法通常是在发现数据信息之间发生冲突时通过人工询问的方式获取上游数据源,通过调查数据错误的根源来重新修复数据,这种方式对于数据生成时间较短且能找到上下游相关的参与方且数据规模很小的情况下有用,但是在大数据时代,数据规模庞大,有的数据历史悠久,已经很难通过人员向上下游询问的方式来修复数据问题。
发明内容
为了克服现有技术中的上述不足,本申请的目的在于提供一种数据修复方法,所述方法包括:
从至少两个不同的渠道获取多条待处理数据;每条待处理数据包括至少两个属性及相应的属性值;
确定所述待处理数据的标识属性和一般属性;
将每条所述待处理数据作为节点构建带权无向图,其中,具有至少一个标识属性值相同的节点之间具有连线,所述连线的权重值和节点之间具有相同属性值的标识属性的个数正相关;
通过连通图算法,对所述带权无向图进行连通子图检测和拆分,获得连通子图的集合;
若所述连通子图中存在所述标识属性的有效属性值不一致的节点,则将该连通子图标识为信息冲突子图;
针对每个所述信息冲突子图,通过社区检测算法对所述信息冲突子图中的节点进行社区划分;
针对所述信息冲突子图中具有连线且位于不同的社区的一对冲突节点,将该连线对应标识属性作为冲突属性,通过修改所述一对冲突节点中该冲突属性的属性值以解除该一对冲突节点之间的连线关系。
在一种可能的实现方式中,所述方法还包括:
针对每个所述信息冲突子图中的每个社区,统计每个属性中不同属性值出现的频率,将该社区中存在属性的属性值缺失的节点,使用该社区中该属性出现频率最高的属性值补全该属性。
在一种可能的实现方式中,所述方法还包括:
对所述多条待处理数据进行属性整合增补,使每条所述待处理数据具有相同数量的属性。
在一种可能的实现方式中,所述通过修改所述一对冲突节点中该冲突属性的属性值以解除该一对冲突节点之间的连线关系的步骤,包括:
针对所述一对冲突节点中的每个冲突节点,统计所述冲突节点所在的社区中所述冲突属性的不同属性值出现的概率,使用出现概率最高的属性值替代该冲突节点中所述冲突属性的属性值。
在一种可能的实现方式中,在所述将每条所述待处理数据作为节点构建带权无向图的步骤之前,所述方法还包括:
针对从同一渠道获取的待处理数据,对获取到的待处理数据进行去重处理。
在一种可能的实现方式中,所述确定所述待处理数据的标识属性和一般属性的步骤,包括:
针对每个属性,通过以下公式计算该属性的区分度值D:
其中,A为待处理数据的总条数,Dis(A)为该属性的有效值去重后数量;
若该属性的区分度值D大于预设区分度阈值,则将该属性标识为标识属性,否则将该属性标识为一般属性。
在一种可能的实现方式中,所述将每条所述待处理数据作为节点构建带权无向图的步骤,包括:
将每条所述待处理数据作为节点,在具有属性值相同的标识属性值的节点之间构建连线;
根据以下公式确定所述连线的权重值w:
其中,pk为第k个所述标识属性,δ(pk)为标识属性pk的同值判断函数,若两个节点标识属性pk的值相同,则δ(pk)的属性值为1,若两个节点标识属性pk的值不同,则δ(pk)的属性值为0;βk为第k个所述标识属性的预设重要度系数;
nm为第m个所述一般属性,δ(nm)为一般属性nm的同值判断函数,若两个节点一般属性nm的值相同,则δ(nm)的属性值为1,若两个节点一般属性nm的值不同,则δ(nm)的属性值为0;λm为第m个所述标识属性的预设重要度系数。
在一种可能的实现方式中,所述方法还包括:
若所述连通子图中不存在所述标识属性的有效属性值不一致的节点,则将该连通子图标识为信息不冲突子图;
针对所述信息不冲突子图中的每个节点,若存在属性值缺失的缺失属性,根据所述信息不冲突子图中该缺失属性的不同的属性值出现的频率,使用出现频率最大的属性值作为该缺失属性的属性值。
本申请的另一目的在于提供一种数据修复装置,所述装置包括:
数据获取模块,用于从至少两个不同的渠道获取多条待处理数据;每条待处理数据包括至少两个属性及相应的属性值;
数据整理模块,用于确定所述待处理数据的标识属性和一般属性;
数据修复模块,用于将每条所述待处理数据作为节点构建带权无向图,其中,具有至少一个标识属性值相同的节点之间具有连线,所述连线的权重值和节点之间具有相同属性值的标识属性的个数正相关;通过连通图算法,对所述带权无向图进行连通子图检测和拆分,获得连通子图的集合;若所述连通子图中存在所述标识属性的有效属性值不一致的节点,则将该连通子图标识为信息冲突子图;针对每个所述信息冲突子图,通过社区检测算法对所述信息冲突子图中的节点进行社区划分;针对所述信息冲突子图中具有连线且位于不同的社区的一对冲突节点,将该连线对应标识属性作为冲突属性,通过修改所述一对冲突节点中该冲突属性的属性值以解除该一对冲突节点之间的连线关系。
本申请的另一目的在于提供一种数据处理设备,其特征在于,包括处理器及机器可读存储介质,所述机器可读存储介质存储有机器可执行指令,所述机器可执行指令在被所述处理器执行时,实现本申请提供的所述数据修复方法。
本申请的另一目的在于提供一种机器可读存储介质,其特征在于,所述机器可读存储介质存储有机器可执行指令,所述机器可执行指令在被一个或多个处理器执行时,实现本申请提供的所述数据修复方法。
相对于现有技术而言,本申请具有以下有益效果:
本申请提供的数据修复方法、装置及数据处理设备,通过根据待处理数据构建带权无向图,进行连通子图的划分,并采用社区划分的方式自动发现存在信息冲突的属性,从而可以自动地有效地对识别出异源数据中的问题数据,并对数据进行尽可能的修复。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的数据修复方法的示意图;
图2为本申请实施例提供的数据处理设备的示意图;
图3为本申请实施例提供的数据修复装置的功能模块示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
在本申请的描述中,还需要说明的是,除非另有明确的规定和限定,术语“设置”、“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本申请中的具体含义。
请参照图1,图1为本实施例提供的一种数据修复方法的步骤流程示意图,下面对该方法的各个步骤进行详细阐述。
步骤S100,从至少两个不同的渠道获取多条待处理数据。每条待处理数据包括至少两个属性及相应的属性值。
由于来自不同渠道的多条待处理数据可能具有不同数据结构,在一些可能的实现方式中,在获取到多条待处理数据后,可以先对所述多条待处理数据进行属性整合增补,使每条所述待处理数据具有相同数量的属性。例如,针对某条待处理数据,若和其他待处理数据相比,缺少某个属性X,则为该待处理数据增补一个属性X,并将该数据X的属性值设置为空值(例如,可用NULL值表示)。
另外,在本实施例中,还可以为每条待处理数据增补一个渠道来源属性,用于标识数据来源的渠道。
在一些可能的实现方式中,为了减少不必要的数据处理动作,在所述将每条所述待处理数据作为节点构建带权无向图之前,还可以针对从同一渠道获取的待处理数据,对获取到的待处理数据进行去重处理。
例如,针对同一渠道待处理数据,可以基于所有属性数据对数据进行去重,各个属性的属性值均完全相同的待处理数据只需随机保留一条。另外,如果多条待处理数据具有获取数据的日期属性,而其他属性完全相同,则可以仅保留日期最新的一条。
步骤S200,确定所述待处理数据的标识属性和一般属性,其中,所述标识属性为表征待处理数据身份信息的属性。
示例性地,标识属性为能在一定程度上对待处理数据唯一性进行区分的属性,一般属性为数据中对数据标识不强的属性。比如对于个人信息中,电话号码、姓名就是标识属性,但是又可能不具有唯一性(例如,可能有同名的人,电话号也可能被运营商重新分配),而身高、年龄、所属省份等信息就是一般属性,可能存在多条待处理的同一一般属性具有相同的值。
在一些可能的实现方式中,可以通过计算各属性的区分度值来自动地区分标识属性和一般属性。
具体地,针对每个属性,通过以下公式计算该属性的区分度值D:
其中,A为待处理数据的总条数,Dis(A)为该属性的有效值去重后数量;
若该属性的区分度值D大于预设区分度阈值,则将该属性标识为标识属性,否则将该属性标识为一般属性。
在另一些可能的实现方式中,也可以由通过人工标识的方式区分所述标识属性和一般属性。
步骤S300,将每条所述待处理数据作为节点构建带权无向图,其中,具有至少一个标识属性值相同的节点之间具有连线,所述连线的权重值和节点之间具有相同属性值的标识属性的个数正相关。
在一些可能的实现方式中,若两个节点的标识属性具有相同的属性值,则可以认为该两个节点可能具有联系,例如,两个节点的“姓名”属性的属性值相同,则这两个节点对应待处理数据可能为同一用户的数据。因此,在本实施例中,可以将每条所述待处理数据作为节点,在具有属性值相同的标识属性值的节点之间构建连线。
然后,若两个节点之间,具有相同属性值的属性的数量越多,则标识该两个节点对应的待处理数据的联系越紧密,因此可以根据以下公式确定所述连线的权重值w:
其中,pk为第k个所述标识属性,δ(pk)为标识属性pk的同值判断函数,若两个节点标识属性pk的值相同,则δ(pk)的属性值为1,若两个节点标识属性pk的值不同,则δ(pk)的属性值为0;βk为第k个所述标识属性的预设重要度系数;
nm为第m个所述一般属性,δ(nm)为一般属性nm的同值判断函数,若两个节点一般属性nm的值相同,则δ(nm)的属性值为1,若两个节点一般属性nm的值不同,则δ(nm)的属性值为0;λm为第m个所述标识属性的预设重要度系数。其中,βk和λm可以预先根据不同属性的重要程度预先有人工设定。
步骤S400,通过连通图算法,对所述带权无向图进行连通子图检测和拆分,获得连通子图的集合。
在一种可能的实现方式中,拆分后针对的连通子图,不同的连通子图之间的节点不具有连线,同一连通子图的节点之间具有连线。
步骤S500,若所述连通子图中存在所述标识属性的有效属性值不一致的节点,则将该连通子图标识为信息冲突子图。
具体地,在本实施例中,若一个连通子图中,对于任意一个标识属性,除了空值以外,存在标识属性属性值不一致的节点,则将该连通子图标识为信息冲突子图,否则将该连通子图标识为信息不冲突子图。
步骤S600,针对每个所述信息冲突子图,通过社区检测算法对所述信息冲突子图中的节点进行社区划分。
在本实施例中,可以采用快速展开(Fast Unfolding) 算法分别针对每个所述信息冲突子图进行社区检测和划分,将该信息冲突子图中的节点划分至多个不同的社区。
步骤S700,针对所述信息冲突子图中具有连线且位于不同的社区的一对冲突节点,将该连线对应标识属性作为冲突属性,通过修改所述一对冲突节点中该冲突属性的属性值以解除该一对冲突节点之间的连线关系。
在本实施例中,如果所述信息冲突子图中的某条连线对应的两个节点分别处于两个不同的社区中,则标记这条连线为异常连线。理论上说,位于不同社区的节点应该为联系不紧密的数据,而异常连线的出现说明冲突节点之间存在属性值相同的标识属性,该标识属性的值就很有可能属性值异常,例如,记录错误的值。通过这种方式可以自动迅速地发现这种错误的值。
在一种可能的实现方式中,针对所述一对冲突节点中的每个冲突节点,统计所述冲突节点所在的社区中所述冲突属性的不同属性值出现的概率,使用出现概率最高的属性值替代该冲突节点中所述冲突属性的属性值。
具体地,如果对于某一常连线e,对应的两个冲突节点为v和w,分别属于社区Cj及Ck,冲突属性为属性X。针对冲突节点v在,社区Cj中统计属性X的不同属性值的出现频率,将出现频率最高的属性值作为冲突节点v的属性X的属性值;针对冲突节点w,在社区Ck中统计属性X的不同属性值的出现频率,将出现频率最高的属性值作为冲突节点w的属性X的属性值。如此,可以自动地识别出存在问题的属性并进行修复。
在一些可能的实现方式中,在步骤S700之后,还可以针对每个所述信息冲突子图中的每个社区,统计每个属性中不同属性值出现的频率,将该社区中存在属性的属性值缺失的节点,使用该社区中该属性出现频率最高的属性值补全该属性。如此,可以针对属性值确实的属性进行自动修复。
在一些可能的实现方式中,若所述连通子图中不存在所述标识属性的有效属性值不一致的节点,则将该连通子图标识为信息不冲突子图。
针对所述信息不冲突子图中的每个节点,若存在属性值缺失的缺失属性,根据所述信息不冲突子图中该缺失属性的不同的属性值出现的频率,使用出现频率最大的属性值作为该缺失属性的属性值。
另外,本实施例还提供一种数据处理设备,该数据处理设备可以运行本实施例提供的所述数据修复方法。所述数据处理设备可以是,但不限于,服务器、个人电脑(personalcomputer,PC)、工作站等具有数据处理能力的电子设备。
请参照图2,图2为本实施例提供的一种数据处理设备100的硬件结构示意图。所述数据处理设备100包括数据修复装置110、机器可读存储介质120及处理器130。
所述机器可读存储介质120、处理器130各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。所述数据修复装置110包括至少一个可以软件或固件(firmware)的形式存储于所述机器可读存储介质120中或固化在所述数据处理设备100的操作系统(operatingsystem,OS)中的软件功能模块。所述处理器130用于执行所述机器可读存储介质120中存储的可执行模块,例如所述数据修复装置110所包括的软件功能模块及计算机程序等。
其中,所述机器可读存储介质120可以是,但不限于,随机存取存储器(RandomAccess Memory,简称RAM),只读存储器(Read Only Memory,简称ROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),可擦除只读存储器(ErasableProgrammable Read-Only Memory,简称EPROM),电可擦除只读存储器(Electric ErasableProgrammable Read-Only Memory,简称EEPROM)等。其中,机器可读存储介质120用于存储程序,处理器130在接收到执行指令后,执行所述程序。所述处理器130以及其他可能的组件对机器可读存储介质120的访问可在所述存储控制器212的控制下进行。
所述处理器130可能是一种集成电路芯片,具有信号的处理能力。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit, 简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
请参照图3,本实施例还提供一种数据修复装置,数据修复装置包括至少一个可以软件形式存储于机器可读存储介质中的功能模块。从功能上划分,数据修复装置可以包括数据获取模块111、数据整理模块112及数据修复模块113。
所述数据获取模块111用于从至少两个不同的渠道获取多条待处理数据。每条待处理数据包括至少两个属性及相应的属性值。
本实施例中,所述数据获取模块111可用于执行图1所示的步骤S100,关于所述数据获取模块111的具体描述可参对所述步骤S100的描述。
所述数据整理模块112用于确定所述待处理数据的标识属性和一般属性。
本实施例中,所述数据整理模块112可用于执行图1所示的步骤S200,关于所述数据整理模块112的具体描述可参对所述步骤S200的描述。
所述数据修复模块113用于将每条所述待处理数据作为节点构建带权无向图,其中,具有至少一个标识属性值相同的节点之间具有连线,所述连线的权重值和节点之间具有相同属性值的标识属性的个数正相关。通过连通图算法,对所述带权无向图进行连通子图检测和拆分,获得连通子图的集合。若所述连通子图中存在所述标识属性的有效属性值不一致的节点,则将该连通子图标识为信息冲突子图。针对每个所述信息冲突子图,通过社区检测算法对所述信息冲突子图中的节点进行社区划分。针对所述信息冲突子图中具有连线且位于不同的社区的一对冲突节点,将该连线对应标识属性作为冲突属性,通过修改所述一对冲突节点中该冲突属性的属性值以解除该一对冲突节点之间的连线关系。
本实施例中,所述数据修复模块113可用于执行图1所示的步骤S300到S700,关于所述数据修复模块113的具体描述可参对所述步骤S300到S700的描述。
综上所述,本申请提供的数据修复方法、装置及数据处理设备,通过根据待处理数据构建带权无向图,进行连通子图的划分,并采用社区划分的方式自动发现存在信息冲突的属性,从而可以自动地有效地对识别出异源数据中的问题数据,并对数据进行尽可能的修复。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述,仅为本申请的各种实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。