一种数据处理方法及装置
技术领域
本申请涉及计算机
技术领域
,尤其涉及一种数据处理方法及装置。背景技术
随着互联网技术的蓬勃发展,一个数据平台通常可以与多个数据提供方合作,以整合得到较为全面的、准确的基础数据集来提供给用户使用,从而提升该数据平台在同类产品中的竞争力;所谓的基础数据集是指:可以被公开的,不涉及敏感信息的数据。在有多个数据提供方的情况下,数据平台在对数据进行整合时,可能会存在数据冲突,所谓的数据冲突可以理解为:针对同一数据项,不同的数据提供方提供了不同的数据值,如:针对商场A的地址,提供方甲提供的数据为A街区,提供方乙提供的数据为B街区。因此,如何高效地对各个数据提供方提供的数据进行整合成了当下的研究热点。
发明内容
本申请实施例提供了一种数据处理方法及装置,可提升数据平台对数据进行融合的效率。
一方面,本申请实施例提供了一种数据处理方法,包括:
若接收到数据接入方针对基础数据集的查询请求,获取一个或多个数据提供方中每个数据提供方在目标数据提供周期内,针对所述基础数据集中目标数据项提供的备选数据,得到一条或多条备选数据;
获取所述每个数据提供方的历史权益,所述历史权益是根据所述每个数据提供方在所述目标数据提供周期之前的所有历史数据提供周期的综合权益得到的;
确定所述一条或多条备选数据中每条备选数据的置信度,并将置信度最高的备选数据作为目标数据,所述每条备选数据的置信度是根据提供所述每条备选数据的一个或多个目标数据提供方中每个目标数据提供方的历史权益确定的;
根据所述目标数据确定基础数据集,并将所述基础数据集发送给所述数据接入方。
一方面,本申请实施例提供了一种数据处理装置,包括:
获取单元,用于若接收到数据接入方针对基础数据集的查询请求,获取一个或多个数据提供方中每个数据提供方在目标数据提供周期内,针对所述基础数据集中目标数据项提供的备选数据,得到一条或多条备选数据;
所述获取单元,还用于获取所述每个数据提供方的历史权益,所述历史权益是根据所述每个数据提供方在所述目标数据提供周期之前的所有历史数据提供周期的综合权益得到的;
确定单元,用于确定所述一条或多条备选数据中每条备选数据的置信度,并将置信度最高的备选数据作为目标数据,所述每条备选数据的置信度是根据提供所述每条备选数据的一个或多个目标数据提供方中每个目标数据提供方的历史权益确定的;
发送单元,用于根据所述目标数据确定基础数据集,并将所述基础数据集发送给所述数据接入方。
一方面,本申请实施例提供了一种数据平台,包括:
处理器,适于实现一条或多条计算机程序;
计算机存储介质,所述计算机存储介质存储有一条或多条计算机程序,所述一条或多条计算机程序适于由所述处理器加载并执行:
若接收到数据接入方针对基础数据集的查询请求,获取一个或多个数据提供方中每个数据提供方在目标数据提供周期内,针对所述基础数据集中目标数据项提供的备选数据,得到一条或多条备选数据;获取所述每个数据提供方的历史权益,所述历史权益是根据所述每个数据提供方在所述目标数据提供周期之前的所有历史数据提供周期的综合权益得到的;确定所述一条或多条备选数据中每条备选数据的置信度,并将置信度最高的备选数据作为目标数据,所述每条备选数据的置信度是根据提供所述每条备选数据的一个或多个目标数据提供方中每个目标数据提供方的历史权益确定的;根据所述目标数据确定基础数据集,并将所述基础数据集发送给所述数据接入方。
一方面,本申请实施例提供了一种存储介质,所述存储介质存储有一条或多条计算机程序,所述一条或多条计算机程序适于由处理器加载并执行:
若接收到数据接入方针对基础数据集的查询请求,获取一个或多个数据提供方中每个数据提供方在目标数据提供周期内,针对所述基础数据集中目标数据项提供的备选数据,得到一条或多条备选数据;获取所述每个数据提供方的历史权益,所述历史权益是根据所述每个数据提供方在所述目标数据提供周期之前的所有历史数据提供周期的综合权益得到的;确定所述一条或多条备选数据中每条备选数据的置信度,并将置信度最高的备选数据作为目标数据,所述每条备选数据的置信度是根据提供所述每条备选数据的一个或多个目标数据提供方中每个目标数据提供方的历史权益确定的;根据所述目标数据确定基础数据集,并将所述基础数据集发送给所述数据接入方。
一方面,本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品包括计算机程序,该计算机程序存储在计算机存储介质中;数据平台的处理器从计算机存储介质中读取该计算机程序,处理器执行该计算机程序,使得数据平台执行:
若接收到数据接入方针对基础数据集的查询请求,获取一个或多个数据提供方中每个数据提供方在目标数据提供周期内,针对所述基础数据集中目标数据项提供的备选数据,得到一条或多条备选数据;获取所述每个数据提供方的历史权益,所述历史权益是根据所述每个数据提供方在所述目标数据提供周期之前的所有历史数据提供周期的综合权益得到的;确定所述一条或多条备选数据中每条备选数据的置信度,并将置信度最高的备选数据作为目标数据,所述每条备选数据的置信度是根据提供所述每条备选数据的一个或多个目标数据提供方中每个目标数据提供方的历史权益确定的;根据所述目标数据确定基础数据集,并将所述基础数据集发送给所述数据接入方。
本申请实施例在目标数据项存在数据冲突时,通过获取该目标数据项对应的各个备选数据,并确定每个备选数据对应的一个或多个数据提供方的历史权益,然后基于该一个或多个数据提供方的历史权益确定每个备选数据的置信度,从而进行数据融合,提高了数据平台提供给用户的数据的准确度。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a是本申请实施例提供的一种数据平台中的数据流向示意图;
图1b是本申请实施例提供的一种数据处理系统的示意图;
图2是本申请实施例提供的一种数据处理方法的流程示意图;
图3a是本申请实施例提供的一种区块链的结构示意图;
图3b是本申请实施例提供的一种区块链网络的结构示意图;
图3c是本申请实施例提供的一种目标数据的确定流程示意图;
图4是本申请实施例提供的又一种数据处理方法的流程示意图;
图5是本申请实施例提供的一种数据处理装置的示意图;
图6是本申请实施例提供的一种数据平台的结构示意图。
具体实施方式
得益于互联网技术的发展,数据平台可以利用互联网的优势来整合多个数据提供方(例如:多个业务方)提供的信息,以使得用户可以在该数据平台上获取到与各个业务方对应的业务相关的信息,如:医疗数据平台中可以获取到与医生直播业务、线上问诊业务、挂号业务等业务的相关信息,示例性地,医生直播业务可以包括医生姓名、医生职称、医院地址等数据;线上问诊业务可以包括医生姓名、医生职称、病症名称等数据;挂号业务可以包括医生姓名、医院地址、科室名称等数据。可以理解,不同的业务中可能会用到同一数据项,如:挂号业务和线上问诊业务中可能都会用到医生A的医生职称这一数据项,那么,如果各个业务之间的数据不统一,可能出现用户在不同业务中看到的针对同一数据项的数据不同的情况,如:在挂号业务中看到的医生A的职称和在线上问诊业务中看到的医生A的医生职称不一致,从而影响用户体验。因此,需要对各个业务方提供的数据进行数据融合处理,以得到置信度高且统一的数据供用户使用。在实际应用中,在一个数据平台具有多个数据提供方的情况下,数据的融合可能会遇到冲突,此时,数据平台通常会根据某些特征值,将相似的对象放到同一组,并通过各个数据接入方进行判断,以选择出各个数据接入方需要的数据。然而,在数据接入方进行判断的过程中,可能会修改其他数据接入方使用的数据,从而导致其他数据接入方的业务受到影响。
其中,数据平台包括一个或多个基础数据集,每个基础数据集包括一个或多个数据,不同数据对应的数据项不同,每个数据项可对应一个或多个数据,示例性地,所谓的基础数据集可以理解为:一条完整的信息,如:医生信息(如:医生A-眼科-主任医师)、学院信息等;数据项则可以理解为:组成该条完整信息的各个字段,如:组成医生信息的医生姓名或医生职称等,再如,组成学院信息的学院名称或学院地址等。那么,进一步的可以理解,数据提供方可以指:与该数据平台建立有通信连接,且可以为数据平台提供自身拥有的各个数据项的备选数据的业务方;数据接入方可以指:需要使用数据平台中基础数据集的应用程序或客户端等。
为了解决上述问题,本申请实施例提供了一种数据处理方案,该数据处理方案在对各个业务方提供的数据进行融合时,通过计算各个业务方为数据平台带来的流量,来构造流量权益证明,并基于流量权益证明对各个业务方使用的数据进行统一,可以让数据平台能够高效地收集到较为全面的数据,成为一个开放型的数据平台。具体地,该数据处理方案的大致原理如下:在接收到数据接入方针对基础数据集的查询请求后,获取目标数据提供周期内与数据平台合作的各个数据提供方针对基础数据集中目标数据项提供的备选数据,所谓的目标数据提供周期可以是任意一个数据提供周期,在每个数据提供周期内,数据平台都可以接收一个或多个数据提供方提供的任意数据项的备选数据。进一步地,在该目标数据提供周期内,若存在该目标数据项对应多个不同备选数据的情况,则确定出该多个不同备选数据项中各个备选数据的数据提供方(可以为一个或多个),然后该数据平台可以通过确定一个或多个数据提供方的历史权益,来确定出各个备选数据的置信度,从而选择出置信度最高的备选数据,并根据该备选数据确定用户查询的基础数据集,然后将该基础数据集发送给数据接入方。
其中,目标数据项可以指:数据平台包括的所有基础数据集中,任一基础数据集包括的一个或多个数据项中的任意一个数据项,例如,当基础数据集为学院信息时,若学院信息包括学院名称和学院地址两个数据项,那么,在学院信息这一基础数据集中,目标数据项可以是学院名称或学院地址,当目标数据项为学院名称时,备选数据可以是:XX信息学院、XX工程学院等。每个数据提供方的历史权益与该数据提供方在历史数据提供周期中提供的各个备选数据有关,具体地,若数据提供方在历史数据提供周期中提供的所有备选数据中,被采纳的备选数据越多,该数据提供方对应的历史权益就越高;相应地,若被采纳的备选数据越少,则该数据提供方对应的历史权益就越低。
示例性地,数据提供方、数据接入方与数据平台三者之间的数据流向可以参见图1a所示,数据提供方向数据平台提供基础数据集,数据平台以区块的形式保存生产的基础数据集(即:数据提供方提供的基础数据集),然后数据接入方从存有基础数据集的区块中消费已有的基础数据集后,定期向数据平台提供基础数据集消费明细,并基于数据消费明细对应的流量向数据平台进行缴费,数据平台可以在获得费用之后根据数据提供方的流量权益,向数据提供方分配经济效益。举例来说,假设“学校X的学校地址”来自数据提供方B,那么,若数据接入方A使用了“学校X的学校地址”,则数据接入方A需要向数据平台提供使用“学校X的学校地址”的流量证明,并基于流量证明中的流量向数据平台缴费,数据平台可以基于数据提供方在目标数据提供周期内的流量权益,将数据接入方A缴纳的费用分给数据提供方B。由于数据接入方需要根据流量向数据平台缴费,因此可以从客观上限制了数据接入方多报流量的问题,而对于数据接入方少报流量的情况,数据平台可通过随机访问该数据接入方的某个或某多个业务,并在访问后查看该数据接入方的流量是否增加以核查;如果没有增加,则证明该数据接入方存在少报流量的情况,此时数据平台可以对该数据接入方进行适当处罚,便可以有效防止少报流量的行为。
在具体实现中,上述数据处理方案可以应用于如图1b所示的数据处理系统中,如图1b所示,该数据处理系统包括一个或多个数据提供方11,数据平台12,以及一个或多个数据接入方13。其中,该一个或多个数据提供方中的每个数据提供方,或者该一个或多个数据接入方中的每个数据接入方可以为终端或者终端中运行的客户端;该数据平台可以存在于一个数据平台中,该数据平台可以是终端或者服务器。其中,终端可包括但不限于:智能手机、平板电脑、笔记本电脑、台式计算机、智能电视等;用户可以通过账号登录的方法登录客户端,进而通过客户端向服务器提供备选数据,等等。服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器,等等。
基于上述数据处理方案以及上述数据处理系统的相关描述,本申请实施例提供了一种数据处理方法,该数据处理方法可以由上述所提及的数据平台执行;请参见图2所示,该数据处理方法包括:
S201,若接收到数据接入方针对基础数据集的查询请求,获取一个或多个数据提供方中每个数据提供方在目标数据提供周期内,针对基础数据集中目标数据项提供的备选数据,得到一条或多条备选数据。
实际应用中,数据平台可以与一个或多个数据提供方建立通信连接,以获取该一个或多个数据提供方针对目标数据项提供的备选数据,上述所提及的一个或多个数据提供方指的是:至少一个数据提供方。其中,数据平台在目标数据提供周期内,获取任一数据提供方针对目标数据项提供备选数据的方式可以是:数据平台接收该任一数据提供方接入数据平台后,向该数据平台同步的私有数据,然后,该数据平台将该数据提供方同步的私有数据以区块的形式保存至该目标数据提供周期对应的区块上。
其中,数据处理系统可以构成一个区块链网络,该区块链网络中的节点设备可以包括数据平台、至少一个数据提供方以及至少一个数据接入方。在至少一个数据提供方中的一个或者多个数据提供方向数据平台发送针对目标数据项提供的备选数据之后,数据平台可以根据一个或多个数据提供方中每个数据提供方针对目标数据项提供的备选数据,生成区块,并将该区块发布至区块链网络。
以图3a所示的区块链的结构示意图为例,每当有新的备选数据需要写入区块链,这些新的备选数据会汇总到一个区块(block)中,添加在已有区块链的末端,通过共识算法保证每个节点新添加的区块是完全相同的。每个区块内记录了若干条数据同步记录,同时包含了前一个区块的哈希(hash)值,所有区块就是通过这种方式保存前一个区块中的hash值,按顺序相连,组成了区块链。区块链中下一个区块的区块头中会存储前一个区块的哈希值,当前一个区块中的数据项的目标数据发生变化时,本区块的哈希值也会随之改变,因此通过上传至区块链网络中的目标数据难以被篡改。为了更好的理解本申请实施例提供的数据处理方法,下面将对本申请实施例使用的区块链网络进行描述。实际应用中,区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。其中,区块链底层平台可以包括用户管理、基础服务、智能合约以及运营监控等处理模块,其中,用户管理模块负责所有区块链参与者的身份信息管理,包括维护公私钥生成(账户管理)、密钥管理以及用户真实身份和区块链地址对应关系维护(权限管理)等,并且在授权的情况下,监管和审计某些真实身份的交易情况,提供风险控制的规则配置(风控审计);基础服务模块部署在所有区块链节点设备上,用来验证业务请求的有效性,并对有效请求完成共识后记录到存储上,对于一个新的业务请求,基础服务先对接口适配解析和鉴权处理(接口适配),然后通过共识算法将业务信息加密(共识管理),在加密之后完整一致的传输至共享账本上(网络通信),并进行记录存储;智能合约模块负责合约的注册发行以及合约触发和合约执行,开发人员可以通过某种编程语言定义合约逻辑,发布到区块链上(合约注册),根据合约条款的逻辑,调用密钥或者其它的事件触发执行,完成合约逻辑,同时还提供对合约升级注销的功能;运营监控模块主要负责产品发布过程中的部署、配置的修改、合约设置、云适配以及产品运行中的实时状态的可视化输出,例如:告警、监控网络情况、监控节点设备健康状态等。此外,平台产品服务层用于提供典型应用的基本能力和实现框架,开发人员可以基于这些基本能力,叠加业务的特性,完成业务逻辑的区块链实现;而应用服务层提供基于区块链方案的应用服务给业务参与方进行使用。
请参见图3b,图3b是本申请实施例提供的一种区块链网络的结构示意图,如图3b所示,该区块链网络包括至少一个数据提供方301、至少一个第一区块链节点设备302和至少一个第二区块链节点设备303,需要说明的是,本实施例中区块链网络的结构仅仅作为本申请实施例示意,并不对本方案做出限定。其中,数据提供方301可以是运行于终端设备中的客户端,第一区块链节点设备302可以是区块链节点设备中的任意一个节点设备,第一区块链节点设备302是区块链网络中所有区块链节点设备根据共识算法选举出来的区块链节点设备,其中,共识算法包括但不限于工作量证明(Proof of Work,PoW)算法、权益证明(Proof of Stake,PoS)算法、授权权益证明(Delegated Proof of Stake,DPoS)算法、实用拜占庭容错(Practical Byzantine Fault Tolerance,PBFT)算法等。第二区块链节点设备是区块链网络中除去第一区块链节点设备的其它区块链节点设备。其中,第一区块链节点设备可以通过共识算法周期性选举得到,不同周期选举得到的第一区块链节点设备可以相同,也可以不相同。
S202,获取每个数据提供方的历史权益。
实际应用中,每个数据提供方的历史权益可以根据数据提供方在目标数据提供周期之前的所有历史数据提供周期中获取到的综合权益来确定,所谓的综合权益是指:每个数据提供方在任一历史数据提供周期内获得的权益;举例来说,若目标数据提供周期为第3个数据提供周期,那么,数据提供方a的历史权益可以根据数据提供方a在第1个和第2个数据提供周期内获取到的所有综合权益(共有2个综合权益,每个数据提供周期对应一个综合权益)来确定,具体来说,假设在第1个数据提供周期内,数据提供方通过其提供的数据a和数据b获得的综合权益为A;在第2个数据提供周期内,该数据提供方通过其提供的数据a、数据b和数据c获得的综合权益为B;那么,在第3个数据提供周期内,该数据提供方的历史权益可以根据综合权益A和综合权益B得到。示例性地,数据平台可以基于POS(Proof of Stake,权益证明)构造综合权益(或称:流量权益证明),区块链上权益证明的来源是:产生区块的收益的累计(即:各个历史数据提供周期的综合权益的累计),可以理解,权益越多越容易产生区块,进一步又可为数据提供方带来更多权益。
在一个实施例中,数据平台还可以扣除提供原目标数据的一个或多个目标数据提供方,在将目标备选数据作为目标数据的数据提供周期之前的所有历史数据提供周期中,针对目标数据的流量权益总和,并将扣除的流量权益总和分配给提供目标备选数据的每个数据提供方。可以理解,数据提供方在目标数据提供周期的流量权益可以为负,即:该数据提供方在目标数据提供周期内被扣除了与原目标数据有关的流量权益。例如,图3c中,数据平台可以在数据提供周期4中,扣除数据提供方A在数据提供周期1至数据提供周期3中获取到的流量权益的总和,并将该流量权益的总和分配给数据提供方B、C、D,示例性的,数据平台可以将流量权益的总和平均分配给数据提供方B、C、D。
基于此,可以理解,数据提供方的历史权益不一定会随着历史数据提供周期的数量增大而增大(即:数据提供方在第N(N为正整数)个历史数据提供周期的历史权益不一定大于该数据提供方在第N-1个历史数据提供周期的历史权益),举例来说,如果数据提供方在第N个数据提供周期提供的备选数据,被数据平台作为某一基础数据集中的目标数据发送给了数据接入方,那么该数据提供方的历史权益将增大(可以理解:第N-1个历史数据提供周期的历史权益小于第N个历史数据提供周期的历史权益);对应地,如果该数据提供方在第N个数据提供周期提供的备选数据为错误数据,但该备选数据被数据平台作为某一基础数据集中的目标数据发送给了数据接入方,那么该数据提供方的历史权益将减小(可以理解:第N-1个历史数据提供周期的历史权益大于第N个历史数据提供周期的历史权益);如果该数据提供方在第N个数据提供周期至第N+2个数据提供周期内提供的备选数据,均没有被数据平台作为某一基础数据集中的目标数据发送给数据接入方,则该数据提供方的历史权益可以保持不变(可以理解:第N+2个数据提供周期的历史权益可以和第N个数据提供周期的历史权益一致)。
在一个实施例中,数据提供方也可以是数据接入方。具体地,若数据提供方接入数据平台之后,在自身的业务中使用了和数据平台中相同的数据,则认为该数据提供方使用了数据平台的基础数据集,该数据提供方同时为数据接入方;举例来说:假设数据平台中有学校X的学校地址,数据提供方A向数据平台提供了学校X的招生电话,且数据提供方A中具有学校信息查询业务,该业务中使用到了学校X的学校地址,那么,则认为数据提供方A使用的“学校X的学校地址”来自数据平台,且认为数据提供方A同时也是该数据平台中的数据接入方。又由前述可知,数据提供方(或数据接入方作为数据提供方时)在目标数据提供周期的综合权益是指:该数据提供方在目标数据提供周期内获得的权益。那么,当数据提供方也是数据接入方时,可以理解,该数据提供方在目标数据提供周期内获得的权(即:综合权益)可以包括:流量权益(或称:生产基础数据集的权益)和消费权益(或称:消费基础数据集的权益)。进一步地可以理解,该数据提供方的历史权益可以根据该数据提供方在所有历史数据提供周期内的流量权益和所有历史数据提供周期内的消费权益得到。
其中,流量权益与数据接入方(此处指的是数据平台中的所有数据接入方,由于数据提供方同时也为数据接入方,因此所有数据接入方包括:该数据提供方)对该数据提供方提供的目标数据的消费量呈正相关趋势,即:数据接入方对该数据提供方提供的目标数据的消费量越多,该数据提供方的流量权益就越大。消费量可以理解为:所有数据接入方在对该数据提供方提供的目标数据进行消费(如:访问或下载等)时产生的流量;示例性的,消费量可以是访问量、日活跃用户量、独立访客量等。进一步地,当消费量为访问量时,数据提供方的流量权益可以理解为:数据接入方对该数据提供方提供的所有目标数据进行访问而产生的该数据提供方的收益,也即,数据提供方的流量权益可以根据所有数据接入方对该数据提供方提供的所有目标数据进行访问而产生的访问量确定。举例来说,假设数据提供方提供了数据项A的数据值a,该数据平台对应的所有数据接入方中,有3个数据接入方对数据值a进行了访问,且总共访问了100次,那么,可以理解,该数据值a的消费量可以为100次;因此,数据平台可以根据这100次访问量确定提供数据值a的数据提供方的流量权益。
此外,上述所提及的消费权益可以指:数据接入方(或数据提供方作为数据接入方时)因消费数据平台中的数据而产生的属于该数据接入方的收益,且消费收益与该数据接入方对目标数据的消费量呈正相关趋势;即,数据接入方对目标数据的消费量越高,该数据接入方的消费权益越大。例如,当消费量为访问量时,数据接入方对数据平台中各个目标数据的访问量越高,该数据接入方对应的消费权益就越大。需要说明的是,此处所提及的“数据平台中的各个目标数据”指的是:该数据平台中,所有可被数据接入方查询到的数据。
在又一个实施例中,若数据提供方没有消费该数据平台中的基础数据集,那么该数据提供方的综合权益可以为流量权益,进一步地,数据提供方的历史权益可以根据该数据提供方在所有历史数据提供周期内的流量权益得到。在另一个实施例中,若数据接入方没有向数据平台提供基础数据集,则该数据接入方的综合权益可以为消费权益,进一步地,数据提供方的历史权益可以根据该数据提供方在所有历史数据提供周期内的消费权益得到。
S203,确定一条或多条备选数据中每条备选数据的置信度,并将置信度最高的备选数据作为目标数据。
其中,目标数据可以理解为:发送给数据接入方,以使数据接入方可以查询到的数据值;或者,可以理解为:备选数据中被确定出来的置信度最高的数据值。例如:医生A的职称信息对应的备选数据有“副主任医生”和“主任医生”,且“副主任医生”的置信度高于“主任医生”,那么,目标数据即为“副主任医生”,进一步地,各个数据接入方在从该数据平台中获取医生A的职称信息时,将获取到“副主任医生”这一信息。备选数据的置信度可以基于提供该备选数据的各个数据提供方的历史权益确定,且备选数据的置信度与该各个数据提供方的历史权益呈正相关关系,示例性地,备选数据的置信度可以是提供该备选数据的各个数据提供方的历史权益的加权求和运算结果。
在一个实施例中,对于其他未被确定为目标数据的各个备选数据,该数据平台也可以进行存储,但不允许数据接入方进行使用;若在目标数据提供周期之后的任一数据提供周期内,存在各个备选数据中出现目标备选数据(目标备选数据为各个备选数据中任一备选数据)的置信度高于目标数据的置信度,则数据平台可以将该目标备选数据作为新的目标数据,以供数据接入方使用。具体地,若数据平台在目标数据提供周期之后的任一数据提供周期获取到数据提供方针对目标数据项提供的目标备选数据,且提供该目标备选数据的数据提供方的数量为多个,那么,数据平台可以获取提供该目标备选数据的每个数据提供方在提供目标备选数据的数据提供周期中的历史权益,并根据提供目标备选数据的每个数据提供方的历史权益,确定目标备选数据的置信度。
举例来说,可参见图3c所示,在数据提供周期1中,“副主任医生”被确定为医生A的目标数据,在数据提供周期1之后的数据提供周期2、数据提供周期3以及数据提供周期4中,均有数据提供方提供关于医生A的目标备选数据“主任医生”,那么,“主任医生”的置信度则可以根据数据提供方B在数据提供周期2中的历史权益2%、数据提供方C在数据提供周期3中的历史权益2%,以及数据提供方D在数据提供周期4中的历史权益2%进行确定,示例性地,数据平台可基于三个数据提供方的历史权益之和(即:6%)进行确定。
进一步地,若目标备选数据的置信度大于目标数据的置信度,则将目标备选数据作为目标数据。具体地,可继续参见图3c所示,在第4个数据提供周期中,由于提供目标备选数据“主任医生”的各个数据提供方的历史权益之和,大于提供目标数据“副主任医生”的数据提供方A的历史权益,又由于备选数据的置信度与提供该备选数据的各个数据提供方的历史权益呈正相关关系,因此可以理解,在数据提供周期4中,目标备选数据“主任医生”的置信度大于原目标数据“副主任医生”的置信度,因此数据平台将把“主任医生”确定为新的目标数据。
S204,根据目标数据确定基础数据集,并将基础数据集发送给数据接入方。
在数据平台在确定出目标数据之后,可以根据目标数据确定出基础数据集,并将基础数据集存储至数据平台,且允许所有的数据接入方在数据平台中对该基础数据集进行访问或下载等操作。此外,数据平台还可以根据数据接入方对数据平台中的基础数据集的消费情况,向该数据消费平台进行收费,并将收取的费用分配给目标数据提供方。其中,不难理解的是,数据接入方消费的数据越多,该数据接入方向数据平台贡献的价值就越多,贡献的价值越多,该数据接入方的消费权益就会越多,进而使得该数据接入方的历史权益增大。
本申请实施例在获取同一数据项的多个备选数据之后,通过获取提供各个备选数据的数据提供方的历史权益,以确定出目标数据;由于历史权益与各个数据提供方在历史数据提供周期内,提供的目标数据的消费量呈正相关关系,且不难理解,消费量高说明该目标数据的访问量大,访问量大给该数据提供方带来的流量权益就越大。因此,此种方式可以激励各个数据提供方尽可能的提供更多、更准确的数据以提高自身的历史权益,从而可以使得数据平台更高效地获得较为全面的基础数据集。
请参见图4,图4是本申请实施例提供的一种数据处理方法的流程示意图,该数据处理方法可以由上述所提及的数据平台执行,如图4所示,所述方法包括:
S401,若接收到数据接入方针对基础数据集的查询请求,获取一个或多个数据提供方中每个数据提供方在目标数据提供周期内,针对基础数据集中目标数据项提供的备选数据,得到一条或多条备选数据。
在一个实施例中,针对目标数据项,不同的数据提供方可以在目标数据提供周期内提供同一个备选数据,即,同一备选数据可以由一个或多个数据提供方在目标数据提供周期内提供。举例来说:医疗数据平台中的科室信息中的科室名称,如皮肤科,可以由该目标数据提供周期内的一个或多个数据提供方提供。
S402,获取每个数据提供方的历史权益。
由步骤S202的描述可知,每个数据提供方的历史权益与该数据提供方在所有历史数据提供周期的综合权益有关,而数据提供方在目标数据提供周期的综合权益,可以根据该数据提供方在目标数据提供周期的消费权益和流量权益得到。基于此,在一个实施例中,流量权益的确定方式可以如下:若目标数据在所有历史数据提供周期未被提供(即:该目标数据在目标数据提供周期内第一次出现),那么数据平台在目标数据提供周期内获取数据提供方的综合权益时,可以先在目标数据提供周期内,确定提供该目标数据的一个或多个目标数据提供方,若该一个或多个目标数据提供方的数量为一个,数据平台则可以将所有数据接入方对目标数据的消费量,确定为该目标数据提供方的消费量,进而基于该消费量得到该目标数据提供方的流量权益。举例来说,假设目标数据提供周期为第3个数据提供周期,那么,历史数据提供周期包括:第1个数据提供周期和第2个数据提供周期;进一步地,若第3个目标数据提供周期内存在“医生A”这一目标数据,且第1个数据提供周期、第2个数据提供周期和第3个数据提供周期中,均只有数据提供方A提供了“医生A”这一数据,那么,在第3个数据提供周期内,医生A对应的消费量可以作为数据提供方A的消费量,进一步地,可以该消费量对应的流量权益作为数据提供方A的流量权益的一部分。
进一步地,若该目标数据提供方在目标数据提供周期内提供的目标数据的数量为一个或多个,数据平台可以通过如下方式确定该目标数据提供方的流量权益:数据平台获取该目标数据提供方在目标数据提供周期内的一个或多个目标数据,并获取该一个或多个目标数据中每个目标数据对应的流量权益,以得到该目标数据提供方在目标数据提供周期内的流量权益。具体实现中,数据平台获取目标数据对应的流量权益可以通过如下方式实现:数据平台获取目标数据对应的目标数据项的权重值,以及该目标数据所在基础数据集的消费量;进一步地,数据平台可以基于该目标数据对应的目标数据项的权重值,以及该目标数据项所在基础数据集的消费量,来确定该目标数据的消费量,进而可以得到该目标数据提供方提供的所有目标数据对应的流量权益,并将所有目标数据对应的流量权益之和作为该目标数据提供方在目标数据提供周期内的流量权益。
其中,基础数据集可以包括一个或多个数据项,且该一个或多个数据项的权重值之和为1,举例来说:若目标数据“XX学院”所在基础数据集为“学院信息”,那么可以理解,“学院信息”中可以包括:学院名称、学院总人数、学院地址三个数据项,且学院名称、学院总人数、学院地址三个数据项的权重值之和为1。示例性地,当基础数据集包括m(m≥0,且m为整数)个数据项时,该基础数据集中各个数据项的权重之和可如式1所示:
其中,Fi表示第i个数据项的权重值,i为整数,示例性地,学院信息中各个数据项的权重值可以由数据平台进行如表1所示的分配:
表1
学院信息
权重值
学院名称
F=20%
学院地址
F=50%
学院总人数
F=30%
具体实施例中,假设该一个或多个目标数据中的j(j为正整数)个目标数据的数据项为同一个基础数据集的数据项,其中不同目标数据的数据项不相同,那么,数据平台可以通过如式2所示的方式获取该基础数据集中包括的j个目标数据对应的权重值之和。
其中,R′表示该j个目标数据在该基础数据集中的权重值之和,Fi表示该j个目标数据中的第i个目标数据对应的目标数据项的权重值,i为整数且i≤j。示例性的,每个目标数据项的权重值可以由数据平台基于该目标数据项所在基础数据集进行确定。
不难理解,数据提供方向数据平台提供备选数据,并不一定能带来流量权益,当该备选数据被数据接入方使用之后,才可能产生流量权益,也即:假设数据项对应的目标数据来自于数据提供方A,则该目标数据对应的消费量以及该消费量带来的流量权益就归属于数据提供方A;假设数据提供方A提供了目标数据项的备选数据,但该备选数据没有被选做目标数据以供数据接入方使用,则该数据提供方A不具备该目标数据项对应的目标数据带来的流量权益。举例来说,假设数据提供方A针对学校名称这一数据项提供了备选数据a,数据提供方B针对学校名称这一数据项提供了备选数据b,且备选数据a被作为学校名称的目标数据,那么,数据提供方A将具备数据接入方查询学校名称时产生的流量权益,数据提供方B则不具备数据接入方查询学校名称时产生的流量权益。
示例性地,数据平台可以通过如式3所示的方法确定每个基础数据集中包括的j个目标数据的消费量:
R=R′×PV 式3
其中,R′表示该j个目标数据在该基础数据集中的权重值之和,pv表示该基础数据集对应的消费量。示例性的,pv可以表示基础数据集中各个数据项的目标数据对应的总的消费量。
进一步地,假设一个或多个目标数据的数据项为同一组基础数据集所包含的基础数据集的数据项,该组基础数据集包括一个或多个基础数据集,则数据平台计算目标数据提供方提供的所有目标数据的消费量的计算方式,可以如式4所示:
其中,a表示该一个或多个基础数据集的数量,i表示第i个基础数据集,且a≥i,a和i均为整数;Ri表示第i个基础数据集中的各个目标数据的消费量;T表示一组基础数据集中包括的所有目标数据的消费量之和。
进一步地,假设该一个或多个目标数据存在于一组或多组基础数据集中,那么,该数据平台可以基于式5所示的方法计算该目标数据提供方的流量权益:
其中,S1表示在目标数据提供周期内目标数据提供方的流量权益,PV表示数据平台中所有基础数据集的消费量之和,Ti表示每组基础数据集中包括的所有目标数据对应的消费量之和。b为一组或多组基础数据集的数量,b为正整数。进一步地,当数据平台确定出目标数据提供方的流量权益之后,数据平台可以根据流量权益,确定该目标数据提供方在目标数据提供周期的综合权益,可以理解,目标数据提供方在目标数据提供周期的的综合权益与该目标数据提供方在目标数据提供周期的流量权益呈正相关关系。示例性地,当该目标数据提供方未消费该数据平台中的任一基础数据集时,数据平台可以直接将流量权益作为该目标数据提供方的综合权益。
在又一种实施方式中,若目标数据提供方同时也为数据接入方,即:若目标数据提供方还使用了该数据平台中的目标数据,则考虑到数据接入方是为数据平台带来商业价值的主要源头,因此可以给数据接入方(或可以作为数据接入方的数据提供方)分配消费权益,以使得数据接入方对数据的准确性有一定的决定权。具体地,数据平台可以基于目标数据提供方对目标数据的消费量,确定目标数据提供方的消费权益,示例性地,数据平台确定目标数据提供方的消费权益的方式可以参见式6所示:
其中,V表示数据接入方因消费数据平台中的数据而向该数据平台缴纳的费用,p表示该数据平台中数据接入方的数量,S2表示该数据接入方的消费权益;可以理解,当数据接入方也可以为数据提供方时,S2也可以表示数据提供方(如目标数据提供方)的消费权益。进一步地,数据平台在得到目标数据提供方的消费权益之后,可以根据流量权益和消费权益,确定目标数据提供方在目标数据提供周期的综合权益,示例性地,当目标数据提供方同时也为数据接入方时,数据平台可以基于式7所示的方法,确定目标数据提供方的综合权益。
Si=x×S1+y×S2 式7
其中,x+y=1,x和y分别为流量权益的权值、消费权益的权值;数据平台拥有对x、y比例的调整权利,示例性的,在数据平台初期,基础数据集较少,可适当提高x,在数据平台后期,基础数据集较多,可适当调高y。实际应用中,数据平台可以按照数据提供周期(也可以称:区块的运营周期)以及自身的运营情况,将数据平台的在数据提供周期内的价值按照上述综合权益Si分配给各个数据提供方。通过上述构造权益证明的过程,可以看出流量权益与正确的备选数据呈正相关关系,如果是错误的备选数据,最终将因无人访问而无法给提供该错误的备选数据的提供方带来权益提升(如:流量权益的提升、历史权益的提升等)。
在又一个实施例中,若数据平台确定出的提供目标数据的一个或多个目标数据提供方的数量为多个,且该目标数据在所有历史数据提供周期未被提供,那么,数据平台在基于数据接入方对目标数据的消费量,确定了该目标数据对应的流量权益之后,可以根据该流量权益和目标数据提供方的数量,确定该一个或多个目标数据提供方中每个目标数据提供方在目标数据提供周期的流量权益。举例来说,假设目标数据提供周期内,提供目标数据a的数据提供方有2个,那么,数据平台可以先确定目标数据a为数据平台带来的消费量,并基于该消费量确定该目标数据a为数据平台带来的流量权益(假设为b),进一步地,数据平台可以根据数据提供方的数量(即:2),将流量权益b分配给这2个数据提供方。示例性地,数据平台可以将该多个目标数据提供方中的流量权益平均分配给该多个目标数据提供方中的每一个目标数据提供方。可参见表2所示,表2表示了数据平台在目标数据提供周期内获取到不同数据提供方提供的同一备选数据之后,对该备选数据带来的流量权益的分配情况。
表2
数据提供方
流量权益
提供的备选数据
P1
S1=1%
张三职称:主任医生
P2
S1=1%
张三职称:主任医生
P3
S1=1%
张三职称:主任医生
P4
S1=1%
张三职称:主任医生
P5
S1=1%
张三职称:主任医生
可见,由于数据提供方P1、P2、P3、P4和P5均提供了“张三职称:主任医生”这一备选数据,那么,数据平台可以将“张三职称:主任医生”作为目标数据之后产生的流量权益(5%)平均分配给上述5个数据提供方。
基于上述描述,可以理解,若在目标数据提供周期内,提供目标数据的目标数据提供方的数量为一个,且在目标数据提供周期之前的所有历史数据提供周期内,没有任何一个数据提供方提供该目标数据,那么该目标数据的消费量对应的流量权益由该1个目标数据提供方独占;举例来说,若共有N个数据提供周期,且N个数据提供周期内仅有数据提供方A提供了备选数据1,那么在数据平台将备选数据1确定为目标数据之后,因各个数据接入方访问该目标数据而产生的流量权益将归属于数据提供方A一个。对应地,若在目标数据提供周期内,提供目标数据的目标数据提供方的数量为一个,且在目标数据提供周期以及目标数据提供周期之前的所有历史数据提供周期内,有多个数据提供方提供了该目标数据,则该目标数据对应的消费量产生的流量权益可以分配给该多个数据提供方与目标数据提供方,例如:在目标数据提供周期中有1个数据提供方提供目标数据A,在所有历史数据提供周期内,有2个数据提供方提供了目标数据A,那么可以理解,该目标数据A对应的目标数据提供方有3个,示例性地,该目标数据A的消费量对应的流量权益可以由该3个目标数据提供方均分。
S403,确定提供每条备选数据的一个或多个目标数据提供方。
在一个实施例中,若目标数据提供周期为第N个数据提供周期,N≥2且N为整数,那么,数据平台可以获取前N-1个历史数据提供周期中的每个历史数据提供周期内,提供每条备选数据的一个或多个数据提供方。举例来说,假设N为3,目标数据项为A学校的地址,且前2个历史数据提供周期中,A学校的地址存在“B街道1号”和“B街道5号”两个地址,那么数据平台可以获取提供“B街道1号”的数据提供方,以及提供“B街道5号”的数据提供方。
进一步地,数据平台可以将在前N-1个数据提供周期中获取到的,提供每条备选数据的所有数据提供方,作为该条备选数据的一个或多个目标数据提供方。举例来说,假设上述示例中提供“B街道1号”的数据提供方为数据提供方1和数据提供方2,那么数据提供方1和数据提供方2即为“B街道1号”这一数据备选值的目标数据提供方。
S404,获取一个或多个目标数据提供方中每个目标数据提供方的历史权益,得到一个或多个历史权益。
S405,根据一个或多个历史权益,确定每条备选数据的置信度,并将置信度最高的备选数据作为目标数据。
在一个实施例中,数据平台可以对提供各个备选数据的数据提供方的历史权益进行加权求和运算,以得到各个备选数据的置信度,示例性的,可参见表3,表3展示了数据平台在目标数据提供周期以及所有历史数据提供周期内,获取针对同一数据项的多个备选数据时,可能面对的一种存在数据冲突的情况。
表3
可见,P5的历史权益(10%)大于P1、P2、P3和P4的历史权益之和(4%),那么,根据表3展示的情况,数据平台可以确定“张三职称:副主任医生”的置信度高于“张三职称:主任医生”的置信度。
请继续参见表4,表4也展示了数据平台在目标数据提供周期以及所有历史数据提供周期内,获取针对同一数据项的多个备选数据时,可能面对的一种存在数据冲突的情况。
表4
数据提供方
历史权益
提供的备选数据
P1
S=1%
张三职称:主任医生
P2
S=1%
张三职称:主任医生
P3
S=1%
张三职称:主任医生
P4
S=1%
张三职称:主任医生
P5
S=3%
张三职称:副主任医生
可见,P5的历史权益(3%)虽然是各个数据提供方中历史权益最大的,但是P5的历史权益小于P1、P2、P3和P4的历史权益之和(4%),那么,根据表4展示的情况,数据平台可以确定“张三职称:主任医生”“的置信度高于张三职称:副主任医生”的置信度。基于表3和表4的相关描述,不难理解,当同一数据项对应了不同的多个备选数据时,数据平台可以将对应的历史权益最大的备选数据作为目标数据,以解决表3和表4所示的数据冲突。上述数据冲突的解决方式可以看出,流量权益的根源是流量,通过基于流量权益证明解决数据冲突的方式,可以使得搭建的数据平台具有天然的改善自身的能力,更方便在互联网中对外开放。
进一步地,若数据平台在第M个数据提供周期获取到数据提供方提供的目标数据,且第M个数据提供周期保持该目标数据不变,其中,M>N,且M为整数;那么,数据平台可以基于数据接入方在第M个数据提供周期对目标数据的消费量,确定一个或多个目标数据提供方在第M个数据提供周期的流量权益,其中,在第M个数据提供周期提供目标数据的数据提供方,在第M个数据提供周期针对目标数据的流量权益为零,即:同一个目标数据项的同一个备选数据在提供时,以该备选数据被采用为目标数据的目标数据提供周期,以及该目标数据提供周期之前的所有历史数据提供周期中提供了该备选数据的数据提供方为目标数据提供方,在后续数据提供周期中出现提供该备选数据的数据提供方将得不到基于该备选数据产生的流量权益。
可以理解,在该目标数据提供周期之前虽然也有提供该备选数据,但没有被作为目标数据,该备选数据是在目标数据提供周期才被确定为目标数据的,那么需要说明的是,在目标数据提供周期之前,该备选数据虽然没有被作为目标数据,但这并不意味着该备选数据是无效数据。具体可参见图3a所示,数据提供方B、C提供了备选数据“主任医生”,虽然没有因为B、C提供了“主任医生”这一备选数据,而将数据平台中的医生A的职称信息由“副主任医生”改为“主任医生”,但可以理解为:数据提供方B和数据提供方C均对备选数据“主任医生”进行了投票,该投票行为可以影响医生A的职称信息的目标数据的确定。例如,当第4个数据提供周期中,数据提供方D给“主任医生”进行了投票之后,“主任医生”的置信度达到6%,大于“副主任医生”的置信度5%,因此数据平台将在第4个数据提供周期,将医生A的职称信息的目标数据由“副主任医生”改为“主任医生”,并且进一步地,“主任医生”的消费量带来的流量权益可以由数据提供方B、C、D三个数据数据提供方均分。
S406,根据目标数据确定基础数据集,并将基础数据集发送给数据接入方。
在一个实施例中,步骤S406中的相关实施例可以参见步骤S204中的描述,本申请实施例在此不再赘述。
基于图2和图4的相关描述,在一个实施例中,数据平台可以建立安全保护机制,以避免数据提供方在使用数据平台的基础数据集的过程中,盗窃数据平台的数据,例如:数据平台可以要求数据提供方的业务托管到数据平台上。
本申请实施例中,历史权益越大越能为数据提供方带来流量权益,从而产生更大的经济收益,由于不同的数据提供方之间是平等的且不透明的,因此,数据平台中的各个数据提供方均处于互相博弈的场景下,此时,数据提供方恶意提供虚假数据(假的备选数据)对自身并无好处,提供错误数据不仅会减低数据提供方自身的权益,还会受到数据平台的相应处罚。可见,采用POS(Proof of Stake)算法构建相关综合权益,可以在客观上规避各个数据提供方作恶的行为,并促使各个数据提供方提供更多的正确数据,从而可见,采用本申请实施例提供的数据处理方法,可以加快数据平台收集各类基础数据集的进度,并且保证收集到的基础数据集拥有较高的置信度。
基于上述数据处理方法相关实施例的描述,本申请还公开了一种数据处理装置,该数据处理装置可以是运行于上述所提及的数据平台中的一个计算机程序(包括程序代码)。该数据处理装置可以执行如图2和图4所示的方法,请参见图5,所述数据处理装置至少可以包括:获取单元501,确定单元502和发送单元503。
获取单元501,用于若接收到数据接入方针对基础数据集的查询请求,获取一个或多个数据提供方中每个数据提供方在目标数据提供周期内,针对所述基础数据集中目标数据项提供的备选数据,得到一条或多条备选数据;
所述获取单元501,还用于获取所述每个数据提供方的历史权益,所述历史权益是根据所述每个数据提供方在所述目标数据提供周期之前的所有历史数据提供周期的综合权益得到的;
确定单元502,用于确定所述一条或多条备选数据中每条备选数据的置信度,并将置信度最高的备选数据作为目标数据,所述每条备选数据的置信度是根据提供所述每条备选数据的一个或多个目标数据提供方中每个目标数据提供方的历史权益确定的;
发送单元503,用于根据所述目标数据确定基础数据集,并将所述基础数据集发送给所述数据接入方。
在一种实施方式中,确定单元502在确定所述一条或多条备选数据中每条备选数据的置信度时,具体用于执行:
确定提供所述每条备选数据的一个或多个目标数据提供方;
获取所述一个或多个目标数据提供方中每个目标数据提供方的历史权益,得到一个或多个历史权益;
根据所述一个或多个历史权益,确定所述每条备选数据的置信度。
在又一种实施方式中,所述目标数据提供周期为第N个数据提供周期,N≥2且N为整数;所述确定单元502在确定提供所述每条备选数据的一个或多个目标数据提供方时,具体用于执行:
获取前N-1个历史数据提供周期中的每个历史数据提供周期内,提供所述每条备选数据的一个或多个数据提供方;
将在前N-1个数据提供周期中获取到的提供所述每条备选数据的所有数据提供方,作为所述每条备选数据的一个或多个目标数据提供方。
在又一种实施方式中,确定单元502还可用于执行:
确定提供所述目标数据的一个或多个目标数据提供方;
若所述目标数据在所有历史数据提供周期未被提供,且在所述目标数据提供周期提供所述目标数据的一个或多个目标数据提供方的数量为一个,基于所述数据接入方对所述目标数据的消费量,确定提供所述目标数据的目标数据提供方的流量权益,所述流量权益与所述数据接入方对所述目标数据的消费量呈正相关趋势;
根据所述流量权益,确定所述目标数据提供方在所述目标数据提供周期的综合权益,所述目标数据提供方在所述目标数据提供周期的综合权益与所述流量权益呈正相关趋势。
在又一种实施方式中,所述目标数据提供方为所述数据接入方,所述确定单元502还可以用于执行:
基于所述目标数据提供方对所述目标数据的消费量,确定所述目标数据提供方的消费权益,所述消费权益与所述目标数据提供方对所述目标数据的消费量呈正相关趋势;
所述根据所述流量权益,确定所述目标数据提供方在所述目标数据提供周期的综合权益,包括:
根据所述流量权益和所述消费权益,确定所述目标数据提供方在所述目标数据提供周期的综合权益。
在又一种实施方式中,所述确定单元502还可以用于执行:
确定提供所述目标数据的一个或多个目标数据提供方;
若所述目标数据在所有历史数据提供周期未被提供,且在所述目标数据提供周期提供所述目标数据的一个或多个目标数据提供方的数量为多个,基于所述数据接入方对所述目标数据的消费量,确定提供所述目标数据的目标数据提供方的流量权益,所述流量权益与所述数据接入方对所述目标数据的消费量呈正相关趋势;
根据所述流量权益和所述目标数据提供方的数量,确定所述一个或多个目标数据提供方中每个目标数据提供方在所述目标数据提供周期的综合权益。
在又一种实施方式中,所述获取单元501还可以用于执行:
若在所述目标数据提供周期之后的任一数据提供周期获取到数据提供方针对所述目标数据项提供的目标备选数据,且提供所述目标备选数据的数据提供方的数量为多个,则获取提供所述目标备选数据的每个数据提供方在提供所述目标备选数据的数据提供周期中的历史权益;
所述确定单元502还可以用于执行:
根据所述提供所述目标备选数据的每个数据提供方的历史权益,确定所述目标备选数据的置信度;
若所述目标备选数据的置信度大于所述目标数据的置信度,则将所述目标备选数据作为所述目标数据;
所述发送单元503用于执行:根据所述目标数据确定基础数据集,并将所述基础数据集发送给所述数据接入方。
在又一种实施方式中,所述数据处理装置还包括扣除单元504,分配单元505,所述扣除单元504用于执行:
扣除提供所述目标数据的一个或多个目标数据提供方,在将所述目标备选数据作为所述目标数据的数据提供周期之前的所有历史数据提供周期中,针对所述目标数据的流量权益总和;
所述分配单元505用于执行:将扣除的流量权益总和分配给所述提供所述目标备选数据的每个数据提供方。
在又一种实施方式中,所述目标数据提供周期为第N个数据提供周期,N为正整数,所述确定单元502还可以用于执行:
若在第M个数据提供周期获取到数据提供方提供所述目标数据,且所述第M个数据提供周期内保持所述目标数据不变,M>N,且M为整数;
基于所述数据接入方在所述第M个数据提供周期对所述目标数据的消费量,确定所述一个或多个目标数据提供方在所述第M个数据提供周期的流量权益,所述在第M个数据提供周期提供所述目标数据的数据提供方,在所述第M个数据提供周期针对所述目标数据的流量权益为零。
根据本申请的一个实施例,图2和图4所示的数据处理方法所涉及各个步骤可以是由图5所示的数据处理装置中的各个单元来执行的。例如,图2所示的步骤S201、步骤S202均可由图5所示的数据处理装置中的获取单元501来执行;步骤S203可由图5所示的数据处理装置中的确定单元502来执行;步骤S204可由图5所示的数据处理装置中的发送单元503来执行。再如,图4所示的步骤S401、步骤S402和步骤S404均可由图5所示的数据处理装置中的获取单元501来执行;步骤S403和步骤S405均可由图5所示的数据处理装置中的确定单元502来执行;步骤S406可由图5所示的数据处理装置中的发送单元503来执行。
根据本申请的另一个实施例,图5所示的数据处理装置中的各个单元是基于逻辑功能划分的,上述各个单元可以分别或全部合并为一个或若干个另外的单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成,这可以实现同样的操作,而不影响本申请的实施例的技术效果的实现。在本申请的其它实施例中,上述基于数据处理装置也可以包括其它单元,在实际应用中,这些功能也可以由其它单元协助实现,并且可以由多个单元协作实现。
根据本申请的另一个实施例,可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算设备上运行能够执行如图2或图4所示的方法所涉及的各步骤的计算机程序(包括程序代码),来构造如图5中所示的数据处理装置,以及来实现本申请实施例的数据处理方法。所述计算机程序可以记载于例如计算机存储介质上,并通过计算机存储介质装载于上述计算设备中,并在其中运行。
本申请实施例在获取同一数据项的多个备选数据之后,通过获取提供各个备选数据的数据提供方的历史权益,以确定出目标数据;由于历史权益与各个数据提供方在历史数据提供周期内,提供的目标数据的消费量呈正相关关系,且不难理解,消费量高说明该目标数据的访问量大,访问量大给该数据提供方带来的流量权益就越大。因此,此种方式可以激励各个数据提供方尽可能的提供更多、更准确的数据以提高自身的历史权益,从而可以使得数据平台更高效地获得较为全面的基础数据集。
基于上述方法实施例以及装置实施例的描述,本申请还提供了一种数据平台,请参见图6。该数据平台至少包括处理器601、输出接口602,以及计算机存储介质603,且数据平台的处理器601、输出接口602,以及计算机存储介质603可通过总线或其他方式连接。
所述计算机存储介质603是数据平台中的记忆设备,用于存放程序和数据。可以理解的是,此处的计算机存储介质603既可以包括数据平台中的内置存储介质,当然也可以包括数据平台所支持的扩展存储介质。计算机存储介质603提供存储空间,该存储空间存储了数据平台的操作系统。并且,在该存储空间中还存放了适于被处理器601加载并执行的一条或多条的计算机程序,这些计算机程序可以是一个或一个以上的程序代码。需要说明的是,此处的计算机存储介质可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatilememory),例如至少一个磁盘存储器;可选的还可以是至少一个位于远离前述处理器的计算机存储介质。所述处理器601(或称CPU(Central Processing Unit,中央处理器))是数据平台的计算核心以及控制核心,其适于实现一条或多条计算机程序,具体适于加载并执行一条或多条计算机程序从而实现相应方法流程或相应功能。
在一个实施例中,可由处理器601加载并执行计算机存储介质603中存放的一条或多条计算机程序,以实现上述有关图2和图4所示的方法实施例中的相应方法步骤;具体实现中,计算机存储介质603中的一条或多条计算机程序由处理器601加载并执行如下步骤:
若接收到数据接入方针对基础数据集的查询请求,获取一个或多个数据提供方中每个数据提供方在目标数据提供周期内,针对所述基础数据集中目标数据项提供的备选数据,得到一条或多条备选数据;
获取所述每个数据提供方的历史权益,所述历史权益是根据所述每个数据提供方在所述目标数据提供周期之前的所有历史数据提供周期的综合权益得到的;
确定所述一条或多条备选数据中每条备选数据的置信度,并将置信度最高的备选数据作为目标数据,所述每条备选数据的置信度是根据提供所述每条备选数据的一个或多个目标数据提供方中每个目标数据提供方的历史权益确定的;
根据所述目标数据确定基础数据集,并将所述基础数据集发送给所述数据接入方。
在一种实施方式中,处理器601在确定所述一条或多条备选数据中每条备选数据的置信度时,具体用于加载并执行:
确定提供所述每条备选数据的一个或多个目标数据提供方;
获取所述一个或多个目标数据提供方中每个目标数据提供方的历史权益,得到一个或多个历史权益;
根据所述一个或多个历史权益,确定所述每条备选数据的置信度。
在又一种实施方式中,所述目标数据提供周期为第N个数据提供周期,N≥2且N为整数;所述处理器601在确定提供所述每条备选数据的一个或多个目标数据提供方时,具体用于加载并执行:
获取前N-1个历史数据提供周期中的每个历史数据提供周期内,提供所述每条备选数据的一个或多个数据提供方;
将在前N-1个数据提供周期中获取到的提供所述每条备选数据的所有数据提供方,作为所述每条备选数据的一个或多个目标数据提供方。
在又一种实施方式中,处理器601还可用于加载并执行:
确定提供所述目标数据的一个或多个目标数据提供方;
若所述目标数据在所有历史数据提供周期未被提供,且在所述目标数据提供周期提供所述目标数据的一个或多个目标数据提供方的数量为一个,基于所述数据接入方对所述目标数据的消费量,确定提供所述目标数据的目标数据提供方的流量权益,所述流量权益与所述数据接入方对所述目标数据的消费量呈正相关趋势;
根据所述流量权益,确定所述目标数据提供方在所述目标数据提供周期的综合权益,所述目标数据提供方在所述目标数据提供周期的综合权益与所述流量权益呈正相关趋势。
在又一种实施方式中,所述目标数据提供方为所述数据接入方,所述处理器601还可以用于加载并执行:
基于所述目标数据提供方对所述目标数据的消费量,确定所述目标数据提供方的消费权益,所述消费权益与所述目标数据提供方对所述目标数据的消费量呈正相关趋势;
所述根据所述流量权益,确定所述目标数据提供方在所述目标数据提供周期的综合权益,包括:
根据所述流量权益和所述消费权益,确定所述目标数据提供方在所述目标数据提供周期的综合权益。
在又一种实施方式中,所述处理器601还可以用于加载并执行:
确定提供所述目标数据的一个或多个目标数据提供方;
若所述目标数据在所有历史数据提供周期未被提供,且在所述目标数据提供周期提供所述目标数据的一个或多个目标数据提供方的数量为多个,基于所述数据接入方对所述目标数据的消费量,确定提供所述目标数据的目标数据提供方的流量权益,所述流量权益与所述数据接入方对所述目标数据的消费量呈正相关趋势;
根据所述流量权益和所述目标数据提供方的数量,确定所述一个或多个目标数据提供方中每个目标数据提供方在所述目标数据提供周期的综合权益。
在又一种实施方式中,所述处理器601还可以用于加载并执行:
若在所述目标数据提供周期之后的任一数据提供周期获取到数据提供方针对所述目标数据项提供的目标备选数据,且提供所述目标备选数据的数据提供方的数量为多个,则获取提供所述目标备选数据的每个数据提供方在提供所述目标备选数据的数据提供周期中的历史权益;
根据所述提供所述目标备选数据的每个数据提供方的历史权益,确定所述目标备选数据的置信度;
若所述目标备选数据的置信度大于所述目标数据的置信度,则将所述目标备选数据作为所述目标数据;
所述输出接口602用于执行:根据所述目标数据确定基础数据集,并将所述基础数据集发送给所述数据接入方。
在又一种实施方式中,所述处理器601还可以用于加载并执行:
扣除提供所述目标数据的一个或多个目标数据提供方,在将所述目标备选数据作为所述目标数据的数据提供周期之前的所有历史数据提供周期中,针对所述目标数据的流量权益总和;
将扣除的流量权益总和分配给所述提供所述目标备选数据的每个数据提供方。
在又一种实施方式中,所述目标数据提供周期为第N个数据提供周期,N为正整数,所述处理器601还可以用于加载并执行:
若在第M个数据提供周期获取到数据提供方提供所述目标数据,且所述第M个数据提供周期内保持所述目标数据不变,M>N,且M为整数;
基于所述数据接入方在所述第M个数据提供周期对所述目标数据的消费量,确定所述一个或多个目标数据提供方在所述第M个数据提供周期的流量权益,所述在第M个数据提供周期提供所述目标数据的数据提供方,在所述第M个数据提供周期针对所述目标数据的流量权益为零。
本申请实施例在获取同一数据项的多个备选数据之后,通过获取提供各个备选数据的数据提供方的历史权益,以确定出目标数据;由于历史权益与各个数据提供方在历史数据提供周期内,提供的目标数据的消费量呈正相关关系,且不难理解,消费量高说明该目标数据的访问量大,访问量大给该数据提供方带来的流量权益就越大。因此,此种方式可以激励各个数据提供方尽可能的提供更多、更准确的数据以提高自身的历史权益,从而可以使得数据平台更高效地获得较为全面的基础数据集。
本申请实施例还提供了一种存储介质,该存储介质中存储了上述数据处理方法的计算机程序,该计算机程序包括程序指令,当一个或多个处理器加载并执行该程序指令,可以实现实施例中对数据处理方法的描述,在此不再赘述。对采用相同方法的有益效果的描述,在此不再赘述。可以理解的是,程序指令可以被部署在一个或多个能够相互通信的设备上执行。
需要说明的是,根据本申请实施例的一个方面,还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。数据平台中的处理器从计算机可读存储介质读取该计算机指令,然后执行该计算机指令,进而使得该数据平台能够执行上述图2和图4所示的数据处理方法实施例方面的各种可选方式中提供的方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述计算机程序可存储于计算机可读取存储介质中,该计算机程序在执行时,可包括如上述数据处理方法的实施例的流程。其中,所述的计算机可读取存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
以上所揭露的仅为本申请实施例的局部实施例而已,当然不能以此来限定本申请实施例之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或局部流程,并依本申请实施例权利要求所作的等同变化,仍属于发明所涵盖的范围。