一种信息处理方法和装置
技术领域
本申请涉及大数据领域,具体涉及数据分析与挖掘
技术领域
,尤其涉及一种信息处理方法和装置。背景技术
目前,面对多来源的对公户开户营销商机,通常通过采用主动活跃客户识别模型与营销响应客户识别模型进行训练、测试与预测,计算客户资产等级评分与营销活动匹配度,结合主动活跃概率、营销响应概率、资产等级与营销活动匹配度,计算客户营销价值,以筛选出高营销价值客户。但往往筛选结果不准确、营销成本高、营销成功率低。
在实现本申请过程中,发明人发现现有技术中至少存在如下问题:
对高营销价值客户的筛选结果不准确、营销成本高、营销成功率低。
发明内容
有鉴于此,本申请实施例提供一种信息处理方法和装置,能够解决现有的对高营销价值客户的筛选结果不准确、营销成本高、营销成功率低的问题。
为实现上述目的,根据本申请实施例的一个方面,提供了一种信息处理方法,包括:
接收信息处理请求,进而获取对应的待处理客户信息;
获取社会信用数据,以对待处理客户信息进行标签化分类,生成对应的分类标签;
基于分类标签和待处理客户信息,确定目标待处理客户信息;
确定目标待处理客户信息对应的客户注册资本和客户所在地,进而确定客户所在地与预设目标地之间的距离,以基于距离和客户注册资本对目标待处理客户信息进行聚类,生成聚类簇;
确定各聚类簇的中心点数值,进而基于中心点数值对目标待处理客户信息进行排序,以筛选得到目标客户信息,并输出。
可选地,生成对应的分类标签,包括:
从社会信用数据的客户基本信息表中确定待处理客户信息对应的各法定代表人信息和对应的各联系方式,确定待处理客户信息中的各法定代表人信息不同且各联系方式相同的客户信息个数;
响应于确定客户信息个数大于预设阈值,生成代理开户标签以对待处理客户信息中各法定代表人信息不同且各联系方式相同的客户信息进行标注。
可选地,生成对应的分类标签,包括:
从社会信用数据中的客户坐标信息表中确定待处理客户信息对应的各坐标信息,进而调用预设的自贸区坐标范围数据,以与各坐标信息进行匹配,确定待处理客户信息中位于预设的自贸区坐标范围数据内的自贸区客户信息;
生成自贸区标签以对自贸区客户信息进行标注。
可选地,基于分类标签和待处理客户信息,确定目标待处理客户信息,包括:
将待处理客户信息中的分类标签为空的客户信息确定为目标待处理客户信息。
可选地,基于距离和客户注册资本对目标待处理客户信息进行聚类,生成聚类簇,包括:
分别基于距离和客户注册资本,根据k均值聚类算法,对目标待处理客户信息进行聚类,分别生成各距离聚类簇和各客户注册资本聚类簇。
可选地,基于中心点数值对目标待处理客户信息进行排序,以筛选得到目标客户信息,包括:
确定各距离聚类簇的距离中心点数值,进而对各距离中心点数值由大至小进行排序,并分别赋以由小至大的数值,以生成各距离聚类簇赋值;
确定各客户注册资本聚类簇的客户注册资本中心点数值,进而对各客户注册资本中心点数值由小至大进行排序,并分别赋以由小至大的数值,以生成各客户注册资本聚类簇赋值;
分别计算待处理客户信息中的各客户信息对应的距离聚类簇赋值与客户注册资本聚类簇赋值之和,并对各客户信息对应的距离聚类簇赋值与客户注册资本聚类簇赋值之和由大至小进行排序,进而筛选预设数量的客户信息以确定为目标客户信息。
可选地,在基于距离和客户注册资本对目标待处理客户信息进行聚类之前,方法还包括:
根据孤立森林算法,确定目标待处理客户信息中的异常客户信息,进而在目标待处理客户信息中除去异常客户信息,并更新目标待处理客户信息。
另外,本申请还提供了一种信息处理装置,包括:
接收单元,被配置成接收信息处理请求,进而获取对应的待处理客户信息;
分类标签生成单元,被配置成获取社会信用数据,以对待处理客户信息进行标签化分类,生成对应的分类标签;
目标待处理客户信息确定单元,被配置成基于分类标签和待处理客户信息,确定目标待处理客户信息;
聚类簇生成单元,被配置成确定目标待处理客户信息对应的客户注册资本和客户所在地,进而确定客户所在地与预设目标地之间的距离,以基于距离和客户注册资本对目标待处理客户信息进行聚类,生成聚类簇;
筛选单元,被配置成确定各聚类簇的中心点数值,进而基于中心点数值对目标待处理客户信息进行排序,以筛选得到目标客户信息,并输出。
可选地,分类标签生成单元进一步被配置成:
从社会信用数据的客户基本信息表中确定待处理客户信息对应的各法定代表人信息和对应的各联系方式,确定待处理客户信息中的各法定代表人信息不同且各联系方式相同的客户信息个数;
响应于确定客户信息个数大于预设阈值,生成代理开户标签以对待处理客户信息中各法定代表人信息不同且各联系方式相同的客户信息进行标注。
可选地,分类标签生成单元进一步被配置成:
从社会信用数据中的客户坐标信息表中确定待处理客户信息对应的各坐标信息,进而调用预设的自贸区坐标范围数据,以与各坐标信息进行匹配,确定待处理客户信息中位于预设的自贸区坐标范围数据内的自贸区客户信息;
生成自贸区标签以对自贸区客户信息进行标注。
可选地,目标待处理客户信息确定单元进一步被配置成:
将待处理客户信息中的分类标签为空的客户信息确定为目标待处理客户信息。
可选地,聚类簇生成单元进一步被配置成:
分别基于距离和客户注册资本,根据k均值聚类算法,对目标待处理客户信息进行聚类,分别生成各距离聚类簇和各客户注册资本聚类簇。
可选地,筛选单元进一步被配置成:
确定各距离聚类簇的距离中心点数值,进而对各距离中心点数值由大至小进行排序,并分别赋以由小至大的数值,以生成各距离聚类簇赋值;
确定各客户注册资本聚类簇的客户注册资本中心点数值,进而对各客户注册资本中心点数值由小至大进行排序,并分别赋以由小至大的数值,以生成各客户注册资本聚类簇赋值;
分别计算待处理客户信息中的各客户信息对应的距离聚类簇赋值与客户注册资本聚类簇赋值之和,并对各客户信息对应的距离聚类簇赋值与客户注册资本聚类簇赋值之和由大至小进行排序,进而筛选预设数量的客户信息以确定为目标客户信息。
可选地,聚类簇生成单元进一步被配置成:
在基于距离和客户注册资本对目标待处理客户信息进行聚类之前,根据孤立森林算法,确定目标待处理客户信息中的异常客户信息,进而在目标待处理客户信息中除去异常客户信息,并更新目标待处理客户信息。
另外,本申请还提供了一种信息处理电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如上述的信息处理方法。
另外,本申请还提供了一种计算机可读介质,其上存储有计算机程序,程序被处理器执行时实现如上述的信息处理方法。
上述发明中的一个实施例具有如下优点或有益效果:本申请通过接收信息处理请求,进而获取对应的待处理客户信息;获取社会信用数据,以对待处理客户信息进行标签化分类,生成对应的分类标签;基于分类标签和待处理客户信息,确定目标待处理客户信息;确定目标待处理客户信息对应的客户注册资本和客户所在地,进而确定客户所在地与预设目标地之间的距离,以基于距离和客户注册资本对目标待处理客户信息进行聚类,生成聚类簇;确定各聚类簇的中心点数值,进而基于中心点数值对目标待处理客户信息进行排序,以筛选得到目标客户信息,并输出。从而,本申请通过基于客户所在地与目的地(即可以是银行营业网点)之间的距离和客户注册资本对目标待处理客户信息进行聚类,生成聚类簇,并根据聚类簇的中心点数值进行排序,筛选得到目标客户信息,从而可以使得对目标客户信息筛选结果满足营销距离最近、期望营销效益最大及数据处理负担最小。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合
具体实施方式
加以说明。
附图说明
附图用于更好地理解本申请,不构成对本申请的不当限定。其中:
图1是根据本申请第一实施例的信息处理方法的主要流程的示意图;
图2是根据本申请第二实施例的信息处理方法的主要流程的示意图;
图3是根据本申请第三实施例的信息处理方法的应用场景示意图;
图4是根据本申请实施例的信息处理装置的主要模块的示意图;
图5是本申请实施例可以应用于其中的示例性系统架构图;
图6是适于用来实现本申请实施例的终端设备或服务器的计算机系统的结构示意图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1是根据本申请第一实施例的信息处理方法的主要流程的示意图,如图1所示,信息处理方法包括:
步骤S101,接收信息处理请求,进而获取对应的待处理客户信息。
本实施例中,信息处理方法的执行主体(例如,可以是服务器)可以通过有线连接或无线连接的方式,接收信息处理请求,其中信息处理请求可以是对营销目标池中的客户信息进行筛选处理的请求。
在本实施例的一些可选的实现方式中,执行主体可以根据接收的信息处理请求中的标识,具体可以是营销目标池编号,获取对应的营销目标池中的待处理客户信息。待处理客户信息可以是根据银行营销活动的反馈信息得到的。适用于存在多个营销目标池的情况。
作为另一种实现方式,当只有一个营销目标池,银行营销活动的反馈信息对应的待处理客户信息均放入该营销目标池中,执行主体在接收到信息处理请求时,触发从该营销目标池中获取待处理客户信息的进程,进而对待处理客户信息进行处理。
步骤S102,获取社会信用数据,以对待处理客户信息进行标签化分类,生成对应的分类标签。
本实施例中,社会信用数据中可以包括客户基本信息表(具体可以是企业基本信息表)。示例的,在企业基本信息表中具体可以包括各企业对应的法定代表人、法定代表人的联系电话、各企业注册地址、企业坐标信息等数据。
在本实施例的一些可选的实现方式中,生成对应的分类标签,包括:
从社会信用数据的客户基本信息表中确定待处理客户信息对应的各法定代表人信息和对应的各联系方式,确定待处理客户信息中的各法定代表人信息不同且各联系方式相同的客户信息个数;响应于确定客户信息个数大于预设阈值,生成代理开户标签以对待处理客户信息中各法定代表人信息不同且各联系方式相同的客户信息进行标注。
示例的,执行主体可以基于社会信用数据,确定企业基本信息表中法定代表人不同但联系电话相同的企业数量,当确定出的企业数量大于或等于预设值时,则对这些法定代表人不同但联系电话相同的企业标注“代理开户”标签。该预设值可以是5,也可以是其他数值,本申请对此不做限定。示例的,具体实现的伪代码可以是如下所示:
Select企业名称from企业基本信息where
(联系电话)in
(
Select联系电话
From(
select distinct联系电话,法人名称
from企业基本信息表t1
)group by联系电话having count(1)>=5
)
在本实施例的一些可选的实现方式中,生成对应的分类标签,还包括:
从社会信用数据中的客户坐标信息表中确定待处理客户信息对应的各坐标信息,进而调用预设的自贸区坐标范围数据,以与各坐标信息进行匹配,确定待处理客户信息中位于预设的自贸区坐标范围数据内的自贸区客户信息;生成自贸区标签以对自贸区客户信息进行标注。示例的,执行主体可以基于社会信用数据,将企业注册地址坐标落点在已识别的自贸区坐标范围内的,对企业标注“自贸区”标签。示例的,具体实现的伪代码可以是如下所示:
Select企业名称
from企业坐标信息t1
where
Exists(select 1
from自贸区坐标范围t2
where
T1.经度between t2。最小经度and t2。最大经度
And T1.维度between t2。最小维度and t2。最大维度
)
执行主体可以通过生成的分类标签判断是否对企业客户进行优先营销。
步骤S103,基于分类标签和待处理客户信息,确定目标待处理客户信息。
在本实施例的一些可选的实现方式中,基于分类标签和待处理客户信息,确定目标待处理客户信息,包括:
将待处理客户信息中的分类标签为空的客户信息确定为目标待处理客户信息。
具体地,执行主体可以只挑选预判的营销效果不好的企业生成“代理开户”标签和“自贸区”标签。示例的,生成“代理开户”标签的企业可以是一些代理公司帮忙进行的开户的企业,如果打电话至这些企业进行营销可能也不是本企业法人接电话,导致营销效果不理想,所以生成标签进行标记并将这些企业划分在营销优先级最低的一组。示例的,生成“自贸区”标签的企业,可以是一些空壳公司,打营销电话至这些空壳公司可能有打不通的风险,导致营销效果差,所以生成标签进行标记并将这些企业也划分在营销优先级最低的一组。
示例的,执行主体可以将待处理客户信息中的没有生成分类标签也就是分类标签为空的客户信息(具体可以是企业)确定为目标待处理客户信息(具体可以是目标待处理企业)。表明这些目标待处理客户信息对应的企业既不是通过代理进行开户的企业也不是自贸区企业(即空壳公司),而是正常的、预判营销效果较好的企业,进而执行主体可以将这些正常的、预判营销效果较好的企业(也就是客户信息)确定为目标待处理企业(也就是目标待处理客户信息)。
步骤S104,确定目标待处理客户信息对应的客户注册资本和客户所在地,进而确定客户所在地与预设目标地之间的距离,以基于距离和客户注册资本对目标待处理客户信息进行聚类,生成聚类簇。
具体地,在基于距离和客户注册资本对目标待处理客户信息进行聚类之前,方法还包括:
根据孤立森林算法,确定目标待处理客户信息中的异常客户信息,进而在目标待处理客户信息中除去异常客户信息,并更新目标待处理客户信息。
示例的,根据银行用户营销客户进行开户时主要考量的两个因素:客户所在地与银行营业网点距离(Di)、客户注册资本(Ci)。根据营业网点地址坐标与客户注册地址坐标计算出客户所在地与银行营业网点距离(Di)。利用孤立森林算法对Di和Ci进行异常点检测。首先,选取合理地域范围内近1个月进入开户营销池的客户作为样本(i个客户),按照i/3设定二叉树个数,算法使用样例如下:
clf=IsolationForest(max_samples=i/3*2,random_state=rng)
clf.fit(X_train)
y_pred_train=clf.predict(X_train)
y_pred_test=clf.predict(X_test)
y_pred_outliers=clf.predict(X_outliers)
确定并记录上述算法测出的Di和Ci的异常点,在K-means聚类时排除这些异常点。示例的,异常点可以是Di太大(也就是距离太远)且Ci太大(也就是注册资本又很高)对应的客户信息。或者,异常点可以是Di太小(也就是距离太近)但Ci太小(也就是注册资本又很小)对应的客户信息。
执行主体可以将除去异常点后的目标待处理客户信息分别按照客户所在地与银行营业网点距离(Di)和客户注册资本(Ci)进行聚类,分别生成对应的聚类簇。具体地,将排除异常点后的Di和Ci分别按照KD=n和KC=m利用Python进行K-means聚类(k均值聚类算法(k-means clustering algorithm)),进而生成距离(Di)对应的聚类簇和客户注册资本(Ci)对应的聚类簇。
步骤S105,确定各聚类簇的中心点数值,进而基于中心点数值对目标待处理客户信息进行排序,以筛选得到目标客户信息,并输出。
本实施例中,在生成聚类簇后,执行主体可以对聚类后的聚类簇按照中心点数值进行排序。示例的,将距离Di对应的各聚类簇按照中心点数值由大至小排序,进而将中心点数值最大的一组赋值1,将中心点数值第二大的一组赋值2,将中心点数值第三大的一组赋值3,……,将中心点数值最小的一组赋值n,使Di由具体值转为1至n中的某个数值。将注册资本Ci按照中心点数值由小至大排序,将中心点数值最小的一组赋值1,将中心点数值第二小的一组赋值2,将中心点数值第三小的一组赋值3,……,将中心点数值最大的一组赋值m,使Ci由具体值转为1至m中的某个数值。执行主体可以将由孤立森林算法测出的异常点的Di和Ci根据与各对应的分类簇的中心点数值的比较也分别转换为1到n的对应数(对应的是异常点的Di的转换赋值结果)和1到m的对应数(对应的是异常点的Ci的转换赋值结果)。由此获得每个客户所在地与银行营业网点距离的标准值(Di’)、客户注册资本标准值(Ci’)。由此完成了对客户所在地与银行营业网点距离(Di)、客户注册资本(Ci)的数据聚类及排序。
最终,执行主体可以根据单个客户的Di’+Ci’的和由大至小对客户进行银行开户营销商机推送的排序,使得推荐的结果满足营销距离最近、期望营销效益最大及数据处理负担最小三方面的要求。
本实施例通过接收信息处理请求,进而获取对应的待处理客户信息;获取社会信用数据,以对待处理客户信息进行标签化分类,生成对应的分类标签;基于分类标签和待处理客户信息,确定目标待处理客户信息;确定目标待处理客户信息对应的客户注册资本和客户所在地,进而确定客户所在地与预设目标地之间的距离,以基于距离和客户注册资本对目标待处理客户信息进行聚类,生成聚类簇;确定各聚类簇的中心点数值,进而基于中心点数值对目标待处理客户信息进行排序,以筛选得到目标客户信息,并输出。从而,本申请通过基于客户所在地与目的地(即可以是银行营业网点)之间的距离和客户注册资本对目标待处理客户信息进行聚类,生成聚类簇,并根据聚类簇的中心点数值进行排序,筛选得到目标客户信息,从而可以使得对目标客户信息筛选结果满足营销距离最近、期望营销效益最大及数据处理负担最小。
图2是根据本申请第二实施例的信息处理方法的主要流程示意图,如图2所示,信息处理方法包括:
步骤S201,接收信息处理请求,进而获取对应的待处理客户信息。
步骤S202,获取社会信用数据,以对待处理客户信息进行标签化分类,生成对应的分类标签。
步骤S203,基于分类标签和待处理客户信息,确定目标待处理客户信息。
步骤S204,确定目标待处理客户信息对应的客户注册资本和客户所在地,进而确定客户所在地与预设目标地之间的距离,以基于距离和客户注册资本对目标待处理客户信息进行聚类,生成聚类簇。
步骤S201~步骤S204的原理与步骤S101~步骤S104的原理类似,此处不再赘述。
具体地,步骤S204还可以通过步骤S2041来实现:
步骤S2041,分别基于距离和客户注册资本,根据k均值聚类算法,对目标待处理客户信息进行聚类,分别生成各距离聚类簇和各客户注册资本聚类簇。
示例的,k均值聚类算法,可以是先随机选取KD=n个客户所在地与银行营业网点距离(Di)作为初始的距离聚类中心和选取KC=m个客户注册资本(Ci)作为初始的注册资本聚类中心。
然后执行主体可以计算客户所在地与银行营业网点距离(Di)中的每个对象与各个初始的距离聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。一旦全部对象都被分配了,每个聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。终止条件可以是以下任何一个:没有(或最小数目)对象被重新分配给不同的聚类;没有(或最小数目)聚类中心再发生变化;误差平方和局部最小。然后最终生成距离(Di)对应的聚类簇。其中,客户注册资本(Ci)对应的聚类簇的生成方式同理,此处不再赘述。
步骤S205,确定各聚类簇的中心点数值,进而基于中心点数值对目标待处理客户信息进行排序,以筛选得到目标客户信息,并输出。
步骤S205的原理与步骤S105的原理类似,此处不再赘述。
具体地,步骤S205还可以通过步骤S2051~步骤S2053来实现:
步骤S2051,确定各距离聚类簇的距离中心点数值,进而对各距离中心点数值由大至小进行排序,并分别赋以由小至大的数值,以生成各距离聚类簇赋值。
步骤S2052,确定各客户注册资本聚类簇的客户注册资本中心点数值,进而对各客户注册资本中心点数值由小至大进行排序,并分别赋以由小至大的数值,以生成各客户注册资本聚类簇赋值。
步骤S2053,分别计算待处理客户信息中的各客户信息对应的距离聚类簇赋值与客户注册资本聚类簇赋值之和,并对各客户信息对应的距离聚类簇赋值与客户注册资本聚类簇赋值之和由大至小进行排序,进而筛选预设数量的客户信息以确定为目标客户信息。
具体地,执行主体通过将各距离聚类簇的距离中心点数值由大至小进行排序,并分别赋以由小至大的数值,并且对对各客户注册资本中心点数值由小至大进行排序,并分别赋以由小至大的数值,从而实现距离越远的赋值权重越小,距离越近的赋值权重越大,客户注册资本越小的赋值权重越小,客户注册资本越大的赋值权重越大,以根据单个客户的经过排序后赋值得到的距离的标准值(Di’)和客户注册资本标准值(Ci’)之和确定出营销距离最近、期望营销效益最大及数据处理负担最小的客户信息,实现可以快速且准确地确定出距离近且客户注册资本高的优质营销客户以实现精准营销,提高营销成功率。
具体地,执行主体通过利用社会信用数据,对进入开户营销目标池的企业进行分类和排序。银行用户可以根据分类标签和排序结果安排开户营销顺序和营销重点,以确定出客户所在地与银行营业网点距离(Di)最近且客户注册资本(Ci)最高的优质客户,以进行精准营销,从而实现节约营销成本,提高营销成功率。
图3是根据本申请第三实施例的信息处理方法的应用场景示意图。信息处理方法,可以应用于面对多来源的对公户开户营销商机,判断优质开户商机及对开户商机进行营销先后排序的场景。如图3所示,服务器303接收信息处理请求301,进而获取对应的待处理客户信息302。服务器303获取社会信用数据304,以对待处理客户信息302进行标签化分类,生成对应的分类标签305。服务器303基于分类标签305和待处理客户信息302,确定目标待处理客户信息306。服务器303确定目标待处理客户信息306对应的客户注册资本307和客户所在地308,进而确定客户所在地308与预设目标地309之间的距离310,以基于距离310和客户注册资本307对目标待处理客户信息306进行聚类,生成聚类簇311。服务器303确定各聚类簇311的中心点数值312,进而基于中心点数值312对目标待处理客户信息306进行排序,以筛选得到目标客户信息313,并输出。
图4是根据本申请实施例的信息处理装置的主要模块的示意图。如图4所示,信息处理装置包括接收单元401、分类标签生成单元402、目标待处理客户信息确定单元403、聚类簇生成单元404和筛选单元405。
接收单元401,被配置成接收信息处理请求,进而获取对应的待处理客户信息。
分类标签生成单元402,被配置成获取社会信用数据,以对待处理客户信息进行标签化分类,生成对应的分类标签。
目标待处理客户信息确定单元403,被配置成基于分类标签和待处理客户信息,确定目标待处理客户信息。
聚类簇生成单元404,被配置成确定目标待处理客户信息对应的客户注册资本和客户所在地,进而确定客户所在地与预设目标地之间的距离,以基于距离和客户注册资本对目标待处理客户信息进行聚类,生成聚类簇。
筛选单元405,被配置成确定各聚类簇的中心点数值,进而基于中心点数值对目标待处理客户信息进行排序,以筛选得到目标客户信息,并输出。
在一些实施例中,分类标签生成单元402进一步被配置成:从社会信用数据的客户基本信息表中确定待处理客户信息对应的各法定代表人信息和对应的各联系方式,确定待处理客户信息中的各法定代表人信息不同且各联系方式相同的客户信息个数;响应于确定客户信息个数大于预设阈值,生成代理开户标签以对待处理客户信息中各法定代表人信息不同且各联系方式相同的客户信息进行标注。
在一些实施例中,分类标签生成单元402进一步被配置成:从社会信用数据中的客户坐标信息表中确定待处理客户信息对应的各坐标信息,进而调用预设的自贸区坐标范围数据,以与各坐标信息进行匹配,确定待处理客户信息中位于预设的自贸区坐标范围数据内的自贸区客户信息;生成自贸区标签以对自贸区客户信息进行标注。
在一些实施例中,目标待处理客户信息确定单元403进一步被配置成:将待处理客户信息中的分类标签为空的客户信息确定为目标待处理客户信息。
在一些实施例中,聚类簇生成单元404进一步被配置成:分别基于距离和客户注册资本,根据k均值聚类算法,对目标待处理客户信息进行聚类,分别生成各距离聚类簇和各客户注册资本聚类簇。
在一些实施例中,筛选单元405进一步被配置成:确定各距离聚类簇的距离中心点数值,进而对各距离中心点数值由大至小进行排序,并分别赋以由小至大的数值,以生成各距离聚类簇赋值;确定各客户注册资本聚类簇的客户注册资本中心点数值,进而对各客户注册资本中心点数值由小至大进行排序,并分别赋以由小至大的数值,以生成各客户注册资本聚类簇赋值;分别计算待处理客户信息中的各客户信息对应的距离聚类簇赋值与客户注册资本聚类簇赋值之和,并对各客户信息对应的距离聚类簇赋值与客户注册资本聚类簇赋值之和由大至小进行排序,进而筛选预设数量的客户信息以确定为目标客户信息。
在一些实施例中,聚类簇生成单元404进一步被配置成:在基于距离和客户注册资本对目标待处理客户信息进行聚类之前,根据孤立森林算法,确定目标待处理客户信息中的异常客户信息,进而在目标待处理客户信息中除去异常客户信息,并更新目标待处理客户信息。
需要说明的是,在本申请信息处理方法和信息处理装置在具体实施内容上具有相应关系,故重复内容不再说明。
图5示出了可以应用本申请实施例的信息处理方法或信息处理装置的示例性系统架构500。
如图5所示,系统架构500可以包括终端设备501、502、503,网络504和服务器505。网络504用以在终端设备501、502、503和服务器505之间提供通信链路的介质。网络504可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
客户可以使用终端设备501、502、503通过网络504与服务器505交互,以接收或发送消息等。终端设备501、502、503上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
终端设备501、502、503可以是具有信息处理屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器505可以是提供各种服务的服务器,例如对客户利用终端设备501、502、503所提交的信息处理请求提供支持的后台管理服务器(仅为示例)。后台管理服务器可以接收信息处理请求,进而获取对应的待处理客户信息;获取社会信用数据,以对待处理客户信息进行标签化分类,生成对应的分类标签;基于分类标签和待处理客户信息,确定目标待处理客户信息;确定目标待处理客户信息对应的客户注册资本和客户所在地,进而确定客户所在地与预设目标地之间的距离,以基于距离和客户注册资本对目标待处理客户信息进行聚类,生成聚类簇;确定各聚类簇的中心点数值,进而基于中心点数值对目标待处理客户信息进行排序,以筛选得到目标客户信息,并输出。实现对目标客户信息筛选结果满足营销距离最近、期望营销效益最大及数据处理负担最小。
需要说明的是,本申请实施例所提供的信息处理方法一般由服务器505执行,相应地,信息处理装置一般设置于服务器505中。
应该理解,图5中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
下面参考图6,其示出了适于用来实现本申请实施例的终端设备的计算机系统600的结构示意图。图6示出的终端设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图6所示,计算机系统600包括中央处理单元(CPU)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM603中,还存储有计算机系统600操作所需的各种程序和数据。CPU601、ROM602以及RAM603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
以下部件连接至I/O接口605:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(CRT)、液晶征信授权查询处理器(LCD)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。
特别地,根据本申请公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本申请公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)601执行时,执行本申请的系统中限定的上述功能。
需要说明的是,本申请所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括接收单元、分类标签生成单元、目标待处理客户信息确定单元、聚类簇生成单元和筛选单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备接收信息处理请求,进而获取对应的待处理客户信息;获取社会信用数据,以对待处理客户信息进行标签化分类,生成对应的分类标签;基于分类标签和待处理客户信息,确定目标待处理客户信息;确定目标待处理客户信息对应的客户注册资本和客户所在地,进而确定客户所在地与预设目标地之间的距离,以基于距离和客户注册资本对目标待处理客户信息进行聚类,生成聚类簇;确定各聚类簇的中心点数值,进而基于中心点数值对目标待处理客户信息进行排序,以筛选得到目标客户信息,并输出。
根据本申请实施例的技术方案,可以实现对目标客户信息筛选结果满足营销距离最近、期望营销效益最大及数据处理负担最小。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。