基于社会网络分析技术的数据挖掘的一种方法
技术领域
本发明涉及数据挖掘
技术领域
,更具体的说是涉及基于社会网络分析技术的数据挖掘的一种方法。背景技术
随着社会信息化的不断发展,信息技术应用领域的不断拓展,各个应用领域包括经济、医疗、建筑、环境等均积累了越来越多的数据。自上世纪八十年代开始,世界各地的数据总量飞速增长,甚至几个月就会增长一倍,然而如何有效的利用、分析这些数据信息,并从中获取其隐藏的有用信息,则成了一个巨大的挑战。在这些海量的数据中,有一部分数据是按时间顺序有序排列的,这类数据便称之为时间序列(TimeSeries)。各个应用领域中均存在时间序列,通过深入研究这些时间序列,发现序列背后所隐藏的潜在规律以及有价值的信息具有重大的社会意义和经济价值。
近年来,随着数据量的增加,一些数据分析方法无法有效提取出更多有价值的数据信息,因此一种新的数据分析方法——数据挖掘(DataMining)技术便产生了。数据挖掘技术不仅能分析已有的数据,还可从原有数据中预测未来未知的信息,譬如,通过数据挖掘可以预测到下月某商场的销售量等。何为数据挖掘?数据挖掘可以以许多不同的形式被定义,简单来说,数据挖掘就是从海量的数据信息中提取出有价值的信息,原有的数据大部分是有模糊噪声的数据,但在这些数据中又存在着很多潜在价值。挖掘的过程是通过利用各个领域的技术知识对海量数据进行处理分析,挖掘出可以有益于人们进行更高层次的分析决策的内容。
目前,虽然国内外对数据挖掘的研究已取得不少的成果,但对各个应用领域的时间序列的挖掘却没有通用性,譬如对金融领域的数据挖掘的方法在医疗领域应用时所得到的性能效果不是很好。现在大多数的方法可能只是在某一个方面表现出较为良好的性能,而不能在其他各个方面综合起来有一个很好的性能。显然,以往对时间序列的研究还是存在着一些不足的,对于不同领域的时间序列挖掘问题,传统的挖掘方法己不适用,如何寻求一些新的数据挖掘是本领域技术人员亟需解决的问题。
发明内容
有鉴于此,本发明目的在于提供一种基于社会网络分析技术的数据挖掘的一种方法,使其能有效地处理海量数据,提高数据挖掘的运算速度和精度,能有效提取所需的探索兴趣特征数据,具有覆盖面广、灵活性强、风险识别率高的特点。
为实现上述目的,本发明提供如下技术方案:
基于社会网络分析技术的数据挖掘的一种方法,其特征在于,包括:征信风控建模、特征变量库、仿真数据库以及场景变量数据挖掘四个模块;
所述征信风控建模的具体操作步骤如下:
S1.准备数据,收集存量数据样本;
S2.对数据样本进行预处理,根据数据样本的属性建立特征变量宽表数据集;
S3.对所述数据集进行划分,将数据集划分成训练集、测试集和验证集;
S4.建立训练模型;
S5.使用训模型训练,并调整损失函数和优化器;
S6.评分卡生成,使用S2中所述测试机评估训练模型的测试准确度;
S7.公布,并在业务场景中应用;
S8.应用的数据沉淀并反馈至S1处进入收集的样本中;
所述特征变量库用于根据所述信贷客户的行为数据构造行为序列,并生成特征向量;所述特征变量库以提取出所述信贷客户的属性特征变量、关系特征变量、行为特征变量以及规则变量,并根据所述属性特征变量、关系特征变量、行为特征变量以及规则变量构建特征变量表;
所述仿真数据库是严格按照数据源格式,人工制作的高度仿真真实数据的数据集;
所述场景变量数据挖掘的具体步骤如下:获取行为特征查询语句,所述行为特征查询语句中包括请求查询的行为特征信息;在标注场景数据库中查询与所述行为特征信息对应的标注场景数据;根据查询到的标注场景数据对应的时间标签,从原始场景数据库中提取查询到的场景数据,生成特征场景数据。
优选的,在上述基于社会网络分析技术的数据挖掘的一种方法中,所述数据样本包括用户的基本信息数据,银行交易流水信息数据,产品持有信息数据,征信数据。
优选的,在上述基于社会网络分析技术的数据挖掘的一种方法中,该方法还包括征信风控评分卡建模,所述征信风控评分卡建模包括客户信息采集模块以及信用评分模型建立模块,客户信息采集模块用于采集客户的信用历史、行为偏好、履约能力、身份特质以及人脉关系。
优选的,在上述基于社会网络分析技术的数据挖掘的一种方法中,客户信息采集模块包括搜索引擎以及存储单元,用于根据借款人提交的年龄、收入、职业、学历、资产、负债信息,并查询系统里的相关征信数据,并记录到存储单元内;客户信息采集模块包括爬虫引擎,爬虫引擎用于根据借款人的信息到互联网上实时、不间断抓取社交、电商、通信、出行等互联网数据,经过处理后存并记录到存储单元内;征信风控评分卡建模通过基于深度学习,组合多种算法,构建出十几个风控模型,发现有区分用户风险的特性,进而建立模型,对用户进行打分,计算平均违约率。
优选的,在上述基于社会网络分析技术的数据挖掘的一种方法中,所述仿真数据库通过在网站或者移动端嵌入设备识别脚本,获取客户手机的位置信息以及社交活动轨迹,用于识别出用户是否存在经常换手机卡、刻意隐藏个人信息、短期内故意暴露个人信息等情况。
优选的,在上述基于社会网络分析技术的数据挖掘的一种方法中,所述特征变量库是将原始数据转化为特征的过程,这些特征可以更好地向预测模型描述潜在问题,从而提高模型对未见数据的精准识别能力。
优选的,在上述基于社会网络分析技术的数据挖掘的一种方法中,所述仿真数据库包括:数据挖掘系统、数据采集系统、数据分析系统、数据过滤系统以及数据形成系统;其中,
所述数据挖掘系统:首先输入给定的大数据样本集M,其中M={M1,M2,...,Mn};然后对输入样本集进行整合、归一化处理;选取n值和H=(H1,H2,...Hm)分别作为均值聚类算法的生成簇个数和初始质的参数;执行均值聚类算法,得到f个簇{F1,F2,...,Fm};将这f个簇的每个Fi作为初始簇的子簇;计算特征向量K,其特征向量K表示为:K=(K1,K2,...,Km);设定探索兴趣参数d,当Ki<d,则输出兴趣特征Ki,否则不做处理;
所述数据采集系统,用于采集数据,具体操作如下:首先设置关键词作为社会网络数据采集的搜索引擎;在所述数据挖掘系统中通过数据预处理模块将用于输入的关键词根据同义词分解为多个订阅请求,然后调度任务模块向数据采集模块提交采集任务,采集模块得到的文档按照有效时间进行预处理,对于超出时效的文档进行丢弃,保留下来的文档保存到数据库传递给数据分析系统;
所述数据分析系统,用于对采集的数据进行处理;具体:利用调度任务模块根据达到的触发条件触发语义分析模块进行文档分析任务,文档分析任务针对收集到的文档进行一般性分类,即进行文本分词,单词的语义分析,当已经抽取文本的摘要时,对摘要进行语义分析,判断出文档内容是否准确;将准确信息进行提取,并对提给数据过滤系统;
所述数据过滤系统,用于对数据进行进一步的分析处理;其将分析后的数据分别读取到一个数据表中,所述数据表统称为容器;将容器中的配置数据设置为过滤筛选配置节点,所述配置节点下设置过滤属性或者筛选属性;然后根据配置节点设置,将容器中的配置数据以树状结构分层展示到分析界面;
所述数据形成系统,用于形成最后的数据库;用于当所述工作流中的所述多个并行的挖掘算法实现处理任务被触发时,为其中的每个挖掘算法实现处理任务分配执行节点,以使所述多个并行的挖掘算法实现处理任务在分配的执行节点上并行执行,并且在执行每个挖掘算法实现处理任务时,通过Map/Reduce机制将挖掘算法实现处理任务分配给并行执行的Map任务进行处理,将该挖掘算法实现处理任务对应的各Map任务的处理结果通过相应的Reduce任务进行合并处理得到相应挖掘算法实现处理任务的处理结果。
优选的,在上述基于社会网络分析技术的数据挖掘的一种方法中,所述数据采集系统和数据分析系统通过松耦合的方式集成连接应用系统;当数据采集系统和数据分析系统的分析的结果,触发CRM模块的服务请求,服务请求被分配给应用系统时,所请求的内容以及用户的相关信息显示给相关人员,相关人员根据这些信息判断是否需要跟进与用户进行交互:如果需要,则触发用户交流的过程,期间会与用户进行交互;如果需要进行进一步的处理,则进去后台流程。
优选的,在上述基于社会网络分析技术的数据挖掘的一种方法中,所述数据形成系统对经过预处理的目标数据集进行关联分析,根据数据库统计出关联信息内容,并进行分布式分类聚类,并对数据进行分布式分片计算,把结果汇总并进行并行处理,同时将存储在数据库中一组数据对象的共同特点按照分类模式将其划分为不同的类,并通过信息分类算法把数据库中的数据项映射到某个给定的类别,并把事件分类类型和特征进行分组,并进行多维度分析,统计出实质的信息数据,形成大数据库。
经由上述的技术方案可知,与现有技术相比,本发明的有益效果在于:
支持多业务场景–发卡、调额、催收等建模(风控)有效信息覆盖率达95-99%;
高效跑批快;速建模–从1-3个月缩短到1-3天;1万份征信报告,90%的响应时间小于1000毫秒,平均响应时长:759毫秒;
100并发用户情况下,99%实时同步计算在一秒中内完成,可以支持决策引擎需求;
特征变量加工代码正确率高达99.99%口有效保障模型的可靠性,风险识别率高获益机会识别率高大幅提升行方数据分析能力;大幅度减轻信息科技部的临时开发任务压力对业务知识形成系统化框架;实时更新新增大额分期录入更多网贷信息新增共同借款标志;
征信特征变量库,业务知识全覆盖,全库特征变量数已达700,000+灵活有效应对以上行业痛点,全方位支撑各种业务场景需求兼容性好,可融合多方数据源。
具体实施方式
下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅本发明公开的基于社会网络分析技术的数据挖掘的一种方法,具体包括:基于社会网络分析技术的数据挖掘的一种方法,其特征在于,包括:征信风控建模、特征变量库、仿真数据库以及场景变量数据挖掘四个模块;
所述征信风控建模的具体操作步骤如下:
S1.准备数据,收集存量数据样本;
S2.对数据样本进行预处理,根据数据样本的属性建立特征变量宽表数据集;
S3.对所述数据集进行划分,将数据集划分成训练集、测试集和验证集;
S4.建立训练模型;
S5.使用训模型训练,并调整损失函数和优化器;
S6.评分卡生成,使用S2中所述测试机评估训练模型的测试准确度;
S7.公布,并在业务场景中应用;
S8.应用的数据沉淀并反馈至S1处进入收集的样本中;
所述特征变量库用于根据所述信贷客户的行为数据构造行为序列,并生成特征向量;所述特征变量库以提取出所述信贷客户的属性特征变量、关系特征变量、行为特征变量以及规则变量,并根据所述属性特征变量、关系特征变量、行为特征变量以及规则变量构建特征变量表;
所述仿真数据库是严格按照数据源格式,人工制作的高度仿真真实数据的数据集;
所述场景变量数据挖掘的具体步骤如下:获取行为特征查询语句,所述行为特征查询语句中包括请求查询的行为特征信息;在标注场景数据库中查询与所述行为特征信息对应的标注场景数据;根据查询到的标注场景数据对应的时间标签,从原始场景数据库中提取查询到的场景数据,生成特征场景数据。
为了进一步优化技术方案,所述数据样本包括用户的基本信息数据,银行交易流水信息数据,产品持有信息数据,征信数据。
为了进一步优化技术方案,该方法还包括征信风控评分卡建模,所述征信风控评分卡建模包括客户信息采集模块以及信用评分模型建立模块,客户信息采集模块用于采集客户的信用历史、行为偏好、履约能力、身份特质以及人脉关系。
为了进一步优化技术方案,客户信息采集模块包括搜索引擎以及存储单元,用于根据借款人提交的年龄、收入、职业、学历、资产、负债信息,并查询系统里的相关征信数据,并记录到存储单元内;客户信息采集模块包括爬虫引擎,爬虫引擎用于根据借款人的信息到互联网上实时、不间断抓取社交、电商、通信、出行等互联网数据,经过处理后存并记录到存储单元内;征信风控评分卡建模通过基于深度学习,组合多种算法,构建出十几个风控模型,发现有区分用户风险的特性,进而建立模型,对用户进行打分,计算平均违约率。
为了进一步优化技术方案,所述仿真数据库通过在网站或者移动端嵌入设备识别脚本,获取客户手机的位置信息以及社交活动轨迹,用于识别出用户是否存在经常换手机卡、刻意隐藏个人信息、短期内故意暴露个人信息等情况。
为了进一步优化技术方案,所述特征变量库是将原始数据转化为特征的过程,这些特征可以更好地向预测模型描述潜在问题,从而提高模型对未见数据的精准识别能力。
为了进一步优化技术方案,所述仿真数据库包括:数据挖掘系统、数据采集系统、数据分析系统、数据过滤系统以及数据形成系统;其中,
所述数据挖掘系统:首先输入给定的大数据样本集M,其中M={M1,M2,...,Mn};然后对输入样本集进行整合、归一化处理;选取n值和H=(H1,H2,...Hm)分别作为均值聚类算法的生成簇个数和初始质的参数;执行均值聚类算法,得到f个簇{F1,F2,...,Fm};将这f个簇的每个Fi作为初始簇的子簇;计算特征向量K,其特征向量K表示为:K=(K1,K2,...,Km);设定探索兴趣参数d,当Ki<d,则输出兴趣特征Ki,否则不做处理;
所述数据采集系统,用于采集数据,具体操作如下:首先设置关键词作为社会网络数据采集的搜索引擎;在所述数据挖掘系统中通过数据预处理模块将用于输入的关键词根据同义词分解为多个订阅请求,然后调度任务模块向数据采集模块提交采集任务,采集模块得到的文档按照有效时间进行预处理,对于超出时效的文档进行丢弃,保留下来的文档保存到数据库传递给数据分析系统;
所述数据分析系统,用于对采集的数据进行处理;具体:利用调度任务模块根据达到的触发条件触发语义分析模块进行文档分析任务,文档分析任务针对收集到的文档进行一般性分类,即进行文本分词,单词的语义分析,当已经抽取文本的摘要时,对摘要进行语义分析,判断出文档内容是否准确;将准确信息进行提取,并对提给数据过滤系统;
所述数据过滤系统,用于对数据进行进一步的分析处理;其将分析后的数据分别读取到一个数据表中,所述数据表统称为容器;将容器中的配置数据设置为过滤筛选配置节点,所述配置节点下设置过滤属性或者筛选属性;然后根据配置节点设置,将容器中的配置数据以树状结构分层展示到分析界面;
所述数据形成系统,用于形成最后的数据库;用于当所述工作流中的所述多个并行的挖掘算法实现处理任务被触发时,为其中的每个挖掘算法实现处理任务分配执行节点,以使所述多个并行的挖掘算法实现处理任务在分配的执行节点上并行执行,并且在执行每个挖掘算法实现处理任务时,通过Map/Reduce机制将挖掘算法实现处理任务分配给并行执行的Map任务进行处理,将该挖掘算法实现处理任务对应的各Map任务的处理结果通过相应的Reduce任务进行合并处理得到相应挖掘算法实现处理任务的处理结果。
为了进一步优化技术方案,所述数据采集系统和数据分析系统通过松耦合的方式集成连接应用系统;当数据采集系统和数据分析系统的分析的结果,触发CRM模块的服务请求,服务请求被分配给应用系统时,所请求的内容以及用户的相关信息显示给相关人员,相关人员根据这些信息判断是否需要跟进与用户进行交互:如果需要,则触发用户交流的过程,期间会与用户进行交互;如果需要进行进一步的处理,则进去后台流程。
为了进一步优化技术方案,所述数据形成系统对经过预处理的目标数据集进行关联分析,根据数据库统计出关联信息内容,并进行分布式分类聚类,并对数据进行分布式分片计算,把结果汇总并进行并行处理,同时将存储在数据库中一组数据对象的共同特点按照分类模式将其划分为不同的类,并通过信息分类算法把数据库中的数据项映射到某个给定的类别,并把事件分类类型和特征进行分组,并进行多维度分析,统计出实质的信息数据,形成大数据库。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。