一种用于共享平台的政务数据分析系统
技术领域
本发明属于政务数据的处理与存储技术,尤其涉及一种用于共享平台的政务数据分析系统。
背景技术
利用大数据手段构建信息互联,可以提高政务数据的使用效率。例如CN112860647A的那种基于大数据的政府激励用信息共享系统,该系统中的门户网站、互动平台和办公平台分别与数据信息共享平台之间通信连接,所述数据获取单元与数据信息共享平台之间通信连接。通过该数据信息共享平台实现数据共享。随着平台的运行,共享存储器的数据压力越来越大。CN112860683A提供了一种数据集实时清理方法。该方法生成待执行作业数据集,将待执行作业数据集提交至第二站点,再对共享数据集及待执行作业数据集进行删除。该方案尚未解决如何快速识别可删除数据,尤其是如何查找可删除的非结构类数据。因此,现有技术有进一步改进的必要。
发明内容
本发明提供了一种用于共享平台的政务数据分析系统,生成政务处理过程中的多个信用文件,根据标识数据快速查找可能相同的信用文件,再将信用文件存储为索引信息,降低数据内存并提高数据的读取效率。
一种用于共享平台的政务大数据分析系统,其特征在于,
第一存储部,存储多个第一信用文件{W,P1},W为事件标识,P1为第一执行数据,该第一执行数据由多个第一数据块组成;
第一政务端,包括第一输入单元、第一识别单元、第一处理单元、第一输出单元,第一输入单元录入至少一个的原始文件,第一识别单元从该原始文件提取事件标识、身份标识D1...Dn、第一执行数据A,第一处理单元生成第一信用文件和第一摘要{W1,D1...Dn,A,X},第一输出单元将第一信用文件存储至第一存储部,X为第一数据块的存储索引;
第二存储部,存储多个第二信用文件{W,P2},P2为第二执行数据,第二执行数据由多个第二数据块组成;
多个第二政务端,包括第二执行单元、第二识别单元、第二处理单元、第二输出单元,第二执行单元录入至少一个的原始文件,第二识别单元从该原始文件提取事件标识、身份标识Dk、第二执行数据B,第二处理单元生成第二信用文件和第二摘要{W,Dk,B,Y},第二输出单元将第二信用文件存储至第二存储部,Y为第二数据块的存储索引;
服务平台,包括存储单元、第一分析单元、第二分析单元以及数据管理单元,其中第一分析单元、第二分析单元都包含数据对比模块。存储单元接收第一摘要、第二摘要,第一分析单元、第二分析单元分别根据第一存储部和第二存储部修改至少一个的第二数据块,数据管理单元将修改后的第二信用文件存储至第二存储部;
征信查询端,根据第一摘要和第二摘要生成第三摘要{W,Dk,C},C为未执行数据,C=A-B,B为已经执行的数据,
其中,若待存储的第二数据块与事件标识相同的第一数据块一致,第一分析单元将该待存储的第二数据块修改为第一数据块的存储索引;
若待存储的第二数据块与身份标识相同的已存储的第二数据块一致,第二分析单元将该待存储的第二数据块修改为已存储的第二数据块的存储索引。
在本发明中,征信查询端根据第二摘要检索第二信用文件,并根据第二信用文件的至少一个第二数据库检索第一信用文件。
在本发明中,第一分析单元数据对比模块对比待存储的第二数据块的的灰度图与第一存储部中第一数据块的灰度图,根据灰度图的差异值确定是否一致。
在本发明中,第二分析单元数据对比模块对比待存储的第二数据块的的灰度图与第二存储部中第二数据块的灰度图,根据灰度图的差异值确定是否一致。
在本发明中,对第一数据块的灰度图和第二数据块的灰度图进行归一化至预设尺寸;根据灰度图的梯度信息,计算两组灰度图的粗筛差异值;若所述粗筛差异值在预先设定的粗筛阈值范围内,则再计算两组灰度图的精筛差异值,若所述精筛差异值在预先设定的精筛阈值范围内,则确定对应的第一数据块与所述第二数据块一致。
在本发明中,灰度图归一化后的预设尺寸为32×32像素点,以该预设尺寸为基准计算粗筛差异值和精筛差异值。
在本发明中,计算粗筛差异值包括以下步骤,S1:计算两组灰度图1024个像素的灰度平均值;S2:将每个像素的灰度值与灰度平均值进行比较,大于或等于灰度平均值记为1,小于灰度平均值记为0;S3:计算两组灰度图的hash指纹;S4:根据hash指纹计算两张灰度图的汉明距离,如果汉明距离小于10,则粗筛差异值在预先设定的粗筛阈值范围内。
在本发明中,计算精筛差异值包括以下步骤,S101:对两组灰度图进行DCT变换,得到32×32的系数矩阵;S102:保留左上角的8×8的DCT矩阵;S103:计算8×8的DCT矩阵的DCT平均值;S104:计算DCT矩阵的hash指纹;S105:根据hash指纹计算两组DCT矩阵的汉明距离,若汉明距离小于5,确定两组灰度图对应的第一数据块与第二数据块一致。
本发明的这种用于共享平台的政务数据分析系统,通过处理单元生成政务处理过程中符合规则的多个信用文件,根据不同类的标识数据查找可能相同的信用文件,再将信用文件存储为索引信息。可以通过存储索引快速读取数据,能够降低数据内存并提高数据的读取效率。
附图说明
图1为本发明的用于共享平台的政务数据分析系统框图;
图2为本发明第一政务端工作流程图;
图3为本发明第二政务端工作流程图;
图4为本发明服务平台工作流程图;
图5为本发明的第一分析单元和第二分析单元数据对比模块的工作流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
现有技术中,政府信息共享系统的门户网站、互动平台和办公平台分别与数据信息共享平台之间通信连接,通过该数据信息共享平台实现数据共享。随着平台的运行,共享存储器的数据压力越来越大。对于部分存储大量图片数据的业务类型,图片数据量大但是存在部分重复数据。尤其是在征信管理业务中,不同的政务端口提供不同的信用文件(包括但不限于行政处罚文件、司法裁判文件),但是对于同类事件的部分信用文件的内容存在重复。因此,发明人提出一种用于共享平台的政务数据分析系统,根据标识数据将信用文件存储为索引信息,达到了降低数据内存并提高数据的读取效率的目的。下面结合附图对本发明实施例作进一步阐述。
如图1至5所示的本发明一个实施例提供的政务数据分析系统。该系统框架包括第一存储部、第二存储部、第一政务端、第二政务端、服务平台以及征信查询端。第一存储部、第二存储部例如是远程的或本地的大容量非临时性存储器。第一存储部存储多个第一信用文件{W,P1},W为事件标识,事件标识例如采用裁判编号或处罚文件编号。P1为第一执行数据,该第一执行数据由多个第一数据块组成。第一数据块主要是图像数据,包括身份证明文件、程序文件、决定文件等。第一信用文件针对单一行政事件,通常可以包含多个行政对象,因此可以包含身份证明文件和程序文件。每一图像文件存储为单一第一数据块。第二存储部存储多个第二信用文件{W,P2},P2为第二执行数据,第二执行数据由多个第二数据块组成。第二信用文件用于记载行政事件的后续处理,例如行政处罚的听证、裁判文件的执行。第二执行数据对应的包含行政对象的身份证明文件和程序文件以及执行文件、缴款文件。
第一政务端处理行政事件并将行政事件的处理结果展示在原始文件中,其包括第一输入单元、第一识别单元、第一处理单元、第一输出单元。第一输入单元录入至少一个的原始文件,原始文件例如是政务端发出的生效文件。第一识别单元从该原始文件提取事件标识、身份标识D1...Dn、第一执行数据A。可以预料,原始文件中记录行政事件的编号数据和对象的身份数据以及处罚金额,可以通过该原始文件提取事件标识、身份标识以及第一执行数据。第一执行数据A例如是原始文件的裁判结果或处罚文件的处罚结果。第一处理单元生成第一信用文件和第一摘要{W1,D1...Dn,A,X}。第一信用文件具有与原始文件对应的内容,但其数据格式满足前述要求。第一摘要为第一信用文件的结构类索引日志,可以通过该第一摘要快速查找对应的第一信用文件。第一输出单元将第一信用文件存储至第一存储部,X为第一数据块的存储索引。第二政务端为行政事件的后续处理端口。第二政务端包括第二执行单元、第二识别单元、第二处理单元、第二输出单元。第二执行单元录入至少一个的原始文件,第二识别单元从该原始文件提取事件标识、身份标识Dk、第二执行数据B。第二处理单元生成第二信用文件和第二摘要{W,Dk,B,Y}。第二输出单元将第二信用文件存储至第二存储部,Y为第二数据块的存储索引。
征信查询端可以嵌入任意客户计算机,包括但不限于金融监管部门、银行、政府部门以及商业金融机构。征信查询端可以根据申请,查询某一客户(行政对象)的征信结论。征信查询端根据第一摘要和第二摘要生成第三摘要{W,Dk,C},C=A-B,C为未执行数据,B为已经执行的数据,此处减号“-”不特定指数字之间的减法,还可以计算征信数据未执行的部分,例如:C为该客户未完成的处罚记录,B为该客户已经完成的处罚记录;C为该单位未还债务总量,B为该单位已还款债务总量。此外,征信查询端还可以根据第二摘要的存储索引提取对应的第二征信文件。根据第二数据库的存储索引,第二征信文件根据检索第一征信文件。优选的,本发明的第二政务端针可针对同一政务事件(事件标识)生成多项第二摘要,未完成的处罚记录C=A-B。
服务平台包括存储单元、第一分析单元、第二分析单元以及数据管理单元。存储单元接收第一摘要、第二摘要。第一分析单元、第二分析单元分别根据第一存储部和第二存储部修改至少一个的第二数据块。若待存储的第二数据块与事件标识相同的第一数据块一致,第一分析单元将该待存储的第二数据块修改为第一数据块的存储索引。一致的数据主要包括裁判文件或处罚文件,删减待存储的第二数据块的原始图像文件,降低数据内存。若待存储的第二数据块与身份标识相同的已存储的第二数据块一致,第二分析单元将该待存储的第二数据块修改为已存储的第二数据块的存储索引。一致的数据主要包括身份文件,删减待存储的第二数据块的原始图像数据,降低数据内存。数据管理单元将修改后的第二信用文件存储至第二存储部。
判断其中的信用文件是否相同的方式可以有很多中,可以通过数据对比模块比较第一信用文件中的第一数据块与第二信用文件的第二数据块之间的差异,本实施例中提供了一种可选的实现方式。
实施例一
在本实施例中,参照图5,上述数据对比模块进行数据对比的过程包括以下步骤。
步骤1:对第一数据块中的数据图片和第二数据块中的数据图片进行灰度转换,得到第一数据块中的数据图片的灰度图和第二数据块中的数据图片的灰度图,例如所述灰度转化步骤可以为S201:获取每一个像素的red、green、blue值;S202:使用灰度算法算出一个灰度值Gray;S203:用所述Gray代替像素原始的red,green,blue值,其中本实施例提供的一个灰度算法为均值算法:Gray =(red + green + blue)/ 3,当然本领域普通技术人员也可以使用其他灰度算法(基于人眼感知、去饱和、分解、单一通道算法)计算灰度值。
步骤2: 根据所述第一数据块中的数据图片的灰度图和第二数据块中的数据图片的灰度图计算差异值,本实施例所提供的两种所述差异值计算算法为平均哈希算法(aHash)和感知哈希算法(pHash),本发明人发现这两种算法相互结合应用于数据对比模块中表征图片之间差异性效果最佳。
步骤3:根据第一数据块中的数据图片和第二数据块中的数据图片的的差异值,确定第一数据块中的数据图片和第二数据块中的数据图片是否为一致图片。
步骤4:若所述第一数据块中的数据图片和第二数据块中的数据图片的差异值与某一阈值符合给定条件,则确定第一数据和第二数据为重复数据。
实施例二
在本实施例中,上述步骤2所述第一数据块中的数据图片的灰度图和第二数据块中的数据图片的灰度图计算差异值,包括以下步骤。S21:对第一数据块中的数据图片的灰度图和第二数据块中的数据图片的灰度图的图像尺寸进行归一化,得到预设尺寸的第一数据块中的数据图片的灰度图和预设尺寸的第二数据块中的数据图片的灰度图。S22:根据预设尺寸的第一数据块中的数据图片的灰度图和预设尺寸的第二数据块中的数据图片的灰度图的梯度信息,确定第一数据块中的数据图片和第二数据块中的数据图片的粗筛差异值。S23:若所述粗筛差异值在预先设定的粗筛阈值范围内,则对所述第一数据块中的数据图片的灰度图和第二数据块中的数据图片的灰度图计算精筛差异值。若所述精筛差异值在预先设定的精筛阈值范围内,则确定所述第一数据块中的数据图片与所述第二数据块中的数据图片一致,否则不一致。
其中预设尺寸为32×32像素点的图像尺寸。根据预设尺寸的第一数据块中的数据图片的灰度图和预设尺寸的第二数据块中的数据图片的灰度图的梯度信息,确定第一数据块中的数据图片和第二数据块中的数据图片的粗筛差异值。具体包括:S1:分别计算两张32×32像素点的灰度图所有1024个像素的灰度平均值。S2:比较两张灰度图像素的灰度,将每个像素的灰度,与灰度平均值进行比较,大于或等于灰度平均值记为“1”,小于灰度平均值记为“0”分别排列在每个像素位置。S3:计算hash指纹,将S2的比较结果从左到右从上到下,依次组合在一起,组成一个1024位的整数。S4:根据S3计算出的hash指纹计算两张图片的汉明距离(Hamming distance)。如果汉明距离小于10则对所述第一数据块中的数据图片的灰度图和第二数据块中的数据图片的灰度图计算精筛差异值。本实施例中对所述汉明距离(Hamming distance)有如下解释:对两个字符串进行异或运算,并统计结果为1的个数,那么这个数就是汉明距离,例如:0100→1001 的汉明距离是3;0110→1110 的汉明距离是1。
对所述第一数据块中的数据图片的灰度图和第二数据块中的数据图片的灰度图计算精筛差异值。本实施例提供的步骤包括S101:计算DCT(离散余弦变换),对两张预设尺寸为32×32像素点的灰度图进行DCT(离散余弦变换),得到两个32×32的DCT系数矩阵。S102:缩小DCT,保留DCT系数矩阵左上角8×8的部分。S103:计算平均值,计算8×8的DCT系数矩阵的DCT平均值。S104:计算hash指纹,根据8×8的DCT系数矩阵,设置0或1的64位的hash值,具体为,将8×8的DCT系数矩阵中每个系数与DCT平均值比较,大于等于DCT均值的设为“1”,小于DCT均值的设为“0”,从左到右从上到下依次进行比较后构成了一个64位的整数。S105:根据S104计算出的hash指纹计算两张灰度图片的汉明距离,若汉明距离小于5,就可以认为两张数据图片一致,否则不一致。
应理解的是,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。上述实施例方法的全部或部分步骤是可以通过程序来指令相关的硬件完成,该程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到其各种变化或替换,这些都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
- 上一篇:石墨接头机器人自动装卡簧、装栓机
- 下一篇:一种自动录音书签存储