数据导出方法及系统
技术领域
本申请涉及计算机
技术领域
,尤其涉及一种数据导出方法及系统。背景技术
数据库是现代社会中信息资源管理的重要基础。为了数据管理和查看的方便,通常由DBA(Database Administrator,数据库管理员)将数据库中的数据导出为适应不同系统的其他格式的文件。在数据库日常维护管理中,其主要导出方式为通过执行数据库自带的导出指令,实现数据库中的数据的导出。
但是,当前的数据导出方式主要从DBA的角度出发,与当前业务的锲合度不高,以致导出的数据不能直接适用于所需系统,需要用户对导出的数据进行二次处理,以致提升了数据库数据导出的门槛,不便于普通用户操作。当前的数据导出方式也无法对数据进行处理、筛选等操作,仅能实现统一的数据导出。另外,前述数据导出方法也无法将数据库中以附件形式存储的数据一并导出至DMP(Data Management Platform,数据管理平台)的文件中,不利于数据的有效传利及利用。
发明内容
本申请提供了一种数据导出方法及系统,以期解决或部分解决背景技术中涉及的上述问题或现有技术中的其它至少一个不足。
本申请提出了这样一种数据导出方法,包括:
对源表列与目标表列的匹配关系、以及数据校验规则进行配置,生成配置文件;
读取配置文件,并响应数据选择指令,在数据库中确定目标数据范围;
在目标数据范围中,筛选出不符合数据校验规则的无效数据;
对无效数据进行治理,使目标数据范围中的数据全部符合数据校验规则,获得目标数据;
执行转换指令,将目标数据的格式与目标表列匹配;以及
执行导出指令,将与目标表列匹配的目标数据进行导出。
在一些实施方式中,对源表列与目标表列的匹配关系、以及数据校验规则进行配置,生成配置文件,包括:
根据目标系统数据,形成模板文件;
根据模板文件,筛选出目标表列;
在源库中筛选出与目标表列匹配的源表列,并配置源表列与目标表列的匹配关系;以及
根据目标表列,配置数据校验规则。
在一些实施方式中,目标数据范围包括:目标数据区间、目标表列格式以及附件状态。
在一些实施方式中,对无效数据进行治理,包括:对无效数据进行修正或删除。
在一些实施方式中,在执行导出指令之前,还包括:
根据附件状态,将附件数据以二进制数据的形式进行存储,并生成包含附件数据的附件导出指令。
在一些实施方式中,在执行导出指令,将与目标表列匹配的目标数据进行导出之后,还包括:
显示数据导出结果,
其中,数据导出结果包括:与目标表列匹配的目标数据以及附件数据。
本申请还提出了这样一种数据导出系统,包括:配置模块、范围确定模块、清洗模块、治理模块、转换模块以及导出模块。其中,配置模块用于对源表列与目标表列的匹配关系、以及数据校验规则进行配置,生成配置文件。范围确定模块用于读取配置文件,并响应数据选择指令,在数据库中确定目标数据范围。清洗模块用于在目标数据范围中,筛选出不符合数据校验规则的无效数据。治理模块用于对无效数据进行治理,使目标数据范围中的数据全部符合数据校验规则,获得目标数据。转换模块用于执行转换指令,将目标数据的格式与目标表列匹配。导出模块用于执行导出指令,将与目标表列匹配的目标数据进行导出。
在一些实施方式中,配置模块的执行方式包括:
根据目标系统数据,形成模板文件;
根据模板文件,筛选出目标表列;
在源库中筛选出与目标表列匹配的源表列,并配置源表列与目标表列的匹配关系;以及
根据目标表列,配置数据校验规则。
在一些实施方式中,目标数据范围包括:目标数据区间、目标表列格式以及附件状态。
在一些实施方式中,还包括:
附件处理模块,用于根据附件状态,将附件数据以二进制数据的形式进行存储,并生成包含附件数据的附件导出指令。
根据上述的实施方式的技术方案可至少获得以下至少一个有益效果。
根据本申请一实施方式的数据导出方法及系统,在配置文件设置完成后,用户仅发出数据选择指令即可导出所需的目标数据,本申请具有普适性,使用门槛较低。本申请还能够对附件数据进行一并导出,保证了数据的完整性。另外,还配置有数据校验规则,能够有效地对无效数据进行先治理后导出,保证了导出的目标数据的有效性和可用性。
附图说明
通过阅读参照以下附图所作的对非限制性实施例的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是根据本申请的示例性实施方式的数据导出方法流程图;以及
图2是根据本申请的示例性实施方式的数据导出系统的结构示意图。
具体实施方式
为了更好地理解本申请,将参考附图对本申请的各个方面做出更详细的说明。应理解,这些详细说明只是对本申请的示例性实施方式的描述,而非以任何方式限制本申请的范围。在说明书全文中,相同的附图标号指代相同的元件。表述“和/或”包括相关联的所列项目中的一个或多个的任何和全部组合。
在附图中,为了便于说明,已稍微调整了元素的大小、尺寸和形状。附图仅为示例而并非严格按比例绘制。如在本文中使用的,用语“大致”、“大约”以及类似的用语用作表近似的用语,而不用作表程度的用语,并且旨在说明将由本领域普通技术人员认识到的、测量值或计算值中的固有偏差。另外,在本申请中,各步骤处理描述的先后顺序并不必然表示这些处理在实际操作中出现的顺序,除非有明确其它限定或者能够从上下文推导出的除外。
还应理解的是,诸如“包括”、“包括有”、“具有”、“包含”和/或“包含有”等表述在本说明书中是开放性而非封闭性的表述,其表示存在所陈述的特征、元件和/或部件,但不排除一个或多个其它特征、元件、部件和/或它们的组合的存在。此外,当诸如“...中的至少一个”的表述出现在所列特征的列表之后时,其修饰整列特征,而非仅仅修饰列表中的单独元件。此外,当描述本申请的实施方式时,使用“可”表示“本申请的一个或多个实施方式”。并且,用语“示例性的”旨在指代示例或举例说明。
除非另外限定,否则本文中使用的所有措辞(包括工程术语和科技术语)均具有与本申请所属领域普通技术人员的通常理解相同的含义。还应理解的是,除非本申请中有明确的说明,否则在常用词典中定义的词语应被解释为具有与它们在相关技术的上下文中的含义一致的含义,而不应以理想化或过于形式化的意义解释。
需要说明的是,在不冲突的情况下,本申请中的实施方式及实施方式中的特征可以相互组合。下面将参考附图并结合实施方式来详细说明本申请。
图1是根据本申请的示例性实施方式的数据导出方法流程图。
如图1所示,本申请提供了一种数据导出方法,可包括:
对源表列与目标表列的匹配关系、以及数据校验规则进行配置,生成配置文件。读取配置文件,并响应数据选择指令,在数据库中确定目标数据范围。在目标数据范围中,筛选出不符合数据校验规则的无效数据。对无效数据进行治理,使目标数据范围中的数据全部符合数据校验规则,获得目标数据。执行转换指令,将目标数据的格式与目标表列匹配。以及执行导出指令,将与目标表列匹配的目标数据进行导出。
步骤S1,对源表列与目标表列的匹配关系、以及数据校验规则进行配置,生成配置文件。
具体地,首先,根据目标系统数据,形成模板文件。目标系统数据可包括Excel格式等。在本申请中,目标系统数据的具体格式类型不做限制。在本申请中,模板文件可为DMP模板文件。进一步地,将模板文件进行导入,根据模板文件,筛选出目标表列。进一步地,在源库中筛选出与目标表列匹配的源表列,并配置源表列与目标表列的匹配关系。另外,根据目标表列,进行数据校验规则的配置。进而获得包括源表列与目标表列的匹配关系、以及数据校验规则的配置文件。
具体来说,根据目标表列,进行数据校验规则的配置,包括以下过程:
首先,识别目标表列和源表列的匹配意图(match intend),根据目标表列,自动分析识别目标系统数据的格式和对数据的规范要求,进而确定目标表列与源表列的匹配意图。例如,目标系统数据的格式为结构化脚本数据,具有以脚本标签定义的数据字段、预定格式的数据内容,而源库为非结构化的文本数据,则可以确定所述匹配意图为非结构化数据的结构化,即对源库的文本数据中提取匹配数据字段定义的源数据,进行格式规整处理后,作为数据字段填入的数据内容。可以预先存储映射查询表,该查询表中预置若干种目标表列和源表列所对应的匹配意图,根据目标表列和源表列,对照映射查询表获得上述匹配意图。也可以设置一个经过训练的二元分类器,根据目标表列和源表列,通过二元分类获得目标表列和源表列所对应的匹配意图。
其次,基于识别的匹配意图,并解析数据校验规则槽位。根据上述识别的匹配意图,可以调用该匹配意图设定的数据校验规则槽位。例如,上文中提到的非结构化数据的结构化的匹配意图,为其设定的数据校验规则可以包括数据内容与数据字段对应性的校验、数据内容格式完整性校验、数据内容格式规范性校验等。
然后,将所述匹配意图和数据校验规则槽位写入配置文件,在后续的步骤中调用该配置文件,从而取得在执行的匹配意图和数据校验规则。
进一步,用户可通过任务启动的方式进行目标数据以及附件数据的导出,具体的任务启动步骤如下。
步骤S2,读取配置文件,并响应数据选择指令,在数据库中确定目标数据范围。
用户可在客户端下达数据选择指令,具体地,包括对目标数据区间、目标表列格式以及附件状态的选择。进一步地,将用户的数据选择指令与配置文件中的源表列与目标表列的匹配关系、以及数据校验规则的配置文件进行结合,可根据用户的数据选择指令,在源库中确定目标表列格式。
进一步地,根据数据校验规则可筛选出目标数据区间中的无效数据,具体的筛选步骤如下。
步骤S3,在目标数据范围中,筛选出不符合数据校验规则的无效数据。
将目标数据区间中的全部数据与数据校验规则进行比对,筛选出不符合数据校验规则的无效数据,并记录该无效数据。另外,在目标数据区间中确定有效数据,并存储在临时用户中,以便后续调用。
进一步地,针对无效数据,本申请将对无效数据进行治理,以便使用,具体治理步骤如下。
步骤S4,对无效数据进行治理,使目标数据范围中的数据全部符合数据校验规则,获得目标数据。
具体地,对无效数据进行治理的方式可包括删除或修正。在本申请中,可依据无效数据的具体状态对治理方式进行选择,若无法通过修正而使无效数据符合数据校验规则时,则可将其进行删除处理,以保证在目标数据范围中,全部数据均具有可用性和有效性。
本发明根据上述匹配文件中定义的匹配意图和数据校验规则槽位,执行数据校验和治理的控制管理。其中,对于步骤S3中的无效数据修正,按照数据校验规则分析其是否能够通过数据校验规则槽位定义的校验,如果能够通过某个数据校验规则槽位定义的规则校验,则填补该槽位,如果不能够通过该数据校验规则槽位的校验,则空白该槽位;如果经过一轮的校验分析后,判断当前无效数据的某个数据校验规则槽位仍然为空白,则当前的无效数据仍然未修正成功,则可以针对该空白的数据校验规则槽位,执行对应性的下一轮修正;例如,如果数据内容与数据字段对应性的校验、数据内容格式完整性校验槽位均已经成功填充,但是数据内容格式规范性校验槽位仍然空白,则针对性地执行,数据内容格式规范的调整修正,然后判断该槽位是否填充;如果经历多轮修正后,仍然存在空白的数据校验规则槽位,则可将其进行删除处理。
步骤S5,执行转换指令,将目标数据的格式与目标表列匹配。
具体地,可通过sql(Structured Query Language,结构化查询语言)脚本的方式响应转换指令。sql是高级的非过程化编程语言,所以具有完全不同底层结构的不同数据库系统,可以使用相同的结构化查询语言作为数据输入与管理的接口。通过sql进行目标数据的格式与目标表列的匹配时,能够提升数据导出效率的同时提高数据转换的灵活性。
进一步地,根据目标数据范围中的附件状态,例如存在需要导出的附件数据,那么首先将附件数据以二进制数据的形式进行存储,进而生成包含附件数据的附件导出指令。以通过后续的导出步骤实现对附件数据进行一并导出,保证了数据的完整性
步骤S6,执行导出指令,将与目标表列匹配的目标数据进行导出。
在完成与目标表列匹配的目标数据或附件数据的导出后,还可显示数据导出结果。具体地,数据导出结果包括:与目标表列匹配的目标数据以及附件数据,以提升数据导出的可视性,便于用户直观地查看导出结果。
当然,导出的目标数据以及附件数据均可根据需求进行下载,以便用户使用。
根据本申请一实施方式的数据导出方法,在配置文件设置完成后,用户仅发出数据选择指令即可导出所需的目标数据,本申请具有普适性,使用门槛较低。本申请还能够对附件数据进行一并导出,保证了数据的完整性。另外,还配置有数据校验规则,能够有效地对无效数据进行先治理后导出,保证了导出的目标数据的有效性和可用性。
图2是根据本申请的示例性实施方式的数据导出系统的结构示意图。
如图2所示,本申请还提供了一种数据导出系统,包括:
配置模块1,用于对源表列与目标表列的匹配关系、以及数据校验规则进行配置,生成配置文件;
范围确定模块2,用于读取配置文件,并响应数据选择指令,在数据库中确定目标数据范围;
清洗模块3,用于在目标数据范围中,筛选出不符合数据校验规则的无效数据;
治理模块4,用于对无效数据进行治理,使目标数据范围中的数据全部符合数据校验规则,获得目标数据;
转换模块5,用于执行转换指令,将目标数据的格式与目标表列匹配;以及
导出模块6,用于执行导出指令,将与目标表列匹配的目标数据进行导出。
在一些实施方式中,配置模块1的执行方式包括:根据目标系统数据,形成模板文件;根据模板文件,筛选出目标表列;在源库中筛选出与目标表列匹配的源表列,并配置源表列与目标表列的匹配关系;以及根据目标表列,配置数据校验规则。
在一些实施方式中,具体来说,配置模块1根据目标表列,进行数据校验规则的配置,包括以下过程:首先,识别目标表列和源表列的匹配意图(match intend),根据目标表列,自动分析识别目标系统数据的格式和对数据的规范要求,进而确定目标表列与源表列的匹配意图。例如,目标系统数据的格式为结构化脚本数据,具有以脚本标签定义的数据字段、预定格式的数据内容,而源库为非结构化的文本数据,则可以确定所述匹配意图为非结构化数据的结构化,即对源库的文本数据中提取匹配数据字段定义的源数据,进行格式规整处理后,作为数据字段填入的数据内容。可以预先存储映射查询表,该查询表中预置若干种目标表列和源表列所对应的匹配意图,根据目标表列和源表列,对照映射查询表获得上述匹配意图。也可以设置一个经过训练的二元分类器,根据目标表列和源表列,通过二元分类获得目标表列和源表列所对应的匹配意图。其次,基于识别的匹配意图,并解析数据校验规则槽位。根据上述识别的匹配意图,可以调用该匹配意图设定的数据校验规则槽位。例如,上文中提到的非结构化数据的结构化的匹配意图,为其设定的数据校验规则可以包括数据内容与数据字段对应性的校验、数据内容格式完整性校验、数据内容格式规范性校验等。然后,将所述匹配意图和数据校验规则槽位写入配置文件,在后续的步骤中调用该配置文件,从而取得在执行的匹配意图和数据校验规则。
在一些实施方式中,所述治理模块4根据上述匹配文件中定义的匹配意图和数据校验规则槽位,执行数据校验和治理的控制管理。其中,对于无效数据修正,按照数据校验规则分析其是否能够通过数据校验规则槽位定义的校验,如果能够通过某个数据校验规则槽位定义的规则校验,则填补该槽位,如果不能够通过该数据校验规则槽位的校验,则空白该槽位;如果经过一轮的校验分析后,判断当前无效数据的某个数据校验规则槽位仍然为空白,则当前的无效数据仍然未修正成功,则可以针对该空白的数据校验规则槽位,执行对应性的下一轮修正;例如,如果数据内容与数据字段对应性的校验、数据内容格式完整性校验槽位均已经成功填充,但是数据内容格式规范性校验槽位仍然空白,则针对性地执行,数据内容格式规范的调整修正,然后判断该槽位是否填充;如果经历多轮修正后,仍然存在空白的数据校验规则槽位,则可将其进行删除处理。
在一些实施方式中,目标数据范围包括:目标数据区间、目标表列格式以及附件状态。
在一些实施方式中,还包括:附件处理模块,用于根据附件状态,将附件数据以二进制数据的形式进行存储,并生成包含附件数据的附件导出指令。
由于本申请的数据导出系统是基于上述数据导出方法而提出的,所涉及的各个模块均用于实现上述方法的步骤,具体的工作原理和流程在此不再赘述,可参考数据导出方法中的内容。
根据本申请一实施方式的数据导出系统,在配置文件设置完成后,用户仅发出数据选择指令即可导出所需的目标数据,本申请具有普适性,使用门槛较低。本申请还能够对附件数据进行一并导出,保证了数据的完整性。另外,还配置有数据校验规则,能够有效地对无效数据进行先治理后导出,保证了导出的目标数据的有效性和可用性。
如上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明。应理解的是,以上所述仅为本发明的具体实施方式,并不用于限制本发明。凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等均应包含在本发明的保护范围之内。
- 上一篇:石墨接头机器人自动装卡簧、装栓机
- 下一篇:数据整合方法、系统及计算机可读存储介质