一种基于文本数据的标准化处理方法及设备
技术领域
本申请涉及计算机
技术领域
,尤其涉及一种基于文本数据的标准化处理方法及设备。背景技术
现有技术中,在数据与日俱增的情况下,数据已经发展为一个具有很大潜力的数据资产。但是不同平台,不同公司等不同渠道产生的数据的格式并不是完全相同的,因此也就无法进行统一的进行标准化处理。例如:一平台有一部分文本数据全是商品的标题,另一平台又是一部分文本数据,也是商品的标题,但如何统计这两个平台中的文本数据中有多少个品牌,如何统计文本数据中各个颜色的商品数量。由于数据是文本的形式,因此无法针对各项数据指标进行深度挖掘,无法获取其中的最大的数据价值。
发明内容
本申请的一个目的是提供一种基于文本数据的标准化处理方法及设备,实现了对文本数据的标准化处理,以便后续深度挖掘数据资产的价值。
根据本申请的一个方面,提供了一种基于文本数据的标准化处理方法,其中,所述方法包括:
确定待处理的至少一条原始文本数据对应的目标数据类型;
调用与所述目标数据类型对应的目标数据字典,所述目标数据字典包括至少一个分类字段及每个所述分类字段对应的一个或多个预设数据对象;
基于所述目标数据字典对所述至少一条原始文本数据进行标准化处理,得到所述至少一条原始文本数据对应的标准化数据结构数据,其中,所述标准化数据结构数据包括所述至少一个分类字段中的一个或多个分类字段及所述一个或多个分类字段中的每个分类字段对应的一个或多个目标数据对象。
进一步地,上述方法中,所述确定待处理的至少一条原始文本数据对应的目标数据类型,包括:
获取待处理的至少一条原始文本数据;
对所述至少一条原始文本数据进行可提取字段的预判,确定所述至少一条原始文本数据对应的目标数据类型。
进一步地,上述方法中,所述方法还包括:
预置不同数据类型对应的数据字典,所述数据字典包括至少一个字段及每个所述字段对应的一个或多个预设数据对象。
进一步地,上述方法中,所述基于所述目标数据字典对所述至少一条原始文本数据进行标准化处理,得到所述至少一条原始文本数据对应的标准化数据结构数据,其中,所述标准化数据结构数据包括所述至少一个分类字段中的一个或多个分类字段及所述一个或多个分类字段中的每个分类字段对应的一个或多个目标数据对象,包括:
对所述至少一条原始文本数据中的每条原始文本数据进行大小写转换、空格去除及特殊字符的过滤,得到预处理后的至少一条原始文本数据;
基于所述目标数据字典对所述预处理后的至少一条原始文本数据依序进行分词处理,得到所述至少一条原始文本数据对应的所述一个或多个分类字段及所述一个或多个分类字段中的每个分类字段对应的一个或多个预设数据对象;
基于所述目标数据字典对所述一个或多个分类字段中的每个分类字段对应的一个或多个预设数据对象进行字段信息的标注,得到所述一个或多个分类字段中的每个分类字段对应的一个或多个目标数据对象,以得到所述至少一条原始文本数据对应的标准化数据结构数据。
根据本申请的另一方面,还提供了一种非易失性存储介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行时,使所述处理器实现如上述基于文本数据的标准化处理方法。
根据本申请的另一方面,还提供了一种基于文本数据的标准化处理设备,其中,该设备包括:
一个或多个处理器;
计算机可读介质,用于存储一个或多个计算机可读指令,
当所述一个或多个计算机可读指令被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述基于文本数据的标准化处理方法。
与现有技术相比,本申请通过先确定待处理的至少一条原始文本数据对应的目标数据类型;然后,调用与所述目标数据类型对应的目标数据字典,所述目标数据字典包括至少一个分类字段及每个所述分类字段对应的一个或多个预设数据对象;最后,基于所述目标数据字典对所述至少一条原始文本数据进行标准化处理,得到所述至少一条原始文本数据对应的标准化数据结构数据,其中,所述标准化数据结构数据包括所述至少一个分类字段中的一个或多个分类字段及所述一个或多个分类字段中的每个分类字段对应的一个或多个目标数据对象,实现了对文本数据的标准化处理,以便后续深度挖掘数据资产的价值。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1示出根据本申请一个方面的一种基于文本数据的标准化处理方法的流程示意图;
图2示出根据本申请一个方面的一种基于文本数据的标准化处理方法的一实际应用场景的示意图;
图3示出根据本申请一个方面的一种基于文本数据的标准化处理方法在实际应用场景中的流程示意图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本申请作进一步详细描述。
在本申请一个典型的配置中,终端、服务网络的设备和可信方均包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
如图1所示,本申请的一个方面提出了一种基于文本数据的标准化处理方法的流程示意图,其中,所述方法包括步骤S11、步骤S12及步骤S13,具体包括如下步骤:
步骤S11,确定待处理的至少一条原始文本数据对应的目标数据类型;在此,所述目标数据类型包括但不限于智能终端类、销售类、论文类、金融类及成绩类等各个应用领域对应数据的类型。
步骤S12,调用与所述目标数据类型对应的目标数据字典,所述目标数据字典包括至少一个分类字段及每个所述分类字段对应的一个或多个预设数据对象。例如,若所述目标数据类型为手机类,则与所述手机类对应的目标数据字典包括的分类字段可以有品牌、型号、颜色、内存、网络制式及备注等,其中,所述网络制式用于指示手机可支持的数据网络,比如移动、连通、及电信中的一项或多项。
步骤S13,基于所述目标数据字典对所述至少一条原始文本数据进行标准化处理,得到所述至少一条原始文本数据对应的标准化数据结构数据,其中,所述标准化数据结构数据包括所述至少一个分类字段中的一个或多个分类字段及所述一个或多个分类字段中的每个分类字段对应的一个或多个目标数据对象,使得通过上述步骤S11至步骤S13实现了对文本数据的标准化处理,以便后续深度挖掘数据资产的价值。
如图2所示,若在步骤S11中获取的待处理的原始文本数据为三条,分别为图2中的前三行原始文本数据,每一行代表一条原始文本数据,并通过这三条原始文本数据确定该三条原始文本数据对应的目标数据类型为手机型;在步骤S12中,调用与所述目标数据类型:手机型对应的目标数据字典,所述目标数据字典包括至少一个分类字段及每个所述分类字段对应的一个或多个预设数据对象,在此,手机型对应的目标数据字典包括的分类字段包括图2中所示的品牌、型号、颜色、内存、网络制式及备注等,其中,所述网络制式用于指示手机可支持的数据网络,比如移动、连通、及电信中的一项或多项;在步骤S13中,基于与手机型对应的目标数据字典对图2中的三条原始文本数据进行标准化处理,得到所述三条原始文本数据对应的标准化数据结构数据,如图2中箭头所指的表格内容,实现了对图1中前三行对应的三条原始文本数据的标准化处理,以便后续深度挖掘数据资产的价值。
进一步地,所述步骤S11确定待处理的至少一条原始文本数据对应的目标数据类型,具体包括:
获取待处理的至少一条原始文本数据;
对所述至少一条原始文本数据进行可提取字段的预判,确定所述至少一条原始文本数据对应的目标数据类型。
例如,为了对待处理的一条或多条原始文本数据进行标准化处理,先需要获取待处理的至少一条原始文本数据,如图2所示的前三行分别对应的三条原始文本数据,然后根据所述三行原始文本数据可以初步判断该三行原始文本数据可以提取到的字段都有哪些,比如,预判的结果为该三条原始文本数据可以提取的字段有品牌、型号、颜色、内存、网络制式及备注等,从而可以根据可以提取的字段的分类确定出该三行原始文本数据对应的目标数据类型,实现对这三条原始文本数据进行可提取的字段的预判的同时,可以确定该三条原始文本数据对应的目标数据类型,即实现对待处理的原始文本数据的类型范围进行限定,比如将图2所示的前三行对应的三条原始文本数据界定为手机类的原始文本数据。
进一步地,本申请实施例提供的一种基于文本数据的标准化处理方法还包括:
预置不同数据类型对应的数据字典,所述数据字典包括至少一个字段及每个所述字段对应的一个或多个预设数据对象。
例如,在实际应用场景中,获取的待处理的原始文本数据可能存在不同的数据类型,比如手机、电脑等智能终端类、销售类、论文类、金融类及成绩类等各个应用领域对应数据的类型,为了便于对不同的数据类型对应的原始文本数据进行定向地标准化处理,本申请的实施例中还需要预置不同的数据类型对应的数据字典,所述数据字典包括需要提取待处理的原始文本数据中的至少一个字段及每个所述字段对应的一个或多个预设数据对象,即不同的数据类型对应的数据字典不同,以便后续对不同的数据类型对应的原始文本数据进行对应的数据字典的处理,从而达到对不同的数据类型对应的原始文本数据进行定向地标准化处理的目的。
进一步地,所述步骤S13基于所述目标数据字典对所述至少一条原始文本数据进行标准化处理,得到所述至少一条原始文本数据对应的标准化数据结构数据,其中,所述标准化数据结构数据包括所述至少一个分类字段中的一个或多个分类字段及所述一个或多个分类字段中的每个分类字段对应的一个或多个目标数据对象,具体包括:
对所述至少一条原始文本数据中的每条原始文本数据进行大小写转换、空格去除及特殊字符的过滤,得到预处理后的至少一条原始文本数据;
基于所述目标数据字典对所述预处理后的至少一条原始文本数据依序进行分词处理,得到所述至少一条原始文本数据对应的所述一个或多个分类字段及所述一个或多个分类字段中的每个分类字段对应的一个或多个预设数据对象;
基于所述目标数据字典对所述一个或多个分类字段中的每个分类字段对应的一个或多个预设数据对象进行字段信息的标注,得到所述一个或多个分类字段中的每个分类字段对应的一个或多个目标数据对象,以得到所述至少一条原始文本数据对应的标准化数据结构数据。
例如,如图3所示的文本数据示例的三条原始文本数据,在对这三条原始文本数据采用对应的目标数据类型对应的目标数据字典进行标准化处理之前,需要对这三条原始文本数据中的每条原始文本数据进行大小写的转换、去除空格及将特殊字符过滤掉,以便预处理后的每条原始文本数据能够符合数据字典的映射;然后,采用与这三条原始文本数据的手机类对应的目标数据字典对预处理后的每条原始文本数据进行分词处理,得到这三条原始文本数据对应的多个分类字段及每个分类字段对应的一个或多个预设数据对象,如图3中所示的分词分别存储到列的右侧对应的表格内容,实现了对这三条原始文本数据的分类字段的提取,分别为:品牌、型号、颜色、内存、网络制式及备注等,及每个分类字段对应的一个或多个预设数据对象,比如分类字段:品牌对应的预设数据对象有100、200等,分类字段:型号对应的预设数据对象有10000、10001等等,以得到这三条原始文本数据提取出的所有的分类字段对应的一个或多个预设数据对象;最后,基于与手机类对应的目标数据字典对图3中所示的所有分类字段中的每个分类字段对应的一个或多个预设数据对象进行字段信息的标注,得到每个分类字段对应的一个或多个目标数据对象,如图3标准化存储右侧对应的表格内容,得到这三条原始文本数据的标准化数据结构数据,实现了对每个分类字段的实际字段信息的标注和映射,比如分类字段:品牌有苹果、华为及小米等,分类字段:颜色有绿、冰晶粉及冰峰黑等,以得到每个分类字段对应的一个或多个实际的目标数据对象,从而实现对图3中的三条原始文本数据的标准化处理,以得到如图3标准化存储右侧对应的表格内容的标准化数据结构数据。
在本申请一实施例提供的一种基于文本数据的标准化处理方法的实际应用场景中,具体的处理流程可以包括如下步骤:
第一步,对待处理的原始文本数据的分类进行界定,比如图3中所示的文本数据示例的数据类型为手机类,因此将图3中三条原始文本数据界定为手机类。
第二步,根据这三条原始文本信息可以初步判断这三条原始文本数据中可以提取到的一个或多个字段的分类信息,以得到图3中所示的三条原始文本数据的分类字段,分别为:品牌、型号、颜色、内存及网络制式等分类信息。
第三步,根据第二步整理的分类字段进行分类字典数据的整理。例如:分类字段:品牌,收集手机类的所有品牌信息,把中英文的品牌均进行整理为一份字典,数据格式为key-vaule对的字典形式,例如苹果:100;iphone:100;华为:200及huawei:200等分类字段对应的预设数据对象,其他的字段信息依此类推进行字典数据的整理。
第四步,对所有的分类字段及其预设数据对象进行合并,然后整理为手机类对应的数据字典。
第五步,对图3中的三条原始文本数据进行分词操作,分词前需要对原始文本数据进行大小写想转换、对空格去除及对特殊字符进行过滤等操作,然后基于手机类对应的目标数据字典对着处理后的三条原始文本数据进行分词操作,得到如图3所示的分词结果,然后根据分词结果对每一行整理后的数据进行了字段信息的标注,从而得到标准化数据结构数据,还实现了将原始文本数据处理为了标准化数据结构数据,以便供给下游进行数据的深度挖掘和分析,大大提高了原始文本数据的数据资产价值,更大大降低了原始文本数据的数据分析成本。
根据本申请的另一方面,还提供了一种非易失性存储介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行时,使所述处理器实现如上述基于文本数据的标准化处理方法。
根据本申请的另一方面,还提供了一种基于文本数据的标准化处理设备,其中,该设备包括:
一个或多个处理器;
计算机可读介质,用于存储一个或多个计算机可读指令,
当所述一个或多个计算机可读指令被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述基于文本数据的标准化处理方法。
在此,所述基于文本数据的标准化处理设备中的各实施例的详细内容,具体可参见上述基于文本数据的标准化处理方法的实施例的对应部分,在此,不再赘述。
综上所述,本申请通过先确定待处理的至少一条原始文本数据对应的目标数据类型;然后,调用与所述目标数据类型对应的目标数据字典,所述目标数据字典包括至少一个分类字段及每个所述分类字段对应的一个或多个预设数据对象;最后,基于所述目标数据字典对所述至少一条原始文本数据进行标准化处理,得到所述至少一条原始文本数据对应的标准化数据结构数据,其中,所述标准化数据结构数据包括所述至少一个分类字段中的一个或多个分类字段及所述一个或多个分类字段中的每个分类字段对应的一个或多个目标数据对象,实现了对文本数据的标准化处理,以便后续深度挖掘数据资产的价值。
需要注意的是,本申请可在软件和/或软件与硬件的组合体中被实施,例如,可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中,本申请的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本申请的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本申请的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。
另外,本申请的一部分可被应用为计算机程序产品,例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本申请的方法和/或技术方案。而调用本申请的方法的程序指令,可能被存储在固定的或可移动的记录介质中,和/或通过广播或其他信号承载媒体中的数据流而被传输,和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此,根据本申请的一个实施例包括一个装置,该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该装置运行基于前述根据本申请的多个实施例的方法和/或技术方案。
对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其他的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。