变体文本的识别方法、装置及电子设备

文档序号:8272 发布日期:2021-09-17 浏览:49次 英文

变体文本的识别方法、装置及电子设备

技术领域

本申请涉及计算机

技术领域

,特别涉及一种变体文本的识别方法、装置及电子设备。

背景技术

用户在联网应用程序运行过程中,会发布信息与其他用户进行交流。然而在大量的发布信息中,不可避免地存在恶意用户发布的恶意聊天文本。而这些聊天文本为避免被识别,通常都采用变形字体进行规避,例如“←→薇←→199←→2638←→723←→”“jia维→xinI0230燃逅66183”等。为此,相关技术中,通过匹配“微信、电话、邮件、加”等引导词,以及号码、电话号码、url链接的正则表达式匹配文本字符落,根据匹配结果识别变体文本。但是该方案的准确率较低,比如“大哥威信太高了,战力2056421”会被识别为变体字符,导致最终变体文本识别的结果不准确,进而影响后续对封禁文本的选择。

发明内容

本申请的目的在于至少解决现有技术中存在的技术问题之一,提供一种变体文本的识别方法、装置以及电子设备,提高对变体文本的识别准确率和识别效率。

第一方面,本申请实施例提供一种变体文本的识别方法,包括:

获取待识别文本;

从所述待识别文本中获取第一目标字符的位置,根据所述第一目标字符的位置,在所述待识别文本中检测与所述第一目标字符之间存在预设字符间隔的第一文本字符,并在检测到所述第一文本字符为数字串时,从所述待识别文本中删除所述第一目标字符和所述第一文本字符;

根据删除所述第一目标字符和所述第一文本字符后的待识别文本,确定所述目标文本,对所述目标文本进行变体字转换后,进行引导词匹配;

若匹配到引导词,则将所述待识别文本标记为变体文本。

通过获取第一目标字符的位置,根据第一目标字符的位置从文本中提取出与第一目标字符之间存在预设字符间隔的数字串进行删除,以得到目标文本进行变体字识别,从而减少了相关技术中会对存在数字串的常规文本误识别为变体文本的可能性,提高对变体文本的识别准确率。同时在进行变体文本识别时,若待识别文本中已删除了部分文本,则能够减少后续进行变体文本识别时的文本长度,从而减少需要进行变体文本识别的文本量,进而节省后续进行变体文本识别的识别时间,提高识别效率。

进一步的,根据删除所述第一目标字符和所述第一文本字符的待识别文本,确定所述目标文本,包括:

将删除所述第一目标字符和所述第一文本字符的待识别文本,标记为剩余文本;

从所述剩余文本中获取第二目标字符的位置,根据所述第二目标字符的位置,在所述剩余文本中检测与所述第二目标字符相邻的第二文本字符,并在检测到所述第二文本字符与所述第二目标字符组成预设字符时,从所述剩余文本中删除所述第二目标字符和所述第二文本字符,确定所述目标文本。

进一步的,在对所述目标文本进行变体字转换之前,还包括:

根据各预设变体字符对所述目标文本进行匹配;

若匹配到所述预设变体字符,则将所述待识别文本标记为变体文本;

若未匹配到所述预设变体字符,则对所述目标文本进行变体字转换。

进一步的,若匹配到所述预设变体字符,则将所述待识别文本标记为变体文本,包括:

若匹配到所述预设变体字符,则根据所述待识别文本匹配到的预设变体字符,获取所述目标文本的目标分值,并在所述目标分值大于预设阈值时,将所述待识别文本标记为变体文本。

进一步的,还包括:

在所述目标分值小于或等于预设阈值时,对所述目标文本进行变体字转换。

进一步的,对所述目标文本进行变体字转换,包括:

对所述目标文本进行音码转换。

进一步的,还包括:

对音码转换后的所述目标文本根据预设映射表进行映射处理。

第二方面,在本申请实施例中,还提供了一种变体文本的识别装置,包括:

文本获取模块,用于获取待识别文本;

文本处理模块,用于从所述待识别文本中获取第一目标字符的位置,根据所述第一目标字符的位置,在所述待识别文本中检测与所述第一目标字符之间存在预设字符间隔的第一文本字符,并在检测到所述第一文本字符为数字串时,从所述待识别文本中删除所述第一目标字符和所述第一文本字符;

文本匹配模块,用于根据删除所述第一目标字符和所述第一文本字符后的待识别文本,确定所述目标文本,对所述目标文本进行变体字转换后,进行引导词匹配;

文本识别模块,用于若匹配到引导词,则将所述待识别文本标记为变体文本。

第三方面,本申请实施例提供一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述实施例所述的变体文本的识别方法。

第四方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如上述实施例所述的变体文本的识别方法。

附图说明

下面结合附图和实施例对本申请进一步地说明;

图1为一个实施例中变体文本的识别方法的应用环境图;

图2为一个实施例中变体文本的识别方法的流程示意图;

图3为一个实施例中变体文本的识别装置的结构框图;

图4为一个实施例中计算机设备的结构框图。

具体实施方式

本部分将详细描述本申请的具体实施例,本申请之较佳实施例在附图中示出,附图的作用在于用图形补充说明书文字部分的描述,使人能够直观地、形象地理解本申请的每个技术特征和整体技术方案,但其不能理解为对本申请保护范围的限制。

用户在联网应用程序运行过程,例如在网络游戏运行的过程中,会发布信息与其他用户进行交流。然而在大量的发布信息中,不可避免地存在恶意用户发布的拉人信息,其中拉人信息利用高福利等诱饵,对用户进行诱惑拉拢。一方面,这些恶意用户长时间刷屏,严重影响了正常用户的体验;另一方面,如果用户被拉去其他平台,将会增加用户的流失率,降低平台流量。为此,传统方式是通过获取用户的聊天文本,然后对用户的聊天文本进行识别,从聊天文本中提取出关键词后进行比对,以根据比对结果选择需要封禁的用户。

然而,当前很多恶意的聊天文本都采用变形字体进行规避,例如“←→薇←→199←→2638←→723←→”“jia维→xinI0230燃逅66183”等。为此,相关技术中,通过匹配“微信、电话、邮件、加”等引导词,以及号码、电话号码、url链接的正则表达式匹配文本字符落,根据匹配结果识别变体文本。但是该方案的准确率较低,会出现对存在数字串的常规文本误识别为变体文本的情况。比如“大哥威信太高了,战力2056421W”,由于存在敏感词“威信”加数字串“2056421”的组合,因此会被识别为变体字符,甚至可能只因为存在数字串“2056421”,也会被识别为变体字符,导致最终变体文本识别的结果不准确,进而影响后续对封禁文本的选择。

为了解决上述技术问题,在一实施例中,提供一种变体文本的识别方法,本实施例以该方法应用于一种变体文本的识别系统中的服务器来举例说明。如图1所示,是一个实施例中变体文本的识别方法的应用环境图。参照图1,该系统包括终端110和服务器120。终端110和本地服务器120通过网络连接。终端110具体可以是台式终端或移动终端移动终端可以是手机、平板电脑、笔记本电脑、可穿戴设备等中的一种。服务器120可以用独立的服务器或者是多个服务器组成的服务器群来实现,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端110上运行有客户端,客户端与服务器对应同一应用程序。客户端用于向服务器发送待识别文本。服务器用于获取待识别文本中第一目标字符的位置后,对与第一目标字符之间存在预设字符间隔的第一文本字符进行检测。若该第一文本字符为数字串时,则从待识别文本中删除目标字符和文本字符,以根据删除第一目标字符和第一文本字符的待识别文本确定目标文本后,对目标文本进行变体识别。当识别到目标文本为变体文本时,将待识别文本标记为变体文本,使得后续可对该待识别文本进行封禁,同时还可对发布该待识别文本的用户进行封禁。

通过获取第一目标字符的位置,根据第一目标字符的位置从文本中提取出与第一目标字符之间存在预设字符间隔的数字串进行删除,以得到目标文本进行变体字识别,从而减少了相关技术中会对存在数字串的常规文本误识别为变体文本的可能性,提高对变体文本的识别准确率。同时在进行变体文本识别时,若待识别文本中已删除了部分文本,则能够减少后续进行变体文本识别时的文本长度,从而减少需要进行变体文本识别的文本量,进而节省后续进行变体文本识别的识别时间,提高识别效率。

下面,将通过几个具体的实施例对本申请实施例提供的变体文本的识别方法进行详细介绍和说明。

如图2所示,在一个实施例中,提供了一种变体文本的识别方法。本实施例主要以该方法应用于计算机设备来举例说明。该计算机设备具体可以是上述图1中的服务器120。

参照图2,该变体文本的识别方法具体包括如下步骤:

S11、获取待识别文本。

在一实施例中,为了进行变体文本的识别,服务器可以通过客户端中获取用户发送的聊天信息作为待识别文本,或者用户接收到的聊天信息作为待识别文本。示例性的,以客户端为网络游戏为例,获取用户在网络游戏的聊天频道或者与其他用户进行私聊时发送的聊天信息,如“大哥威信太高了,战力2056421,无人能及,我们也要加油!”作为待识别文本。或者,获取用户在客户端中接收到的推送信息,如“需要协助加boos1857进战盟君羊”作为待识别文本。

S12、从待识别文本中获取第一目标字符的位置,根据第一目标字符的位置,在待识别文本中检测与第一目标字符之间存在预设字符间隔的第一文本字符,并在检测到第一文本字符为数字串时,从待识别文本中删除第一目标字符和第一文本字符。

考虑到带有数字串的待识别文本有时候并非变体文本,特别是在游戏中,经常会在文本中出现对角色属性的评价,例如“我有2056421战力”、“还有100怒气”、“还有600积分”、“升到了30级”等类似的文本。因此为了避免将带有数字串的常规文本判断为变体文本,在一实施例中,预设有存在多个第一目标字符的目标字符库,第一目标字符中可包括根据各历史聊天文本中N次与数字串同时出现,且与数字串相邻的文本字符。如,历史文本中存在“我有2056421战力”、“一共2056421战力”、“他有2056421战力”等历史文本,其中,字符“战力”多次与数字串同时出现,此时则可将“战力”作为第一目标字符。第一目标字符还可包括根据需求自行进行预设的字符,以游戏客户端为例,由于“小时”、“分钟”、“评分”、“怒气”、“级”“积分”、“战力”等关键词结合数字,都是游戏交流中正常的数字组合,因此可将上述关键词预设为第一目标字符。

在一实施例中,预设字符间隔可以根据大量实验数据获得,也可以由本领域技术人员自行设置。优选的,在待识别文本中检测与第一目标字符之间存在预设字符间隔的第一文本字符,可以是将与第一目标字符相邻的文本字符作为第一文本字符进行检测。其中,文本字符包括文字、符号和字母和由连续的数字组成的数字串。考虑到语法的使用习惯,第一目标字符与数字串之间可能介词或存在表示单位的字母,如“他有2056421W战力”、“他的怒气值是100”等,因此示例性的,还可以将与目标字符存在一个字符间隔的文字字符作为第一文本字符进行检测。即预设字符间隔可包括0和/或1。当预设字符间隔为0时,则检测与第一目标字符相邻的第一文本字符;当预设字符间隔为1时,则检测与第一目标字符存在一个字符间隔的第一文本字符;预设字符间隔为0和1时,则检测与第一目标字符相邻的第一文本字符,以及检测与第一目标字符存在一个字符间隔的第一文本字符。

在检测到第一文本字符为数字串时,则从待识别文本中删除所述第一目标字符和所述第一文本字符。如识别到的第一目标字符为“战力”,待识别文本为“大哥威信太高了,战力2029W”,则从待识别文本中删除“战力2029”,得到文本“大哥威信太高了,W”。

S13、根据删除第一目标字符和第一文本字符后的待识别文本,确定目标文本,对目标文本进行变体字转换后,进行引导词匹配。

在一实施例中,可将删除第一目标字符和第一文本字符后的待识别文本,直接作为目标文本。然后通过预设的变体字转换词表,对目标文本进行变体字转换。变体字转换词表中存储有变体字转换关系,从而可根据变体字转换词表对目标文本进行变体字转换。其中,变体字转换词表存储有中-英文转换、文字-数字转换、符号/字母-文字转换等变体字转换关系。如“wechat”-“微信”,“一”-“1”,“jia/+”-“加”等。在对目标文本进行变体字转换后,可基于预先设置的引导词表,对变体字转换后的目标文本进行引导词匹配。例如,引导词可以为“微信”、“QQ”等。

考虑到除数字串外,某些词语也可能带有敏感字,但这些词语在文本中属于常规文本而非变体文本,例如“加油”、“微小”、“微笑”等词语中,存在“加”、“微”等敏感字,而这些敏感字通常会作为用于识别变体文本中的引导词,进而可能会导致将带有上述词语的待识别文本误识别为变体文本。为此,在一实施例中,从待识别文本中删除第一目标字符和第一文本字符后,将将删除第一目标字符和第一文本字符的待识别文本,标记为剩余文本;从剩余文本中获取第二目标字符的位置,根据第二目标字符的位置,在剩余文本中检测与第二目标字符相邻的第二文本字符,并在检测到第二文本字符与第二目标字符组成预设字符时,从待识别文本中删除第二目标字符和第二文本字符,确定目标文本。

其中,第二目标字符可为“微”、“加”等经常被列为引导词的字符,具体可以根据大量实验数据获得,也可以由本领域技术人员自行设置。第二目标字符与第一目标字符不为同一字符。预设字符包括有第二目标字符,可以根据实际情况进行预先设置,如可以是“微笑”、“微小”、“微风”等包含有第二目标字符的常用词。在检测到第二目标字符和第二文本字符组成预设字符时,则从剩余文本中删除所述第二目标字符和所述第二文本字符,以得到目标字符。

可以理解的,若在待识别文本中检测到第一文本字符不为数字串时,则将待识别文本直接标记为剩余文本。若在剩余文本中检测到第二文本字符与第二目标字符组成的字符不为预设字符时,则将剩余文本直接确定为目标文本。

通过检测第二文本字符与相邻的第二目标字符是否组成预设字符的方式,对待识别文本进行二次过滤,从而在进一步减少常规文本被误识别为变体文本的可能性的同时,进一步提高识别效率。

S14、若匹配到引导词,则将待识别文本标记为变体文本。

在一实施例中,如果匹配到引导词,则判断待识别文本为变体文本,从而对该变体文本进行封禁处理。若未匹配到引导词,则判断该待识别文本为正常文本,同时通过客户端发布该待识别文本。

通过获取第一目标字符的位置,根据第一目标字符的位置从文本中提取出与第一目标字符之间存在预设字符间隔的数字串进行删除,以得到目标文本进行变体字识别,从而减少了相关技术中会对存在数字串的常规文本误识别为变体文本的可能性,提高对变体文本的识别准确率。同时在进行变体文本识别时,若待识别文本中已删除了部分文本,则能够减少后续进行变体文本识别时的文本长度,从而减少需要进行变体文本识别的文本量,进而节省后续进行变体文本识别的识别时间,提高识别效率。

由于对目标文本进行变体文本识别时,需要先进行多次变体转换处理,再进行引导词匹配,此时若文本过长,则会导致变体文本的识别效率较慢。为提高变体文本的识别效率,在一实施例中,在对目标文本进行变体字转换之前,还包括:根据各预设变体字符对目标文本进行匹配;若匹配到预设变体字符,则将待识别文本标记为变体文本;若未匹配到预设变体字符,则对目标文本进行变体字转换。

在一实施例中,服务器预设有变体字符库,该变体字符库预存有多个预设变体字符,预设变体字符可以是汉字、阿拉伯数字、符号或英文等。变体字符库中存储的预设变体字符的数量少于变体字转换词表记载的字符数量。预设变体字符可根据大量实验数据获得,也可以由本领域技术人员自行设置。

在得到目标文本后,将目标文本与各预设变体字符进行匹配,若在目标文本中匹配到对应的预设变体字符时,则判断该文本为变体文本;若未匹配到,则对目标文本进行变体字转换。

通过在在进行变体字转换处理之前,先根据预设变体字符进行特征匹配,从而在进行变体字转换处理之前,也能够根据预设变体字符识别变体文本,节省后续对文本的处理时间,提高效率。

为进一步提高变体文本识别的结果的准确率,在一实施例中,若匹配到预设变体字符,则将待识别文本标记为变体文本,包括:若匹配到预设变体字符,则根据待识别文本匹配到的预设变体字符,获取目标文本的目标分值,并在目标分值大于预设阈值时,将待识别文本标记为变体文本。在目标分值小于或等于预设阈值时,对目标文本进行变体字转换。

在一实施例中,根据目标文本匹配到的预设变体字符,获取目标文本的目标分值,可根据预设的分值映射表,获取匹配到的每个预设变体字符的分数。其中,分值映射表存储有每个不同的预设变体字符与分数的对应关系,例如预设变体字符为“微信”、“加我”等,其对应关系为“微信”-“30分”,“加我”-“20”分。根据分值映射表,将从目标文本匹配到每个预设变体字符的分数进行加权,从而得到目标文本的目标分值。

在一实施例中,根据目标文本匹配到的预设变体字符,获取目标文本的目标分值,还可根据从目标文本中匹配到的预设变体字符的数量来确定。如服务器中预设有预设变体字符数量与目标评分的匹配关系,如“预设变体字符数量1”-“20分”。其中,预设变体字符数量对应的目标评分可根据实际需求进行预先设置,只需满足预设变体字符数量与对应的目标评分呈正比,即预设变体字符数量越多,对应的目标评分越高的映射关系即可。

在进行变体字转换处理之前,可根据预设变体字符的评分值识别变体文本,通过识别目标文本中的预设变体字符进行打分的方式,实现了规则化的变体文本识别策略,提高了算法的准确率和变体文本识别的准确率。

在一实施例中,在对目标文本进行变体字转换时,可以将目标文本中的汉字进行音码转换,将与数字同音的汉字同一转换为阿拉伯数字,进而对音码转换后的目标文本进行引导词匹配。例如“加微信12三45678”进行音码转换后,变为“加微信12345678”。

为进一步提高变体字转换的准确率,在一实施例中,在将目标文本中的汉字进行音码转换后,还可对音码转换后的目标文本根据预设映射表进行映射处理。其中,服务器设置有预设映射表,预设映射表预先存储有符号与字母、汉字本体或数字的映射关系,以将文本中形似字母、可疑敏感字的符号映射成字母或汉字本体。如“加我wei亻言哇:¥$12359”,根据预设映射表进行映射处理后,可得到“加我wei亻言哇:YS12359”。

在对音码转换后的目标文本根据预设映射表进行映射处理后,还可对映射处理后的文本进行编码-解码处理,从而获取最终文本进行引导词匹配。如“需要协助boos1857进战盟君羊”,通过编码-解码处理后,可得到“需要协助boos1857进战盟君羊”。

在一个实施例中,如图3所示,提供了一种变体文本的识别装置,包括:

文本获取模块101,用于获取待识别文本。

文本处理模块102,用于从待识别文本中获取第一目标字符的位置,根据第一目标字符的位置,在待识别文本中检测与第一目标字符之间存在预设字符间隔的第一文本字符,并在检测到第一文本字符为数字串时,从待识别文本中删除第一目标字符和第一文本字符。

文本匹配模块103,用于根据删除第一目标字符和第一文本字符后的待识别文本,确定目标文本,对目标文本进行变体字转换后,进行引导词匹配。

文本识别模块104,用于若匹配到引导词,则将待识别文本标记为变体文本。

在一实施例中,文本匹配模块103,还用于:将删除第一目标字符和第一文本字符的待识别文本,标记为剩余文本;从剩余文本中获取第二目标字符的位置,根据第二目标字符的位置,在剩余文本中检测与第二目标字符相邻的第二文本字符,并在检测到第二文本字符与第二目标字符组成预设字符时,从剩余文本中删除第二目标字符和第二文本字符,确定目标文本。

在一实施例中,在对目标文本进行变体字转换之前,文本匹配模块103还用于:根据各预设变体字符对目标文本进行匹配;若匹配到预设变体字符,则将待识别文本标记为变体文本;若未匹配到预设变体字符,则对目标文本进行变体字转换。

在一实施例中,文本匹配模块103还用于:若匹配到预设变体字符,则根据待识别文本匹配到的预设变体字符,获取目标文本的目标分值,并在目标分值大于预设阈值时,将待识别文本标记为变体文本。

在一实施例中,文本匹配模块103还用于:在目标分值小于或等于预设阈值时,对目标文本进行变体字转换。

在一实施例中,文本匹配模块103还用于:对目标文本进行音码转换。

在一实施例中,文本匹配模块103还用于:对音码转换后的目标文本根据预设映射表进行映射处理。

在一个实施例中,提供了一种计算机设备,如图4所示,该计算机设备包括该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、输入装置和显示屏。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现变体文本的识别方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行变体文本的识别方法。本领域技术人员可以理解,图4中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。

在一个实施例中,本申请提供的变体文本的识别装置可以实现为一种计算机程序的形式,计算机程序可在如图4所示的计算机设备上运行。计算机设备的存储器中可存储组成该变体文本的识别装置的各个程序模块。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的变体文本的识别方法中的步骤。

在一个实施例中,提供了一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时执行上述变体文本的识别方法的步骤。此处变体文本的识别方法的步骤可以是上述各个实施例的变体文本的识别方法中的步骤。

在一个实施例中,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行上述变体文本的识别方法的步骤。此处变体文本的识别方法的步骤可以是上述各个实施例的变体文本的识别方法中的步骤。

以上所述是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本申请的保护范围。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。

完整详细技术资料下载
上一篇:石墨接头机器人自动装卡簧、装栓机
下一篇:基于RPA及AI的信息抽取方法、装置、设备及介质

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!