在线客服场景下的文本内容敏感词过滤替换的方法及系统
技术领域
本发明涉及客服机器人
技术领域
,特别涉及一种在线客服场景下的文本内容敏感词过滤替换的方法及系统。背景技术
目前,在线客服机器人在接待访客时,在其与访客进行纯文本交流的过程中,需要对访客输入的文本进行敏感词过滤替换,以维护正常的网络秩序,目前进行敏感词过滤替换大多使用机器学习的方法发现敏感词进行过滤替换,但是,其使用成本较高。
发明内容
本发明目的之一在于提供了一种在线客服场景下的文本内容敏感词过滤替换的方法及系统,基于敏感词库对数据桶进行配置,当数据桶配置完成后,基于数据桶对需要进行敏感词过滤替换的文本进行敏感词过滤替换,最后输出过滤替换后的目标文本,使用简单且使用成本较低。
本发明实施例提供的一种在线客服场景下的文本内容敏感词过滤替换的方法,包括:
步骤S1:创建数据桶;
步骤S2:获取预设的多个敏感词库,基于敏感词库对数据桶进行配置;
步骤S3:获取需要进行敏感词过滤替换的文本;
步骤S4:基于配置完成的数据桶对文本进行敏感词过滤替换,获得目标文本,输出目标文本。
优选的,步骤S2中,基于敏感词库对数据桶进行配置,包括:
获取敏感词库的特征信息,特征信息包括:匹配长度和触发概率;
查询预设的节点对照表,确定数据桶中对应于触发概率的节点;
基于红黑树将触发概率对应的敏感词库存储于节点上。
优选的,步骤S4:基于配置完成的数据桶对文本进行敏感词过滤替换,包括:
对文本进行分词处理,获得多个第一目标词;
将第一目标词在数据桶中进行索引;
将当前进行索引的对应节点作为目标节点,将目标节点上匹配长度小于等于第一目标词的文本长度的敏感词库作为目标敏感词库;
将第一目标词与目标敏感词库中的第二目标词进行匹配;
当全部第一目标词在全部节点上均完成索引后,将文本中匹配符合次数大于等于预设次数阈值的第一目标词替换成预设的替换文本,获得目标文本。
优选的,步骤S4中,输出目标文本之前,还包括:
对目标文本进行预处理;
其中,对目标文本进行预处理,包括:
将文本中需要替换成替换文本的任一第一目标词作为第三目标词;
提取第三目标词的第一特征;
建立触发特征数据库,将第一特征与触发特征数据库中的第二特征进行匹配,若匹配符合,获取匹配符合的第二特征的特征类型;
查询预设的查询方向对照表,确定特征类型对应的至少一个查询方向;
确定第三目标词在文本中的第一位置;
获取文本中在第一位置的查询方向上预设第一数量的第四目标词;
提取第四目标词的第三特征;
获取预设的近似敏感特征数据库,将第三特征与近似敏感特征数据库中的第四特征进行匹配,若匹配符合,确定第四目标词在文本中的第二位置;
获取文本中在第二位置前和/或后预设第二数量的第五目标词;
提取第五目标词的第五特征;
获取预设的否定特征数据库,将第五特征与否定特征数据库中的第六特征进行匹配,若匹配不符合,将与第四特征匹配符合的第三特征对应的第四目标词替换成替换文本;
当目标文本中需要替换成替换文本的第四目标词全部替换完成后,完成预处理。
优选的,建立触发特征数据库,包括:
分别获取预设的触发词集合和预设的近似敏感词数据库;
查询预设的关联触发词对照表,确定触发词集合中每个触发词对应的至少一个关联触发词;
创建第一事件,第一事件包括:敏感语句中包含触发词,且在敏感语句中触发词前和/或后预设文本长度范围内出现至少一个近似敏感词数据库中的近似敏感词;
创建第二事件,第二事件包括:敏感语句中包含关联触发词,且在敏感语句中关联触发词前/和后预设文本长度范围内出现至少一个近似敏感词数据库中的近似敏感词;
分别获取敏感语句大数据和预设的评价模型;
使用评价模型分别评价第一事件和第二事件在敏感语句大数据中的发生情况;
获取评价模型对第一事件进行评价后输出的多个第一评价值以及对第二事件进行评价后输出的多个第二评价值;
基于第一评价值和第二评价值计算评价指数,计算公式如下:
其中,σ为评价指数,θ1,i为第i个第一评价值,θ2,i为第i个第二评价值,α为第一评价值的总数目,β为第二评价值的总数目,O1和O2为预设的权重值,O2>1>O1>0,γ为中间变量,μ1为第一评价值中小于等于预设的第一评价值阈值的第一评价值的第一个数,μ2为第二评价值中小于等于预设的第二评价值阈值的第二评价值的第二个数,μ0为预设的个数阈值,and为且,else为其它;
获取预设的空白数据库,若评价指数大于等于预设的评价指数阈值,提取触发词的第七特征以及与触发词对应的全部关联触发词第八特征,将第七特征和第八特征存入空白数据库;
当触发词集合中需要存入空白数据库的触发词的第七特征以及对应全部关联触发词的第八特征均存入空白数据库后,将空白数据库作为触发特征数据库,完成建立。
本发明实施例提供的一种在线客服场景下的文本内容敏感词过滤替换的系统,包括:
创建模块,用于创建数据桶;
配置模块,用于获取预设的多个敏感词库,基于敏感词库对数据桶进行配置;
获取模块,用于获取需要进行敏感词过滤替换的文本;
过滤替换模块,用于基于配置完成的数据桶对文本进行敏感词过滤替换,获得目标文本,输出目标文本。
优选的,配置模块执行如下操作:
获取敏感词库的特征信息,特征信息包括:匹配长度和触发概率;
查询预设的节点对照表,确定数据桶中对应于触发概率的节点;
基于红黑树将触发概率对应的敏感词库存储于节点上。
优选的,过滤替换模块执行如下操作:
对文本进行分词处理,获得多个第一目标词;
将第一目标词在数据桶中进行索引;
将当前进行索引的对应节点作为目标节点,将目标节点上匹配长度小于等于第一目标词的文本长度的敏感词库作为目标敏感词库;
将第一目标词与目标敏感词库中的第二目标词进行匹配;
当全部第一目标词在全部节点上均完成索引后,将文本中匹配符合次数大于等于预设次数阈值的第一目标词替换成预设的替换文本,获得目标文本。
优选的,过滤替换模块还执行如下操作:
对目标文本进行预处理;
其中,过滤替换模块对目标文本进行预处理,具体执行如下操作:
将文本中需要替换成替换文本的任一第一目标词作为第三目标词;
提取第三目标词的第一特征;
建立触发特征数据库,将第一特征与触发特征数据库中的第二特征进行匹配,若匹配符合,获取匹配符合的第二特征的特征类型;
查询预设的查询方向对照表,确定特征类型对应的至少一个查询方向;
确定第三目标词在文本中的第一位置;
获取文本中在第一位置的查询方向上预设第一数量的第四目标词;
提取第四目标词的第三特征;
获取预设的近似敏感特征数据库,将第三特征与近似敏感特征数据库中的第四特征进行匹配,若匹配符合,确定第四目标词在文本中的第二位置;
获取文本中在第二位置前和/或后预设第二数量的第五目标词;
提取第五目标词的第五特征;
获取预设的否定特征数据库,将第五特征与否定特征数据库中的第六特征进行匹配,若匹配不符合,将与第四特征匹配符合的第三特征对应的第四目标词替换成替换文本;
当目标文本中需要替换成替换文本的第四目标词全部替换完成后,完成预处理。
优选的,过滤替换模块建立触发特征数据,具体执行如下操作:
分别获取预设的触发词集合和预设的近似敏感词数据库;
查询预设的关联触发词对照表,确定触发词集合中每个触发词对应的至少一个关联触发词;
创建第一事件,第一事件包括:敏感语句中包含触发词,且在敏感语句中触发词前和/或后预设文本长度范围内出现至少一个近似敏感词数据库中的近似敏感词;
创建第二事件,第二事件包括:敏感语句中包含关联触发词,且在敏感语句中关联触发词前/和后预设文本长度范围内出现至少一个近似敏感词数据库中的近似敏感词;
分别获取敏感语句大数据和预设的评价模型;
使用评价模型分别评价第一事件和第二事件在敏感语句大数据中的发生情况;
获取评价模型对第一事件进行评价后输出的多个第一评价值以及对第二事件进行评价后输出的多个第二评价值;
基于第一评价值和第二评价值计算评价指数,计算公式如下:
其中,σ为评价指数,θ1,i为第i个第一评价值,θ2,i为第i个第二评价值,α为第一评价值的总数目,β为第二评价值的总数目,O1和O2为预设的权重值,O2>1>O1>0,γ为中间变量,μ1为第一评价值中小于等于预设的第一评价值阈值的第一评价值的第一个数,μ2为第二评价值中小于等于预设的第二评价值阈值的第二评价值的第二个数,μ0为预设的个数阈值,and为且,else为其它;
获取预设的空白数据库,若评价指数大于等于预设的评价指数阈值,提取触发词的第七特征以及与触发词对应的全部关联触发词第八特征,将第七特征和第八特征存入空白数据库;
当触发词集合中需要存入空白数据库的触发词的第七特征以及对应全部关联触发词的第八特征均存入空白数据库后,将空白数据库作为触发特征数据库,完成建立。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中一种在线客服场景下的文本内容敏感词过滤替换的方法的流程图;
图2为本发明实施例中一种在线客服场景下的文本内容敏感词过滤替换的系统的示意图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
本发明实施例提供了一种在线客服场景下的文本内容敏感词过滤替换的方法,如图1所示,包括:
步骤S1:创建数据桶;
步骤S2:获取预设的多个敏感词库,基于敏感词库对数据桶进行配置;
步骤S3:获取需要进行敏感词过滤替换的文本;
步骤S4:基于配置完成的数据桶对文本进行敏感词过滤替换,获得目标文本,输出目标文本。
上述技术方案的工作原理及有益效果为:
预设的多个敏感词库具体为:多个包含大量敏感词的数据库;创建数据桶,基于敏感词库对数据桶进行配置,获取需要进行敏感词过滤替换的文本(例如:用户输入的文本,从互联网中获取的用作回答用户某问题的答案文本),基于配置完成的数据桶对该文本进行过滤替换,获得目标文本,输出(显示)该目标文本;
本发明实施例基于敏感词库对数据桶进行配置,当数据桶配置完成后,基于数据桶对需要进行敏感词过滤替换的文本进行敏感词过滤替换,最后输出过滤替换后的目标文本,使用简单且使用成本较低。
本发明实施例提供了一种在线客服场景下的文本内容敏感词过滤替换的方法,步骤S2中,基于敏感词库对数据桶进行配置,包括:
获取敏感词库的特征信息,特征信息包括:匹配长度和触发概率;
查询预设的节点对照表,确定数据桶中对应于触发概率的节点;
基于红黑树将触发概率对应的敏感词库存储于节点上。
上述技术方案的工作原理及有益效果为:
预设的节点对照表具体为:由后台人员事先制成,包含多个对照项,每个对照项包含一个触发概率区间和一个数据桶的节点,对照时,当某触发概率落在触发概率区间内时,输出对应节点即可;每个敏感词库均对应有一个特征信息,包含匹配长度(对应敏感词库内的敏感词的一致文本长度)和触发概率(可基于历史敏感词过滤替换数据确定对应敏感词库内的敏感词在历史上在获取到的文本中出现的概率获得);基于红黑树(自平衡二叉查找树数据结构)将敏感词数据库存储于对应节点上,使用红黑树,便于后期在索引时,提升索引的效率。
本发明实施例提供了一种在线客服场景下的文本内容敏感词过滤替换的方法,步骤S4:基于配置完成的数据桶对文本进行敏感词过滤替换,包括:
对文本进行分词处理,获得多个第一目标词;
将第一目标词在数据桶中进行索引;
将当前进行索引的对应节点作为目标节点,将目标节点上匹配长度小于等于第一目标词的文本长度的敏感词库作为目标敏感词库;
将第一目标词与目标敏感词库中的第二目标词进行匹配;
当全部第一目标词在全部节点上均完成索引后,将文本中匹配符合次数大于等于预设次数阈值的第一目标词替换成预设的替换文本,获得目标文本。
上述技术方案的工作原理及有益效果为:
预设次数阈值具体为:例如,3;预设替换文本具体为:例如,***;将文本分成多个第一目标词,将第一目标词在数据桶中进行索引(一般选取触发概率较大的节点优先进行索引);将当前进行索引的节点上匹配长度小于等于第一目标词的文本长度的敏感词库作为目标敏感词库,将第一目标词与该目标敏感词库中的第二目标词进行匹配,若匹配符合,计数一次,若某第一目标词发生匹配符合的次数大于预设次数阈值,说明其是敏感词坐实,使用替换文本替换即可。
本发明实施例提供了一种在线客服场景下的文本内容敏感词过滤替换的方法,步骤S4中,输出目标文本之前,还包括:
对目标文本进行预处理;
其中,对目标文本进行预处理,包括:
将文本中需要替换成替换文本的任一第一目标词作为第三目标词;
提取第三目标词的第一特征;
建立触发特征数据库,将第一特征与触发特征数据库中的第二特征进行匹配,若匹配符合,获取匹配符合的第二特征的特征类型;
查询预设的查询方向对照表,确定特征类型对应的至少一个查询方向;
确定第三目标词在文本中的第一位置;
获取文本中在第一位置的查询方向上预设第一数量的第四目标词;
提取第四目标词的第三特征;
获取预设的近似敏感特征数据库,将第三特征与近似敏感特征数据库中的第四特征进行匹配,若匹配符合,确定第四目标词在文本中的第二位置;
获取文本中在第二位置前和/或后预设第二数量的第五目标词;
提取第五目标词的第五特征;
获取预设的否定特征数据库,将第五特征与否定特征数据库中的第六特征进行匹配,若匹配不符合,将与第四特征匹配符合的第三特征对应的第四目标词替换成替换文本;
当目标文本中需要替换成替换文本的第四目标词全部替换完成后,完成预处理。
上述技术方案的工作原理及有益效果为:
预设的查询方式对照表具体为:由后台人员事先统计制成,包含多个对照项,每个对照项包含一个特征类型至少一个查询方向;预设第一数量具体为:例如,12;预设的近似敏感特征数据库具体为:该数据库内存储有大量近似敏感特征,例如:国家名、地区名、姓名和店名等;预设第二数量具体为:例如,2;预设的否定特征数据库具体为:该数据库内存储有大量否定特征,例如:“不”等;
例如:目标文本为“小A是一个**”,其中需要替换成替换文本的第一目标词为“东西”(已用**替换),将其作为第三目标词,提取该第三目标词的第一特征,其与某第二特征匹配符合,确定匹配符合的第二特征的特征类型为某辱骂用语,查询预设的查询方向对照表后,确定该辱骂用户常作为形容词放置在主语后,查询方向则是向前查询,获取“东西”之前的多个第四目标词“小A”“是”“一个”,提取第四目标词的第三特征,其中第四目标词“小A”的第三特征与近似敏感特征数据库中的第四特征(一个人名)匹配符合,获取“小A”前和/或后的第五目标词“是”“一个”,提取第五目标词的第五特征,其中没有能够与否定特征数据库中的第六特征匹配符合的第五特征,“小A”在目标文本中代表用户不正当用意(辱骂),应当也替换成替换文本后输出,即输出“**是一个**”,而当用户用意正确是,“小A”也能出现在最后输出的目标文本中;
目前,大量敏感词过滤替换技术均是将人名、国家名等全部作为敏感词过滤替换,本发明实施例可以结合实际情况决定是否将其过滤替换,更符合用户的实际使用需求,提升用户体验,且决定手段精细,十分智能化。
本发明实施例提供了一种在线客服场景下的文本内容敏感词过滤替换的方法,建立触发特征数据库,包括:
分别获取预设的触发词集合和预设的近似敏感词数据库;
查询预设的关联触发词对照表,确定触发词集合中每个触发词对应的至少一个关联触发词;
创建第一事件,第一事件包括:敏感语句中包含触发词,且在敏感语句中触发词前和/或后预设文本长度范围内出现至少一个近似敏感词数据库中的近似敏感词;
创建第二事件,第二事件包括:敏感语句中包含关联触发词,且在敏感语句中关联触发词前/和后预设文本长度范围内出现至少一个近似敏感词数据库中的近似敏感词;
分别获取敏感语句大数据和预设的评价模型;
使用评价模型分别评价第一事件和第二事件在敏感语句大数据中的发生情况;
获取评价模型对第一事件进行评价后输出的多个第一评价值以及对第二事件进行评价后输出的多个第二评价值;
基于第一评价值和第二评价值计算评价指数,计算公式如下:
其中,σ为评价指数,θ1,i为第i个第一评价值,θ2,i为第i个第二评价值,α为第一评价值的总数目,β为第二评价值的总数目,O1和O2为预设的权重值,O2>1>O1>0,γ为中间变量,μ1为第一评价值中小于等于预设的第一评价值阈值的第一评价值的第一个数,μ2为第二评价值中小于等于预设的第二评价值阈值的第二评价值的第二个数,μ0为预设的个数阈值,and为且,else为其它;
获取预设的空白数据库,若评价指数大于等于预设的评价指数阈值,提取触发词的第七特征以及与触发词对应的全部关联触发词第八特征,将第七特征和第八特征存入空白数据库;
当触发词集合中需要存入空白数据库的触发词的第七特征以及对应全部关联触发词的第八特征均存入空白数据库后,将空白数据库作为触发特征数据库,完成建立。
上述技术方案的工作原理及有益效果为:
预设的触发词集合具体为:该集合内包含多个触发词,例如:辱骂用语等;预设的近似敏感词数据库具体为:该数据库内包含大量近似敏感词,例如:国家名、地区名、姓名和店名等;预设的关联触发词对照表具体为:由后台人员事先制成,包含多个对照项,每个对照项包含一个触发词和至少一个关联触发词,例如:一个辱骂用语受方言影响可能有不同表达方式,基于该对照表可以尽可能地确定某辱骂用语的多个表达方式;预设文本长度:例如,字数15;预设的评价模型具体为:利用机器学习算法对大量人工对第一事件和第二事件在敏感语句大数据中发生的情况进行评价的记录进行学习生成的模型,该模型在进行评价值,输出评价值越高,代表对应事件历史上和/或近期发生越频繁;预设的第一评价值阈值具体为:例如,80;预设的第二评价值阈值具体为:例如,75;预设的个数阈值具体为:例如,7;预设的空白数据库具体为:该数据库内没有内容;预设的评价指数阈值具体为:例如,92;敏感语句大数据具体为:互联网中的大量敏感语句;
分别建立第一事件和第二事件,该两者事件(例如:某辱骂用语前出现主语为人名的敏感语句)若频繁发生,说明对应触发词或关联触发词在实际对话中用户同时使用其与近似敏感词(例如:人名)的可能性越大,应提取其特征,存入空白数据库;通过上述公式计算评价指数,综合评价事件在敏感语句大数据中的发生情况,评价指数越大,说明对应事件发生越频繁;在进行事件统计时,可记录触发词之前出现近似敏感词和/或之后出现近似敏感词,便于工作人员制作查询方向对照表;
本发明实施例合理地从触发词集合中确定能够作为提取特征用于建立触发特征数据库的触发词以及其对应关联触发词,有效帮助后期基于触发特征数据库发现与其中某第二特征匹配符合的第一特征对应的第三目标词,提升了系统的工作效率,同时,通过上述公式基于第一评价值和第二评价值计算评价指数,综合对两个事件进行评价,极大程度上提升了系统的工作效率。
本发明实施例提供了一种在线客服场景下的文本内容敏感词过滤替换的系统,如图2所示,包括:
创建模块1,用于创建数据桶;
配置模块2,用于获取预设的多个敏感词库,基于敏感词库对数据桶进行配置;
获取模块3,用于获取需要进行敏感词过滤替换的文本;
过滤替换模块4,用于基于配置完成的数据桶对文本进行敏感词过滤替换,获得目标文本,输出目标文本。
上述技术方案的工作原理及有益效果为:
预设的多个敏感词库具体为:多个包含大量敏感词的数据库;创建数据桶,基于敏感词库对数据桶进行配置,获取需要进行敏感词过滤替换的文本(例如:用户输入的文本,从互联网中获取的用作回答用户某问题的答案文本),基于配置完成的数据桶对该文本进行过滤替换,获得目标文本,输出(显示)该目标文本;
本发明实施例基于敏感词库对数据桶进行配置,当数据桶配置完成后,基于数据桶对需要进行敏感词过滤替换的文本进行敏感词过滤替换,最后输出过滤替换后的目标文本,使用简单且使用成本较低。
本发明实施例提供了一种在线客服场景下的文本内容敏感词过滤替换的系统,配置模块2执行如下操作:
获取敏感词库的特征信息,特征信息包括:匹配长度和触发概率;
查询预设的节点对照表,确定数据桶中对应于触发概率的节点;
基于红黑树将触发概率对应的敏感词库存储于节点上。
上述技术方案的工作原理及有益效果为:
预设的节点对照表具体为:由后台人员事先制成,包含多个对照项,每个对照项包含一个触发概率区间和一个数据桶的节点,对照时,当某触发概率落在触发概率区间内时,输出对应节点即可;每个敏感词库均对应有一个特征信息,包含匹配长度(对应敏感词库内的敏感词的一致文本长度)和触发概率(可基于历史敏感词过滤替换数据确定对应敏感词库内的敏感词在历史上在获取到的文本中出现的概率获得);基于红黑树(自平衡二叉查找树数据结构)将敏感词数据库存储于对应节点上,使用红黑树,便于后期在索引时,提升索引的效率。
本发明实施例提供了一种在线客服场景下的文本内容敏感词过滤替换的系统,过滤替换模块4执行如下操作:
对文本进行分词处理,获得多个第一目标词;
将第一目标词在数据桶中进行索引;
将当前进行索引的对应节点作为目标节点,将目标节点上匹配长度小于等于第一目标词的文本长度的敏感词库作为目标敏感词库;
将第一目标词与目标敏感词库中的第二目标词进行匹配;
当全部第一目标词在全部节点上均完成索引后,将文本中匹配符合次数大于等于预设次数阈值的第一目标词替换成预设的替换文本,获得目标文本。
上述技术方案的工作原理及有益效果为:
预设次数阈值具体为:例如,3;预设替换文本具体为:例如,***;将文本分成多个第一目标词,将第一目标词在数据桶中进行索引(一般选取触发概率较大的节点优先进行索引);将当前进行索引的节点上匹配长度小于等于第一目标词的文本长度的敏感词库作为目标敏感词库,将第一目标词与该目标敏感词库中的第二目标词进行匹配,若匹配符合,计数一次,若某第一目标词发生匹配符合的次数大于预设次数阈值,说明其是敏感词坐实,使用替换文本替换即可。
本发明实施例提供了一种在线客服场景下的文本内容敏感词过滤替换的系统,过滤替换模块4还执行如下操作:
对目标文本进行预处理;
其中,过滤替换模块4对目标文本进行预处理,具体执行如下操作:
将文本中需要替换成替换文本的任一第一目标词作为第三目标词;
提取第三目标词的第一特征;
建立触发特征数据库,将第一特征与触发特征数据库中的第二特征进行匹配,若匹配符合,获取匹配符合的第二特征的特征类型;
查询预设的查询方向对照表,确定特征类型对应的至少一个查询方向;
确定第三目标词在文本中的第一位置;
获取文本中在第一位置的查询方向上预设第一数量的第四目标词;
提取第四目标词的第三特征;
获取预设的近似敏感特征数据库,将第三特征与近似敏感特征数据库中的第四特征进行匹配,若匹配符合,确定第四目标词在文本中的第二位置;
获取文本中在第二位置前和/或后预设第二数量的第五目标词;
提取第五目标词的第五特征;
获取预设的否定特征数据库,将第五特征与否定特征数据库中的第六特征进行匹配,若匹配不符合,将与第四特征匹配符合的第三特征对应的第四目标词替换成替换文本;
当目标文本中需要替换成替换文本的第四目标词全部替换完成后,完成预处理。
上述技术方案的工作原理及有益效果为:
预设的查询方式对照表具体为:由后台人员事先统计制成,包含多个对照项,每个对照项包含一个特征类型至少一个查询方向;预设第一数量具体为:例如,12;预设的近似敏感特征数据库具体为:该数据库内存储有大量近似敏感特征,例如:国家名、地区名、姓名和店名等;预设第二数量具体为:例如,2;预设的否定特征数据库具体为:该数据库内存储有大量否定特征,例如:“不”等;
例如:目标文本为“小A是一个**”,其中需要替换成替换文本的第一目标词为“东西”(已用**替换),将其作为第三目标词,提取该第三目标词的第一特征,其与某第二特征匹配符合,确定匹配符合的第二特征的特征类型为某辱骂用语,查询预设的查询方向对照表后,确定该辱骂用户常作为形容词放置在主语后,查询方向则是向前查询,获取“东西”之前的多个第四目标词“小A”“是”“一个”,提取第四目标词的第三特征,其中第四目标词“小A”的第三特征与近似敏感特征数据库中的第四特征(一个人名)匹配符合,获取“小A”前和/或后的第五目标词“是”“一个”,提取第五目标词的第五特征,其中没有能够与否定特征数据库中的第六特征匹配符合的第五特征,“小A”在目标文本中代表用户不正当用意(辱骂),应当也替换成替换文本后输出,即输出“**是一个**”,而当用户用意正确是,“小A”也能出现在最后输出的目标文本中;
目前,大量敏感词过滤替换技术均是将人名、国家名等全部作为敏感词过滤替换,本发明实施例可以结合实际情况决定是否将其过滤替换,更符合用户的实际使用需求,提升用户体验,且决定手段精细,十分智能化。
本发明实施例提供了一种在线客服场景下的文本内容敏感词过滤替换的系统,过滤替换模块4建立触发特征数据,具体执行如下操作:
分别获取预设的触发词集合和预设的近似敏感词数据库;
查询预设的关联触发词对照表,确定触发词集合中每个触发词对应的至少一个关联触发词;
创建第一事件,第一事件包括:敏感语句中包含触发词,且在敏感语句中触发词前和/或后预设文本长度范围内出现至少一个近似敏感词数据库中的近似敏感词;
创建第二事件,第二事件包括:敏感语句中包含关联触发词,且在敏感语句中关联触发词前/和后预设文本长度范围内出现至少一个近似敏感词数据库中的近似敏感词;
分别获取敏感语句大数据和预设的评价模型;
使用评价模型分别评价第一事件和第二事件在敏感语句大数据中的发生情况;
获取评价模型对第一事件进行评价后输出的多个第一评价值以及对第二事件进行评价后输出的多个第二评价值;
基于第一评价值和第二评价值计算评价指数,计算公式如下:
其中,σ为评价指数,θ1,i为第i个第一评价值,θ2,i为第i个第二评价值,α为第一评价值的总数目,β为第二评价值的总数目,O1和O2为预设的权重值,O2>1>O1>0,γ为中间变量,μ1为第一评价值中小于等于预设的第一评价值阈值的第一评价值的第一个数,μ2为第二评价值中小于等于预设的第二评价值阈值的第二评价值的第二个数,μ0为预设的个数阈值,and为且,else为其它;
获取预设的空白数据库,若评价指数大于等于预设的评价指数阈值,提取触发词的第七特征以及与触发词对应的全部关联触发词第八特征,将第七特征和第八特征存入空白数据库;
当触发词集合中需要存入空白数据库的触发词的第七特征以及对应全部关联触发词的第八特征均存入空白数据库后,将空白数据库作为触发特征数据库,完成建立。
上述技术方案的工作原理及有益效果为:
预设的触发词集合具体为:该集合内包含多个触发词,例如:辱骂用语等;预设的近似敏感词数据库具体为:该数据库内包含大量近似敏感词,例如:国家名、地区名、姓名和店名等;预设的关联触发词对照表具体为:由后台人员事先制成,包含多个对照项,每个对照项包含一个触发词和至少一个关联触发词,例如:一个辱骂用语受方言影响可能有不同表达方式,基于该对照表可以尽可能地确定某辱骂用语的多个表达方式;预设文本长度:例如,字数15;预设的评价模型具体为:利用机器学习算法对大量人工对第一事件和第二事件在敏感语句大数据中发生的情况进行评价的记录进行学习生成的模型,该模型在进行评价值,输出评价值越高,代表对应事件历史上和/或近期发生越频繁;预设的第一评价值阈值具体为:例如,80;预设的第二评价值阈值具体为:例如,75;预设的个数阈值具体为:例如,7;预设的空白数据库具体为:该数据库内没有内容;预设的评价指数阈值具体为:例如,92;敏感语句大数据具体为:互联网中的大量敏感语句;
分别建立第一事件和第二事件,该两者事件(例如:某辱骂用语前出现主语为人名的敏感语句)若频繁发生,说明对应触发词或关联触发词在实际对话中用户同时使用其与近似敏感词(例如:人名)的可能性越大,应提取其特征,存入空白数据库;通过上述公式计算评价指数,综合评价事件在敏感语句大数据中的发生情况,评价指数越大,说明对应事件发生越频繁;在进行事件统计时,可记录触发词之前出现近似敏感词和/或之后出现近似敏感词,便于工作人员制作查询方向对照表;
本发明实施例合理地从触发词集合中确定能够作为提取特征用于建立触发特征数据库的触发词以及其对应关联触发词,有效帮助后期基于触发特征数据库发现与其中某第二特征匹配符合的第一特征对应的第三目标词,提升了系统的工作效率,同时,通过上述公式基于第一评价值和第二评价值计算评价指数,综合对两个事件进行评价,极大程度上提升了系统的工作效率。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。