基于知识图谱对大量直播弹幕数据意图标注方法
技术领域
本发明涉及知识词库搭建和数据标注
技术领域
,具体为基于知识图谱对大量直播弹幕数据意图标注方法。背景技术
弹幕可以给观众一种“实时互动”的错觉,虽然不同弹幕的发送时间有所区别,但是其只会在视频中特定的一个时间点出现,因此在相同时刻发送的弹幕基本上也具有相同的主题,在参与评论时就会有与其他观众同时评论的错觉,而传统的播放器评论系统是独立于播放器之外的,因此评论的内容大多围绕在整个视频上,话题性不强,也没有“实时互动”的感觉;
在电商服务平台都有顾客对商品或服务的评论,对评论的抽取有助于商品口碑分析,辅助消费决策,舆情分析等,购买点评信息是商品第一手反馈,对商家和品牌这些信息非常有用,目前常用评论观点自动抽取和分析,基于自然语言分析(NLP)技术对文本语法和句意分析抽取出观点信息,对信息聚类等,目前应用在包括美食、酒店、汽车、景点多种产品用户评论观点抽取中;
但是目前这些方案在口语化的弹幕文本中不适用,NLP分析需要完整的语法句子,且主要的应用场景是书面性的文本,词向量法有一定的效果,但只能划分正负向,关键词法需要命中关键词,口语场景丢失率很高,得出的结果零散。
发明内容
本发明提供基于知识图谱对大量直播弹幕数据意图标注方法,可以有效解决上述背景技术中提出口语化的弹幕文本中不适用,NLP分析需要完整的语法句子,且主要的应用场景是书面性的文本,词向量法有一定的效果,但只能划分正负向,关键词法需要命中关键词,口语场景丢失率很高,得出的结果零散的问题。
为实现上述目的,本发明提供如下技术方案:基于知识图谱对大量直播弹幕数据意图标注方法,包括如下步骤:
S1、根据弹幕信息提取关键词并对关键词归纳维度;
S2、扩建关键词同音同义词;
S3、多个维度组合作为一个特定意图的模板;
S4、弹幕数据去重,无效数据去除;
S5、弹幕数据过模板抽取观点意图;
S6、人工校排查去除错误数据。
根据上述技术方案,所述S1中对于弹幕信息建立数据库,将弹幕中的词语进行扩充标注,其中通过词向量分析文本情感,负向词和积极词容易从文本中识别,然后列举关键词,将文本命中关键词就抽取出,结合人工标注法,对于口语和多省略的弹幕数据进行标注;
所述数据库中词语根据弹幕的增加量进行调节,从而确保数据库的正常扩充,然后通过进行数据库的更新,将实时的数据进行扩张后,将数据进行过滤和标注。
根据上述技术方案,所述S2中将弹幕的关键字进行同音、分词、近音和同意的词语进行挑选;
接着将这些词语进行描述定义,记录在数据库中,接着将匹配错位的词语进行数据库的关键词进行连接。
根据上述技术方案,所述S3中将关键词连接后,形成维度,将其根据领域、范围、时间段进行分类,将其制成各个模块,从而形成特定意图的模板;
然后人工进行定义模板中弹幕的意图,并对于其进行贬义、褒义分类。
根据上述技术方案,所述S4中对于弹幕进行词语去重,通过弹幕的数据库,将弹幕的同音、分词、近音和同意的词语进行挑选,去除弹幕的无效数据。
根据上述技术方案,所述S5中对于弹幕的数据中的观点进行解析,去除错误定义的弹幕与词语。
根据上述技术方案,所述S6中对于弹幕的错误数据进行排查,将错误标注的弹幕进行去除,并对词语中的定义与意图进行标记,从而对于弹幕再次人工解析。
根据上述技术方案,所述S6中可通过数据清理概述,接着对于数据排重,最后使用脚本组件进行数据清理;
其中对于数据源的弹幕进行综合,将其存储到数据仓库,将弹幕转换为数据,接着与数据库数据进行比对,从而对于数据进行清理,确保数据的正常表达。
与现有技术相比,本发明的有益效果:本发明结构科学合理,使用安全方便,本发明为快速标注直播弹幕数据意图,高效率标注文本意图,克服了数据量庞大人工效率低,传统NLP在弹幕分析中效果差等缺点,通过词向量分析文本情感,负向词和积极词容易从文本中识别,然后列举关键词,将文本命中关键词就抽取出,结合人工标注法,对于口语和多省略的弹幕数据进行标注,便于了后期的弹幕数据的转换,且对于数据中的同意、近义的相关词语进行了检索,将一些关键字的词语进行抽离,接着对于数据中的语义进行定义,从而便于弹幕数据去重,降低了工作量,适合更好的推广使用。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。
在附图中:
图1是本发明的方法步骤流程结构示意图;
图2是本发明的效果结构示意图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
实施例:如图1-2所示,本发明提供技术方案基于知识图谱对大量直播弹幕数据意图标注方法,包括如下步骤:
S1、根据弹幕信息提取关键词并对关键词归纳维度;
S2、扩建关键词同音同义词;
S3、多个维度组合作为一个特定意图的模板;
S4、弹幕数据去重,无效数据去除;
S5、弹幕数据过模板抽取观点意图;
S6、人工校排查去除错误数据。
根据上述技术方案,S1中对于弹幕信息建立数据库,将弹幕中的词语进行扩充标注,其中通过词向量分析文本情感,负向词和积极词容易从文本中识别,然后列举关键词,将文本命中关键词就抽取出,结合人工标注法,对于口语和多省略的弹幕数据进行标注;
数据库中词语根据弹幕的增加量进行调节,从而确保数据库的正常扩充,然后通过进行数据库的更新,将实时的数据进行扩张后,将数据进行过滤和标注。
根据上述技术方案,S2中将弹幕的关键字进行同音、分词、近音和同意的词语进行挑选;
接着将这些词语进行描述定义,记录在数据库中,接着将匹配错位的词语进行数据库的关键词进行连接。
根据上述技术方案,S3中将关键词连接后,形成维度,将其根据领域、范围、时间段进行分类,将其制成各个模块,从而形成特定意图的模板;
然后人工进行定义模板中弹幕的意图,并对于其进行贬义、褒义分类。
根据上述技术方案,S4中对于弹幕进行词语去重,通过弹幕的数据库,将弹幕的同音、分词、近音和同意的词语进行挑选,去除弹幕的无效数据。
根据上述技术方案,S5中对于弹幕的数据中的观点进行解析,去除错误定义的弹幕与词语。
根据上述技术方案,S6中对于弹幕的错误数据进行排查,将错误标注的弹幕进行去除,并对词语中的定义与意图进行标记,从而对于弹幕再次人工解析。
根据上述技术方案,S6中可通过数据清理概述,接着对于数据排重,最后使用脚本组件进行数据清理;
其中对于数据源的弹幕进行综合,将其存储到数据仓库,将弹幕转换为数据,接着与数据库数据进行比对,从而对于数据进行清理,确保数据的正常表达。
如下表所示:
关键词
同义同音
维度
中性肌肤
中性皮肤
肤质
怎么买
咋买
下单咨询
油性肌
油性皮肤|油性肌肤
肤质
修复霜
修护霜
品类
标签名
同音词
维度
润肤霜
润舒霜
品类
柔肤乳
柔护乳
品类
所有肤质
任何肤质
肤质
哪款
哪个|哪些
品类
买到
买好
已购买
精萃液
精粹液
品类
洁面泡沫
洁颜泡沫
品类
洁面慕斯
洁面摩丝
品类
洁肤水
洁肤液
品类
介绍
讲一下
商品咨询
混合性肌肤
混合性|混合型皮肤
肤质
多个维度组合作为一个特定意图的模板,其可分为{([#已购买#])[#品类#]}|([#已购买#])
与现有技术相比,本发明的有益效果:本发明结构科学合理,使用安全方便,本发明为快速标注直播弹幕数据意图,高效率标注文本意图,克服了数据量庞大人工效率低,传统NLP在弹幕分析中效果差等缺点,通过词向量分析文本情感,负向词和积极词容易从文本中识别,然后列举关键词,将文本命中关键词就抽取出,结合人工标注法,对于口语和多省略的弹幕数据进行标注,便于了后期的弹幕数据的转换,且对于数据中的同意、近义的相关词语进行了检索,将一些关键字的词语进行抽离,接着对于数据中的语义进行定义,从而便于弹幕数据去重,降低了工作量,适合更好的推广使用。
最后应说明的是:以上所述仅为本发明的优选实例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
- 上一篇:石墨接头机器人自动装卡簧、装栓机
- 下一篇:一种作业评阅系统及方法