深度百科学习的中文医疗问句分类系统
技术领域
本发明涉及一种中文医疗问句分类系统,特别涉及一种深度百科学习的中文医疗问句分类系统,属于中文问句分类
技术领域
。背景技术
在信息大数据时代,搜索引擎已成为广大网民不可或缺的重要工具,通过搜索引擎可以从海量信息获取所需资料。用户仅仅需要在搜索引擎中输入关键词,可以立刻获取关键词有关的网页信息。但目前的搜索引擎存在一些缺陷,主要有三个问题:一是搜索引擎返回的检索信息太多,其中不乏包含一些噪声数据,用户不能有效的定位到所需的信息;二是搜索引擎不理解用户真正的搜索意图;三是搜索引擎只是单纯的考虑了关键词的匹配,没有考虑检索词语的语法和语义关系,所以要提高查询检索准确率比较困难。
但是,智能问答系统却为用户提供了自然语言的问答方法,更加接近人们平常的交流方法,更好的满足了用户的需求,因此其发展前景十分乐观,主要体现在以下几个领域:一是在教育、培训、咨询领域,目前各大教育机构都推出了在线教育,学生通过互联网即可获取知识,但当学生遇到问题需要请教老师时,一般通过电话或发邮件的方法,这两种方法都不能快速解决学生的问题,智能问答系统可以快速准确的解决学生遇到的问题;二是在线客服和人工智能领域,由于人工客户成本增加,各大网络公司都已推出聊天机器人,例如在线问诊、阿里旺旺机器人,它们在本质上就是一个智能问答系统。
在线问诊作为智能问答较突出的应用,能够有效解决医疗资源不足的问题,智能问答作为在线问诊的关键技术,具有非常重要的作用,而医疗问句分类又影响着智能问答系统的抽取结果。利用问句分类可以对问句自动归类,方便用户在发表问题时自动添加问题类别标签,所以了解用户问句归属于某一类具有重要作用。问句分类的作用主要表现在:首先,问句分类可以有效的提高检索命中率和速度,例如,“冠心病的药物治疗方法?”,经过问句分类后,可以将候选答案简约到冠心病和治疗类别中,缩小了问句的检索范围,减少了检索时间;其次,问句分类可以优化检索条目,向用户个性化推荐相似度问句条目,提高了问答系统的召回率;最后,问句分类影响着问句答案的准确性,问句分类算法的好坏决定着答案的准确性,通常采取多种不同的分类算法,一定程度上避免单一算法的单调和低效率,同时有利于提高答案的命中率。
因此,问句分类对于问答系统和自然语言处理具有重要作用,问句分类的准确性对问答系统有着深远影响。现有技术对于问句分类主要有以下三种方法:第一,基于规则的问句分类方法,这种方法出现比较早,开始一般是基于数学和语言学,制定合适的规则来判定问句的归属类别,比如判断问句是否疑问句、反问句或其他类型;第二,基于统计学习的问句分类方法,利用机器学习等自动形成规则;三是上面二种方法相结合,充分利用了二种方法的优势互补策略。利用机器学习对问句进行分类能够保证训练语料库的统一性和准确性,具有广阔的研究和应用价值,但机器学习的准确性依据训练集数据,因此可以采用基于人工规则和基于机器学习相结合的问句分类方法。当前,问句分类虽然取得了一定的成绩,但是分类所遇到的问题仍然存在:问句本身较短,含有少量的词语,使得在问句分类训练时面临维数灾难和数据稀疏问题。
现有技术的智能问答在线问诊系统存在缺陷和不足,本发明的难点和待解决的问题主要集中在以下方面:
第一,医疗问句分类直接影响智能问答系统的抽取结果,利用问句分类可以对问句自动归类,方便用户在发表问题时自动添加问题类别标签,了解用户问句归属于某一类具有重要作用。但现有技术的中文问句分类不能有效提高检索命中率和速度,无法缩小问句的检索范围,减少检索时间;现有技术的问句分类无法优化检索条目,无法向用户个性化推荐相似度问句条目,问答系统的召回率低;问句分类影响着问句答案的准确性,问句分类算法的好坏决定着答案的准确性,现有技术问句分类单一算法单调且效率低,不利于提高答案的命中率,现有技术的中文问句分类系统无法满足在线问诊智能问答的要求,无法运用到严谨的智能医疗领域;
第二,中文问句分类相比于英文问句分类,还存在不小的差距,特别是在医疗问句分类领域,主要原因一是中文问句有自身的特点,相比较英文问句,中文问句的语法结构复杂、语义信息多样化;二是缺乏相应的语料库和知识库;三是中文问句分类的研究和应用相对较晚,现有技术中文问句分类大部分采用基于规则的分类方法,在一些标准数据集上取得了一些效果,通过改进贝叶斯模型对中文问句分类,抽取问句主干以及结合分词和词性特征值进行问句分类,但是它的准确度受句法结构分析准确度影响。受到语义相关度计算方法的影响,总体而言,中文问句分类遇到的问题包括:问句本身较短,含有少量的词语,使得在问句分类训练时面临维数灾难和数据稀疏问题,中文问句分类的效率和准确率都无法满足医疗在线问诊的要求;
第三,智能问答作为在线问诊中的关键技术,直接影响这种新兴诊疗服务的质量和用户体验,智能问答的核心难题之一是对问句进行高效分类,但医疗问句的特征是问句关键词较少,由疾病或者症状+疑问词+动词组成,现有技术构建问诊特征向量的方法效率较低,全文索引方法误差较大,在中文环境下,医疗问句分类的问题更显突出,构建网络问诊问句特征向量时速度慢,构建问句特征向量时易造成维数过大、数据稀疏等难题,问诊分类效率很低,会造成同义词产生不同的分布式向量,并且受到语料库的限制,不能很好的识别网络新词,词语关联度的准确性和医疗问句分类效率较低;
第四,语义关联度算法存在明显的缺点,它没有考虑语义的差别,有些词语出现一词多义现象,语义关联度算法只是简单的概念映射,容易引入噪声数据,除此之外,语义关联度算法需要考虑搜索引擎百科页面所有数据,预处理阶段消耗更多时间和资源,表示文本向量包括所有搜索引擎百科概念,向量维数达到90万维,计算量过大;
第五,中文问句蕴含丰富的语义信息,它的结构复杂,问句形式多样化,词语之间存在多义、同义关系依赖,且中文问句大多比较短小,只包含较少关键词,对于问句分类存在不少难题。现有技术的文本表示方法是向量空间模型,这种表示方法造成向量稀疏、维度过大的结果,不能够很好的描述词语之间的语义关系,导致计算相似度误差大,影响测试的准确性,对问句集合语料库进项训练分析发现问句中有许多同义词,但他们因为训练语料库缺少,导致相似度不准确,而且有些词典中词语不够丰富,无法消除同义词的误差,无法解决未登录词的词向量构造问题,没有考虑词语出现的频率、语法、语义及上下文关系,得到的特征词向量无法满足要求。
- 上一篇:石墨接头机器人自动装卡簧、装栓机
- 下一篇:意图识别模型的训练与意图识别的方法、装置