百科技术库 各行业技术资料 - 百科资料网
欢迎来到百科技术库 各行业技术资料 - 百科资料网! [免费注册] | [登录] 微信快捷登录 QQ登录 微博登录 | 帮助中心 各行业技术应有尽有!
全国服务热线 13310018778

栏目导航

最新技术
一种面向机械化工领域的中文实体识别方法和系统
一种面向机械化工领域的中文实体识别方法,包括:采取短文本预处理来提取有效内容;采用经过词典优化的中文分词器进行中文分词和词性标注;利用词频与类优先级函数所构成的权重函数用作权重计算同时基于规则式优化加权提取短文本目标关键词;搜索目标关键词上下文基于构建的有向概率状态转化图来进行关键词的上下文扩展从而获得目标实体。本发明还包括实施一种面向机械化工领域的中文实体识别方法的系统,包括依次连接的短文本预处理模块、中文分词和词性标注模块、权重计算和规则式优化加权模块、关键词搜索和扩展模块。本发明实现了高准确率的中文实体识别。
金融主体的识别方法、电子装置和存储介质
本申请涉及一种金融主体的识别方法、电子装置和存储介质,其中,该金融主体的识别方法包括:将待分析的金融文档输入两个以上各不相同的第一主体识别模型,得到第一预测结果集合,第一预测结果集合由与各第一主体识别模型对应的各第一预测结果组成,各第一预测结果包含由对应的第一主体识别模型预测得到的若干金融主体,根据各金融主体在第一预测结果集合中出现的次数,确定金融主体是否作为识别结果输出,通过本申请,解决了容易误判金融欺诈信息的主体的问题,实现了更加准确地识别金融欺诈信息的主体。
文本处理模型的训练方法、装置、电子设备及存储介质
本申请实施例提供了一种文本处理模型的训练方法、装置、电子设备及存储介质,涉及云技术及人工智能技术领域。该文本处理模型的训练方法包括:构建包括第一文本处理模型和第二文本处理模型的初始神经网络模型,采用第一训练数据集、与第一训练数据集不同领域的第二训练数据集,对第一文本处理模型和第二文本处理模型进行联合训练,直至满足预设的训练结束条件,从而得到满足要求的文本处理模型。通过联合训练可以实现对第一文本处理模型的辅助训练,而且,采用不同领域的训练数据集,有助于文本处理模型的领域扩展,提高模型处理不同领域数据的准确率。
命名实体的识别方法及装置
本发明公开一种命名实体的识别方法及装置,涉及计算机技术领域,能够解决现有技术对命名实体进行归类的准确率较低的问题。方法包括通过将待识别命名实体与实体知识库中的经验命名实体进行名称匹配,获得待识别命名实体与经验命名实体的相似度,并基于相似度获取N个候选经验命名实体;经验命名实体包括从历史文本中获取到的归类于标准命名实体的命名实体;获取候选经验命名实体的特定特征;基于特定特征,重新计算候选经验命名实体与待识别命名实体的相似度,获得与待识别命名实体相似度满足预设条件的候选经验命名实体,并将待识别命名实体归类于满足预设条件的候选经验命名实体对应的标准命名实体。主要适用于对命名实体进行归一化处理的场景。
主题模型训练和主题预测方法、装置、设备及存储介质
本申请实施例提供了一种主题模型训练和主题预测方法、装置、设备及存储介质,涉及人工智能技术领域,在该方法中,采用综合模态特征提取器对综合模态参考数据进行特征提取,获得综合模态参考数据的综合模态特征,实现对综合模态参考数据中各个单模态参考数据的数据特征融合,故基于获得的各个综合模态特征进行聚类,获得目标主题模型时,每个聚类获得的主题特征可以更加准确地表征各个主题,从而提高主题模型的预测性能。进一步地,采用综合模态特征提取器,对目标综合模态数据的目标综合模态数据进行特征提取,获得目标综合模态特征,然后基于目标综合模态特征从目标主题模型中匹配目标综合模态数据的目标主题,从而提高主题预测的准确性。
邮箱账号异常检测方法、装置、电子设备及存储介质
本申请提供一种邮箱账号异常检测方法、装置、电子设备及存储介质,该方法包括:获取第一邮箱账号在预设时间段内的多个邮件数据;对每一所述邮件数据进行特征提取,获得每一所述邮件数据对应的邮件特征;将所述账号通信特征、所述通联关系特征和所述邮件内容特征输入预先构建的检测模型中,获得所述检测模型输出的所述第一邮箱账号是否异常的检测结果。本申请实施例通过同时使用账号通信特征、通联关系特征和邮件内容特征作为特征向量,利用机器学习算法对多个邮件数据进行分析,从而从多个维度确定第一邮箱账号是否存在异常情况,提高了检测的准确性。
负例构造方法、装置、设备和存储介质
本公开提供了一种负例构造方法、装置、设备和存储介质,涉及人工智能技术领域,具体涉及自然语言处理、深度学习等技术领域。负例构造方法包括:确定原始查询语句中的待替换词;获取所述待替换词的关联词,所述关联词与所述待替换词的语义不同;用所述关联词替换所述待替换词,以获得替换查询语句,作为所述原始查询语句的负例。本公开可以提高构造负例的效率。
序列标注模型的训练方法、装置、设备及存储介质
本申请为自然语言处理技术领域,本申请提供了一种序列标注模型的训练方法、装置、设备及存储介质,其中,所述方法包括:将文本数据进行向量转换得到input-ids向量、segment-ids向量及mask向量,并输入Bert模型进行训练,得到输出序列;将边界特征数据进行词向量编码,得到边界向量,将输出序列与边界向量进行连接得到连接向量,并输入Span模型中,利用Span模型计算起始损失值及结束损失值;根据起始损失值和结束损失值计算总损失值,在总损失值满足预设阈值时,完成序列标注模型的训练。本发明通过在输入序列标注模型中的文本数据加入边界特征数据,使训练完成的模型对边界信息进行准确预测。
意图识别方法、装置、设备及存储介质
本发明涉及人工智能,提供一种意图识别方法、装置、设备及存储介质。该方法能够对训练文本及真实意图进行编码,得到文本向量及意图向量,获取包括i个预设网络的初始模型,将文本向量输入至第i-1预设网络中,得到网络输出向量,拼接网络输出向量及文本向量,得到拼接向量,并将拼接向量输入至第i个预设网络中,得到语义向量,根据语义向量及意图向量计算损失值并调整初始模型中的参数,直至损失值不再降低,得到意图识别模型,对待识别文本进行编码,得到编码向量,将编码向量输入至意图识别模型中,得到输出向量,并映射输出向量,得到目标意图。本发明能够精确的识别出意图。此外,本发明还涉及区块链技术,所述目标意图可存储于区块链中。
一种基于电子病历文本的可迁移语言模型
本发明提出了一种基于电子病历文本的可迁移语言模型,该模型通过医学知识库将电子病历文本分离成模板与术语两大部分,先利用Pattern Attention对自然语言模板单独建模,再利用KG Cross Attention融合对应的医疗术语,使得模型能够利用医学知识库分离病历文本进行建模,从而完成跨专科的信息抽取。为了让模型更加适应于电子病历文本,本发明设计了三种预训练任务,通过这种方法对模型进行预训练后,可以大幅降低模型在相近专科内的迁移难度。