百科技术库 各行业技术资料 - 百科资料网
欢迎来到百科技术库 各行业技术资料 - 百科资料网! [免费注册] | [登录] 微信快捷登录 QQ登录 微博登录 | 帮助中心 各行业技术应有尽有!
全国服务热线 13310018778

栏目导航

最新技术
一种语音情感识别方法
本发明涉及一种语音情感识别方法,通过首先对于输入的音频信号进行片段化操作,然后通过音频特征提取方法提取能够表达情感信息的特征,然后使用函数对每种特征进行计算初步拼接融合,融合后的特征输入到构建的一维卷积神经网络模型进行训练识别。采用多特征融合弥补了单一特征的单一化和表达能力有限的不足,多种表达情绪特征再融合的方法,可以从不同的角度、层次获取语音情感信息,对语音情感信息进行更加全面的描述,这样不但使系统得到更高的识别率,同时提高了系统鲁棒性;音频信号片段化识别可以更加精准的掌握情绪变化,避免了整条音频识别只返回概率最大标签而忽略其中情绪变动的问题。
一种基于声纹技术的音频信号实时追踪比对方法
本发明属于信号处理领域,公开了一种基于声纹技术的音频信号实时追踪比对方法。首先获取源声纹和目标声纹向量置入相应矩阵缓存;然后计算源声纹与目标声纹的欧式距离,得到欧式距离矩阵Dxs;判断上次延迟时间、Dxs最小值对应延迟时间、Dxs行算数平均数最小值对应延迟时间;分别计算延迟时间对应相似度,通过相似度进行延迟时间二次判定;对于延迟时间相似与不相似状态跃变,引入延迟处理机制;通过输出延迟时间对齐源音频与目标音频;计算相应通道在线指标;如此重复循环动态跟踪源音频与目标音频。本发明基于声纹技术,利用倒谱分析,在环境干扰较大时,播出信号和空收信号能持续动态对齐,计算出播出信号和空收信号的延迟量。
一种天然气站场设备运行智能监测方法及系统
本发明提供了一种天然气站场设备运行智能监测方法,包括以下步骤:S1、用声阵列采集天然气站场设备运行状态的音频信号;S2、对阵列各通道音频进行离群点检测,以筛除异常音频及其对应阵元;S3、使用延时-求和波束形成算法进行音频成像并获取目标设备的音频频谱;S4、从波束形成的频谱中提取梅尔倒谱特征并进行标准化处理,输入到预训练好的天然气站场设备状态分类模型中诊断设备状态。本发明提供了一种天然气站场设备运行智能监测方法及系统,其目的在于弥补目前天然气站场设备监测系统不够完善问题,用以实时监测设备运行状态,及时发现设备故障,减少人员巡检工作量,提升站场整体生产效率和运行可靠性。
语音分离方法及装置
本发明实施例提供了一种语音分离方法及装置,方法包括将获取的目标带噪音频信号分解到预设频域范围中的M个频点,得到M个频点的分解信号,基于人耳听觉感知特性,将M个频点的分解信号合并到P个预设频率子带中,每间隔预设时长,对每个预设频率子带包括的频点的分解信号进行分帧处理,得到每个预设频率子带对应的N个起止时间段的分析单元,估算P个预设频率子带对应的同一个起止时间段的P个分析单元中,每个分析单元对应的目标比值,基于P个目标比值,对同一个起止时间段对应的目标带噪音频信号进行噪声消除处理,得到同一个起止时间段对应的目标语音信号。降低目标语音信号的畸变,提高语音质量效果。
关键词识别方法及装置、存储介质、计算机设备
一种关键词识别方法及装置、存储介质、计算机设备,所述方法包括:获取原始语音信号,对所述原始语音信号进行分帧处理以得到目标语音信号,所述目标语音信号包括多个按时间序列排布的语音帧,所述语音帧基于时域特征和频域特征表示;将所述目标语音信号输入关键词识别网络中进行关键词识别,得到所述目标语音信号中包含的关键词;所述关键词识别网络包括多个串联的卷积网络单元和分类器,前一卷积网络单元的输出特征为后一卷积网络单元的输入特征,每一卷积网络单元包括一个或多个卷积层;所述分类器用于对最后一个卷积网络单元的输出特征进行分类,得到所述目标语音信号中包含的关键词。能够在降低模型参数量的同时兼顾识别精度。
一种二值化神经网络语音唤醒方法及系统
本发明涉及一种二值化神经网络语音唤醒方法及系统。该方法包括:获取待识别音频文件;并提取待识别音频文件的语音特征;根据语音特征和语音唤醒模型,确定待识别音频文件的识别结果;语音唤醒模型通过训练后的二值化的深度可分离卷积神经网络进行建立;语音唤醒模型具体的识别过程为:利用所述第一卷积层对输入进行量化处理;根据量化后的语音特征与网络层的二值量化参数权重以及网络层修正因子做卷积乘法,并将卷积后的数据与第一卷积层的偏置系数做加法;将第一卷积层的输出作为第二卷积层的输入;并将第一卷积层替换为第二卷积层,返回量化的步骤,直至输出识别结果。本发明能够在保证识别准确度的基础上,降低功耗。
基于视频图像面部表情和语音的多模态儿童情绪识别融合模型
本发明公开了一种基于视频图像面部表情和语音的多模态儿童情绪识别模型,涉及情绪识别领域。在视频图像模态上,将面部表情训练数据使用Gabor滤波增强人脸纹理,然后将纹理增强后面部表情训练数据在稠密卷积神经网络(D)上进行训练,得到视频图像模态情绪识别模型;在语音模态上,将训练数据集的GFCC特征与MFCC特征进行融合,再输入至语音模态模型中进行训练,语音模态使用CGRU网络,CGRU网络由卷积神经网络(CNN)、门控循环单元(GRU)网络融合;最后将CGRU与SVM连接,得到语音情绪识别模型。视频图像模态识别结果和语音模态识别结果依据权值准则在决策层进行融合,实现多模态儿童情绪识别。本发明提供的技术方案,有效的提高儿童情绪识别的准确率,有较强的推广价值。
一种音视频多模态情感分类方法及系统
本发明涉及语音和图像处理、模式识别领域,为一种音视频多模态情感分类方法及系统,其方法包括步骤:对原始视频数据的处理与计算,得到视频数据样本、音频数据样本及文本特征样本;构建情感特征提取网络,分别对视频数据样本、音频数据样本及文本特征样本进行特征提取,获得多模态中的视觉模态特征、音频特征及文本特征;将提取到的视觉模态特征、音频特征及文本特征进行维度统一,输入到张量融合网络中进行融合学习,最后进行分类输出多模态情感分类概率结果。本发明能够对跨模态之间的情感信息进行有效的整合,对视频、音频及文本进行时空高维度上的特征提取,拼接成多模态特征向量,再融合学习并进行情感分类。