基于鲁棒矩阵分解的离散哈希检索方法
技术领域
本发明涉及基于鲁棒矩阵分解的离散哈希检索方法,属于多媒体检索的跨模态检索
技术领域
。背景技术
随着计算机技术和社交网络的蓬勃发展,近年来多媒体数据量迅速增加,包括文本、图像和视频。对大规模数据集进行快速相似性检索已成为基本要求之一。哈希技术由于其在大规模应用中的高效性,近年来受到了广泛的关注。哈希技术的关键是通过保留数据结构或语义相似性来寻求高维数据点的紧凑二进制表示。随后,在学习到的海明空间中,通过异或运算可以有效地完成检索任务,这使得哈希技术可以应用于大规模数据集。然而,大多数检索任务仅限于在单模态内检索数据点,其中检索数据的类型与查询相同。由于不同模态之间存在异质性差异,这些方法不能直接应用于待检索数据属于不同类型的情况。
通常,互联网上生成的数据由不同模态表示,例如文本、图像和视频。对于搜索引擎而言,在实际应用中,需要向用户提供各种模态样本作为搜索结果。因此,跨媒体哈希检索技术成为一个研究的热点。跨媒体哈希检索技术将异构样本编码为哈希码,由于其在计算效率和存储开销方面的巨大优势,受到了越来越多的关注。尽管以前的方法有了较大的改进,但发现这些方法有以下缺点。首先,这些方法只关注不同模态之间的一致性部分建模,而忽略了多模态数据之间潜在的不一致性(由噪声或模态特性引起)。虽然它们能够为不同模态的样本学习哈希码,但却无法获得令人满意的检索性能。因此,如何在统一的学习框架中对不同模态间的一致性和不一致性进行联合建模,以提高哈希码的质量仍然是一个有待解决的问题。其次,哈希码的离散约束造成目标函数很难求解,大部分哈希方法首先松弛离散约束得到一个连续解,然后再对连续解进行量化得到样本的哈希码,但这个过程会引入量化误差,导致检索性能的下降。
发明内容
本发明的目的在于克服上述已有技术的不足而提供基于鲁棒矩阵分解的离散哈希检索方法。
本发明提供的技术方案如下:基于鲁棒矩阵分解的离散哈希检索方法,其特征在于,包括如下步骤::
步骤S1,通过互联网收集图像和文本两个模态的样本建立数据集,并将数据集划分为训练集和测试集;
步骤S2,分别利用图像和文本的BOW算法提取训练集和测试集的图像和文本的特征;
步骤S3,利用矩阵分解算法学习图像和文本的特征间的一致性和不一致性,其一致性由共享哈希码来表示,其不一致性由最小化共性来约束,并构造总目标函数;
其包括如下步骤:
步骤S31,用来表示训练集样本的特征,其中n为样本对的数量, ; 和分别表示来自图像和文本模态的数据的零中心特征向量;利用径向基核函数将图像和文本的特征映射到d维的特征空间,其中
和分别表示图像和文本的特征的映射后的特征;
步骤S32,将图像和文本模态间的一致性和不一致性融合到一个基于矩阵分解的模型中,其基于矩阵分解的目标函数定义如下:
其中, 为平衡图像和文本权值的平衡参数,为平衡一致性和不一致性的平衡参数,和分别表示图像和文本模态的潜在因子矩阵,和分别表示图像和文本模态间不一致部分,B表示模态间一致的部分,即图像和文本样本的哈希码,为不一致性的约束条件,不一致性是样本中存在的噪声或不同模态的特性, 所有元素的和应尽量小,其中表示矩阵的点乘运算,定义如下:
其中表示矩阵的点乘运算,使用矩阵形式,上述公式可以进一步写成:
其中表示矩阵的迹;
步骤S33,由图像和文本模态的哈希码B学习图像和文本模态的哈希函数的目标函数定义为:
其中是平衡两个模态哈希函数的参数,和分别表示图像和文本模态的投影矩阵;
步骤S34,因此本发明方法的总目标函数为:
其中是平衡正则项权重的参数,
表示正则项;
步骤S4,求解步骤S3所述的总目标函数,得到图像和文本样本对的哈希码B,以及图像和文本模态的投影矩阵;此目标函数是非凸的,因此本发明提出一种迭代优化算法得到问题的局部最优解,其包括以下子步骤:
步骤S41:固定,求解:
;
是k维单位矩阵;
步骤S42:固定,求解:
;
步骤S43:固定,求解:
;
步骤S44:固定,求解:
;
步骤S45:固定,求解:
;
是d维单位矩阵;
步骤S46:固定,求解;
;
步骤S47:固定,求解哈希码B:
去除与B无关的项,总目标函数可以简化为:
其中,这是一个离散最小二乘问题,由于B的离散约束导致问题很难求解,本方法采用离散循环坐标下降法直接逐位求解B;作为哈希码B的第i行,作为B除去b构成的矩阵;类似地,表示第i行,表示去除构成的矩阵,表示的第i行,表示去除构成的矩阵,表示的第i行,去掉常数项可得:
,
可得:
,
首先利用生成的更新哈希码B的第i行,然后重复执行上式直至更新完所有位哈希码;重复执行上述过程次后,得到训练集样本的哈希码B;
步骤S48:判断是否达到最大迭代次数或最近两次迭代损失的差小于0.001,如果不是则继续迭代;如果是,则停止循环;
步骤S5,用户提交查询样本时,利用图像模态的投影矩阵或文本模态的投影矩阵进行计算,得到查询样本的哈希码,并计算查询样本与数据集中异构模态样本的汉明距离,并按汉明距离从小到大排序返回跨媒体检索结果。
优选地,所述的步骤S1 中,包括从网络上的社交网站收集图像和文本两个模态的样本,并根据图像和文本共现关系构成图像和文本样本,构建数据集。
优选地,所述的步骤S2中,对图像使用由SIFT特征作为视觉单词的词袋模型提取特征,对文本使用传统的词袋模型提取特征。
优选地,所述的步骤S5中,当用户提交查询样本时,r=1表示图像模态,r=2表示文本模态,根据图像模态的投影矩阵和文本模态的投影矩阵,利用计算查询样本的哈希码,并计算查询样本与数据集中异构模态样本的汉明距离,并按汉明距离从小到大排序返回跨媒体检索结果。
本发明的有益效果是:本发明通过矩阵分解模型消除不同模态之间的不一致性,同时保持生成哈希代码的一致性。因此,该模型能更好地捕捉训练数据的内在结构,而且对噪声具有较强的鲁棒性。此外,与以往大多数放松离散约束的方法不同,离散哈希码可以在优化过程中直接得到。
本发明设计了一个基于矩阵分解的总目标函数,对多模态数据的一致性和不一致性同时进行建模,一致性表示图像和文本样本的一致的哈希码,不一致表示样本中存在的噪声或不同模态的特性。因此,哈希码可以很好地捕获不同模态之间的共性,从而提高生成的哈希码的质量。本发明提出了一种有效的基于迭代的离散优化方案来解决上述总目标函数,可以直接产生离散哈希码,避免量化错误。本发明检索的准确率高,容易应用于大规模数据集,并且具有广阔的应用前景。
附图说明
图1为本发明的流程示意图。
具体实施方式
下面结合附图对本发明的具体实施方式做详细说明:
虽然本发明指定了图像和文本两个模态,但是算法很容易的扩展到其他模态和多于两个模态的情况。为了方便描述,本发明只考虑图像和文本两个模态。
如图1所示,基于鲁棒矩阵分解的离散哈希检索方法,其特征在于其通过计算机装置实现如下步骤:
步骤S1,通过互联网收集图像和文本两个模态的样本建立数据集,并将数据集划分为训练集和测试集;包括从网络上的社交网站收集图像和文本两个模态的样本,并根据图像和文本共现关系构成图像和文本样本,构建数据集,使用Mirflickr25K数据集,其由24类图像及其相应的文本标记组成;从数据集中随机选择75%的图像文本标记对组成训练集,其余的组成测试集。
步骤S2,分别利用图像和文本的BOW算法提取训练集和测试集的图像和文本的特征;对图像使用由SIFT特征作为视觉单词的词袋模型提取特征,对文本使用传统的词袋模型提取特征。
步骤S3,利用矩阵分解算法学习图像和文本的特征间的一致性和不一致性,其一致性由共享哈希码来表示,其不一致性由最小化共性来约束,并构造总目标函数;
其包括如下步骤:
步骤S31,用表示训练集样本的特征,其中n为样本对的数量, ; 和分别表示来自图像和文本模态的数据的零中心特征向量;利用径向基核函数将图像和文本的特征映射到d维的特征空间,设置d=500;其中和分别表示图像和文本的特征;
步骤S32,将图像和文本模态间的一致性和不一致性融合到一个基于矩阵分解的模型中,其基于矩阵分解的目标函数定义如下:
其中, 为平衡图像和文本权值的平衡参数,设置=0.6;为平衡一致性和不一致性的平衡参数,设置=0.1;和分别表示图像和文本模态的潜在因子矩阵,和分别表示图像和文本模态间不一致部分,B表示模态间一致的部分(即图像和文本样本的一致的哈希码),为不一致性的约束条件,这种不一致性是样本中存在的噪声或不同模态的特性,因此各模态不一致部分的点乘积的和应尽量小,即(所有元素的和应尽量小,其中表示矩阵的点乘运算)。其定义如下:
使用矩阵形式,上述公式可以进一步写成:
其中表示矩阵的迹;
步骤S33,由图像和文本模态的哈希码B学习图像和文本模态的哈希函数的目标函数定义为:
其中是平衡两个模态哈希函数的参数,设置=1000,和分别表示图像和文本模态的投影矩阵;
步骤S34,因此本发明方法的总目标函数为:
其中是平衡正则项权重的参数,设置=0.1;
表示正则项;
步骤S4,求解步骤S3所述的总目标函数,得到图像和文本样本对的哈希码B,以及图像和文本模态的投影矩阵;此目标函数是非凸的,因此本发明提出一种迭代优化算法得到问题的局部最优解,其包括以下子步骤:
步骤S41:固定,求解:
;
是k维单位矩阵;设置k=32;
步骤S42:固定,求解:
;
步骤S43:固定,求解:
;
步骤S44:固定,求解:
;
步骤S45:固定,求解:
;
是d维单位矩阵;设置d=500;
步骤S46:固定,求解;
;
步骤S47:固定,求解哈希码B:
去除与B无关的项,总目标函数可以简化为:
其中,这是一个离散最小二乘问题,由于B的离散约束导致问题很难求解,本方法采用离散循环坐标下降法直接逐位求解B;作为哈希码B的第i行,作为B除去b构成的矩阵;类似地,表示第i行,表示去除构成的矩阵,表示的第i行,表示去除构成的矩阵,表示的第i行,去掉常数项可得:
,
可得:
,
首先利用生成的更新哈希码B的第i行,然后重复执行上式直至更新完所有位哈希码;重复执行上述过程次后,得到训练集样本的哈希码B;
步骤S48:判断是否达到最大迭代次数或最近两次迭代损失的差小于0.001,如果不是则继续迭代;如果是,则停止循环;
步骤S5,当用户提交查询样本(r=1表示图像模态,r=2表示文本模态)时,根据图像模态的投影矩阵和文本模态的投影矩阵,利用计算查询样本的哈希码,并计算查询样本与数据集中异构模态样本的汉明距离,并按汉明距离从小到大排序返回跨媒体检索结果。
实验效果:
本实施例在Mirflflickr25K数据集进行验证,此数据集含有20015图像和文本组成的样本对,这些样本对可划分为24个语义类别;随机选取75%的样本对构成训练集,其他的25%构成测试集;将图像用150维的纹理的特征表示,将文本用500维的BOW(Bag OfWords)的特征表示,并对特征做归一化、去均值(零中心)处理;以平均准确率(MeanAverage Precision,[email protected])作为性能的评估标准,其中50表示MAP的值由前50个返回的样本计算,并将本方案和MTFH(X. Liu, Z. Hu, H. Ling, and Y. M. Cheung, “Mtfh: Amatrix tri-factorization hashing framework for effificient cross-modalretrieval,” IEEE Transactions on Pattern Analysis and Machine Intelligence,vol. 43, no. 3, pp. 964–981, 2021.)进行对比,其中16位、24位、32位和64位码长在图像检索文本和文本检索任务上的准确率如表1所示。
可以看出,本发明设计了一个基于矩阵分解的统一目标函数,对多模态数据的一致性和不一致性同时进行建模,一致性部分表示图像和文本样本的一致的哈希码,不一致的部分表示样本中存在的噪声或不同模态之间的多样性。因此,哈希码可以很好地捕获不同模态之间的共性,从而提高生成的哈希码的质量。提供了一种有效的基于迭代的离散优化方案来解决上述目标函数。因此,可以直接产生离散哈希码,避免量化错误。本发明检索的准确率高,容易应用于大规模数据集,并且具有广阔的应用前景。
应当理解的是,本说明书未详细阐述的部分都属于现有技术。以上的实施例仅仅是对本发明的优选实施方式进行描述,并非对本发明范围进行限定,在不脱离本发明设计精神的前提下,本领域普通工程技术人员对本发明的技术方案作出的各种变形和改进,均应落入本发明的权利要求书确定的保护范围内。
- 上一篇:石墨接头机器人自动装卡簧、装栓机
- 下一篇:敏感词识别方法、系统及计算机可读存储介质