一种多核低冗余表示学习的多视图子空间聚类方法
技术领域
本发明属于多视图聚类
技术领域
,具体涉及一种多核低冗余表示学习的多视图子空间聚类方法。背景技术
多视图子空间聚类算法主要通过寻找多个视图间的互补信息来构造一个子空间表示矩阵。在近期所提出的大多数多视图子空间聚类方法中,原始数据通常作为模型的输入。然而,原始数据包含着大量的冗余信息,严重影响了模型的性能;同时,大多数方法只学习了多个视图之间共享的公共信息,忽略了视图间的差异性信息。
发明内容
本发明克服了上述技术的不足,提供了一种多核低冗余表示学习的多视图子空间聚类方法。首先定义几种核映射生成相应的核矩阵,再利用核矩阵通过特征分解获得低冗余的数据表示代替原始数据作为目标函数的输入,减轻了原始数据所包含的冗余信息对聚类效果产生的影响,促进了模型的鲁棒性;此外,通过集成所有视图的子空间表示矩阵构建一个3阶张量,利用张量核范数探索不同视图之间的高阶相关性,同时还保留了不同视图间的差异性,进而提高了聚类准确度。
本发明实施方式,包括步骤:
通过将最小二乘回归算法扩展到遵循多视图子空间聚类算法的框架中,得到关于多视图的最小二乘回归算法的目标函数;
通过定义核映射获得核矩阵;
将所得到的核矩阵通过特征分解获得低冗余的数据表示;
根据低冗余数据表示,构造不同视图的子空间表示矩阵;
通过集成所有视图的子空间表示矩阵,构建低秩的张量子空间表示矩阵;
利用低秩的张量子空间表示矩阵,计算出融合子空间表示矩阵和亲和子空间表示矩阵,并将亲和子空间表示矩阵送入谱聚类算法中,计算出聚类结果。
进一步地,所述的关于多视图的最小二乘回归算法的目标函数为:
其中,表示原始数据,dv表示第v个视图的特征维数,n表示原始数据的样本个数,Zv表示第v个视图的子空间表示矩阵,λ表示权衡参数,βv表示不同视图的权重系数,||·||F表示弗罗贝尼乌斯范数。
进一步地,所述的通过定义几种核映射所得到的核矩阵为:
其中,i,j∈{1,2,...,n}表示实例索引,表示第v个视图的第i列向量,表示第v个视图的第S个核矩阵,(·)T表示矩阵的转置,根据m=S*V,可知当有V个视图、S种核映射时,将会有m个相应的核矩阵,其核矩阵的集合为
进一步地,所述的低冗余数据表示为:
其中,c表示低冗余数据表示的维度,Tr(·)表示矩阵的迹。
进一步地,所述的根据低冗余数据表示,构造子空间表示矩阵为:
其中,γp表示不同视图的权重系数。
进一步地,所述的集成所有视图的子空间表示矩阵,构造低秩的张量子空间表示矩阵为:
其中,表示张量核范数。
进一步地,为求解低秩张量表示矩阵引入辅助变量所述的最终目标函数表示为:
进一步地,所述目标函数值最优时各个变量的值的求解方法包括以下:
利用交替方向乘子算法,在其他变量不变的条件下,针对每个变量迭代求解最小化。
固定其他变量,删除与无关的函数项,得到变量的目标函数式,将目标函数式重写为变量Zp的目标函数式,进行求解;
固定其他变量,删除与无关的函数项目,得到变量的目标函数式,通过基于t-SVD的张量核范数最小化方法,进行求解;
固定其他变量,删除与U无关的函数项目,将目标函数式重写为变量Up的目标函数式,通过特征分解,进行求解;
固定其他变量,删除与β无关的函数项目,得到变量β的目标函数式,通过柯西-施瓦兹不等式,进行求解;
固定其他变量,删除与γ无关的函数项目,得到变量γ的目标函数式,通过柯西-施瓦兹不等式,进行求解;
进一步地,利用低秩的张量子空间表示矩阵,采用来计算出融合子空间表示矩阵J(表示沿视角方向的第p个切片),再利用融合子空间表示矩阵,采用计算出亲和子空间表示矩阵T,并将其送入谱聚类算法中,得到聚类结果。
本发明提供的一种多核低冗余表示学习的多视图子空间聚类方法,具有以下优势:
(1)由于原始数据中包含大量冗余信息和噪声,本发明提出使用低冗余数据表示代替原始数据作为模型的输入,进而减轻原始数据中的冗余信息对聚类效果所带来的影响。
(2)特征分解为多视图子空间聚类算法提供了低冗余数据表示;同时,多视图子空间算法引导特征分解产生更适合聚类的低冗余数据表示。
(3)集成所有视图的子空间表示矩阵构建张量以探索不同视图之间的高阶相关性,获得更好的聚类效果。
(4)设计了一种数值优化算法来求解该模型。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的一种多核低冗余表示学习的多视图子空间聚类方法的流程图;
图2是本发明实施例在不同数据集下的聚类准确度的趋势图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
示例性方法
图1示意性地示出了根据本公开实施例的多核低冗余表示学习的多视图子空间聚类方法的一种示例性的处理流程100。
如图1所示,处理流程100开始后,首先执行步骤S110。
步骤S110、将最小二乘回归算法扩展到遵循多视图子空间聚类算法的框架中,得到关于多视图的最小二乘回归算法的目标函数:
其中,表示原始数据,dv表示第v个视图的特征维数,n表示原始数据的样本个数,Zv表示第v个视图的子空间表示矩阵,λ表示权衡参数,βv表示不同视图的权重系数,||·||F表示弗罗贝尼乌斯范数。
步骤S120、通过定义核映射得到相应的核矩阵:
其中,i,j∈{1,2,...,n}表示实例索引,表示第v个视图的第i列向量,表示第v个视图的第S个核矩阵,(·)T表示矩阵的转置,根据m=S*V,可知当有V个视图、S种核映射时,将会有m个相应的核矩阵,其核矩阵的集合为
步骤S130、利用核矩阵进行特征分解获得低冗余数据表示:
其中,c表示低冗余数据表示的维度,Tr(·)表示矩阵的迹。
步骤S140、根据所得到的低冗余数据表示,构造子空间表示矩阵:
其中,γp表示不同视图的权重系数。
步骤S150、集成所有视图的子空间表示矩阵,构造低秩张量子空间表示矩阵:
其中,表示张量核范数。
步骤S160、作为示例,将步骤S150所得到的的目标函数引入辅助变量求解引入上述辅助变量后的目标函数的最小化问题,如下:
根据得到的目标函数,通过如下优化方式得到最优解,具体步骤如下:
步骤S1601、利用交替方向乘子算法,由于每一个视图的子空间表示矩阵都是独立的,故固定β和γ,可将公式(6)改写为公式(7),用于更新Zp:
利用Zp-Qp=Z'p对公式(7)进行优化,得到公式(8):
其中s.t.为约束条件。
再利用U'p=Up-UpQp对公式(8)进行优化,得到公式(9):
由于Z'p的对角线被强制约束为0,移除的第i列,得到优化Z'p每一列,得到公式(10):
公式(10)可以改写为公式(11):
通过将公式(11)的导数设置为0,可求解Z'p,根据Zp-Qp=Z'p,即可求解Zp。
步骤S1602、利用交替方向乘子算法,固定Zp、β和γ,删除与无关的函数项,可将公式(6)改写为公式(12),用于更新
通过基于t-SVD的张量核范数最小化方法,可求解
步骤S1603、利用交替方向乘子算法,由于数据表示是相互独立的,故固定β和γ,可将公式(6)改写为公式(13),用于更新Up:
公式(13)可以改写为公式(14):
通过特征分解,可求解Up,其中Up是由矩阵Mp的c个最大特征值所对应的特征向量组成的。
步骤S1604、利用交替方向乘子算法,固定 和γ,可将公式(6)写为公式(15),用于更新β,:
通过柯西-施瓦兹不等式,可求解β。
步骤S1605、利用交替方向乘子算法,固定 和β,可将公式(6)写为公式(16),用于更新γ:
步骤S170、利用低秩的张量子空间表示矩阵,采用来计算出融合子空间表示矩阵J(表示沿视角方向的第p个切片),再利用融合子空间表示矩阵,采用计算出亲和子空间表示矩阵T,并将其送入谱聚类算法中,得到聚类结果;
通过本实施方式先得到一个关于多视图的最小二乘回归算法的目标函数,然后定义核映射生成相应核矩阵,再利用核矩阵生成低冗余数据表示来代替原始数据作为多视图的最小二乘回归算法的目标函数输入,以解决原始数据含有大量冗余信息的问题。之后,再构造张量,利用张量核范数来捕获不同视图之间的高阶相关性,根据所得的低秩张量子空间表示矩阵,获得亲和子空间表示矩阵,送进谱聚类中,计算出最后的聚类结果。
具体实施方式结果
为了验证本发明实施例的聚类准确度,本实施方式采用两个含有标签的公开的数据集。数据集的细节描述如下:
BBC-Sport数据集:包含来自BBC-Sport网站的737份文件,对应于五个主题领域的体育新闻,包括田径、板球、足球、橄榄球和网球。共有两个不同的视图。
UCI-Dights数据集:由对应10个类别的2000个数字图像组成。本实施方式提取了傅里叶系数、像素平均和形态学特征三个不同的特征来表示这些数字图像。构成三个不同视图。
本实施方式中,采取了高斯核映射、多项式核映射、线性核映射、符号多项式核映射和逆多项式核映射五种核映射方式,得到相应的核矩阵。正则化参数λ的取值范围是2.^{-10,-8,...,8,10},低冗余数据表示的维度c的范围为{k,2k,...,20k},其中k是类簇数量。当低冗余数据表示的维度c=20k时,所述数据集的聚类效果最佳。图2为c=20k时,不同数据集的聚类准确度随着正则化参数λ变化而发生变化的趋势图。BBC-Sport数据集和UCI-Dights数据集均在λ=20时,取得最好的聚类效果。
本实施方式提出了一种多核低冗余表示学习的多视图子空间聚类方法,用于多视图聚类任务中。建立了一个基于多核和低冗余数据表示的多视图子空间聚类模型,并对该模型设计了一种替代算法进行优化来保证算法的收敛性。在两个公开数据集上的实验结果表明了本实施方法的可靠性。
应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。