一种面向夜间图像的无参考质量评价方法

文档序号:9250 发布日期:2021-09-17 浏览:34次 英文

一种面向夜间图像的无参考质量评价方法

技术领域

本发明涉及图像质量评价领域,具体的说提出了一种新的面向夜间图像的无参考质量评价方法。

背景技术

如今随着消费摄影的日益繁荣,消费者对在夜间环境下拍摄图像的能力提出了更高的要求,而图像质量将直接影响着消费者的体验质量。在光线较弱的夜间环境下拍摄的夜间图像,其表现为对比度低、细节模糊、能见度降低等,整体的图像视觉质量有所下降。故对于消费摄影和图像处理系统来说,设计出一个可以预测和辅助改善夜间图像质量的图像质量评估(IQA)指标来就显得迫切。此外,许多实时图像处理算法和图像驱动应用,如视觉监控和自动驾驶,都将强烈地收到输入图像质量的影响,一个设计合理的IQA方法可以有效地对这些算法和系统、进行基准测试和性能优化。

由于夜间图像通常是由人观看的,因此判断夜间图像质量最可信的方式是观察者的主观质量评价。然而,主观质量检测费时费力,难以满足实时性要求。相比之下,通过有效的计算模型进行客观图像质量评估(IQA)在图像质量评估任务中更具吸引力。根据原始原始图像的可接近性,现有的客观IQA方法可分为完整参考(full-reference,FR)、部分参考(reduction-reference,RR)和无参考(no-reference,NR)三种。其中FR IQA方法是指完全参照原始图像计算图像质量的方法。RR IQA是指从原始图像中提取部分信息进行图像质量评估。在原始图像是完全或部分可用的情况下,FR和RR IQA能够获得较高的预测性能。然而,当原始图像缺失或不可用时,FR和RR的IQA方法都变得不可用。在这种情况下,可以使用不需要参考原始图像的任何信息的NR IQA/BIQA(blind IQA)来测量图像质量。对于夜间图像而言,目标图像往往是直接通过相机捕获而得到的,没有可以参考的原始图像。因此在本文中,我们将重点放在了更贴近实际情况的BIQA研究中。

从整体研究情况看来,夜间图像在增强、修复等领域有着较为蓬勃的发展,但是与质量评价的研究还较少。据我们所知,BNBT是第一个也是唯一个致力于夜间图像的工作,他们在新建设了一个夜间图像数据库(NNID)的同时,还提出了一种基于亮度和纹理特征的夜间图像盲质量评价(BNBT)。他们从夜间图像的超像素段提取亮度特征,从灰度共生矩阵提取纹理特征。然后结合亮度和纹理特征作为SVR的输入,得到夜间图像的质量分数。最终的评价结果虽然有效但是不够理想,我们总结原因有以下几点:第一,亮度和纹理特征都是图像中较为简单的特征,属于低层特征,能获取到信息不够多;第二,图像质量实际上是人类视觉感知的结果,如果能进一步从人类视觉感知的角度对图像质量进行表征,相关的所能展现出来的内容就会丰富。

故在这样的背景下,我们从自然场景统计(NSS)、人脑视觉感知特征和语义信息这图像的低中高三层信息出发,提出一种新的评价方法。

发明内容

针对现有技术中存在的不足,本发明提供一种面向夜间图像的无参考质量评价方法。

本文研究的是夜间图像的无参考评价问题,我们在深入探索自然场景统计(NSS)、人脑视觉感知特征和高级语义信息的基础上,分别从特征信息的低、中、高三层对图像质量进行了有效表征,提出了一种新的面向夜间图像的BIQA方法。一方面,人们普遍认为NSS在图像底层中具有较好的捕获特征信息的能力,这启发了我们利用NSS进行盲质量评估。具体来说,我们从图像的局部二值模式映射(LBP)和局部均值减少的对比度归一化系数(MSCN)中探索新的NSS结构。一方面,由于图像质量实际上是人类视觉感知的结果,我们选择从人眼视觉系统(HVS)的角度对图像的中层特征信息进行表达。具体来说,在自由能量研究的基础上,我们使用稀疏表示来近似模拟人脑中内部生模型(IGM)对外部图像信号的感知过程。另一方面,图像的高层语义特征往往也隐藏非常丰富的内容信息,对此我们对用于图像语义信息提取工作的DNN模型进行了大量研究,如VGG、SqueezeNet、GoogleNet、ResNet等,通过使用这些深度网络的中间工作对图像的语义信息进行提取。

最终在整合了上面的研究之后,我们最终设计出了一组质量感知特征来综合表征夜间图像质量。具体而言,我们使用了强大的SVR来整合所有的质量感知特征,以得到对应的质量分数,并在一个具有代表性的夜间图像数据库(NNID)上进行了充分的实验。实验表明在评估夜间图像质量的工作方面,我们所提出的方法比最先进的BIQA方法表现得更好。为了便于称呼,我们将所提出的质量评价方法称为盲夜间图像质量指数(Blind night-images quality Index,简称BNQI)。

一种面向夜间图像的无参考质量评价方法,步骤如下:

步骤(1)、自然场景统计NSS特征提取;

使用NSS捕捉图像失真:NSS特征来源于图像的局部二值模式映射LBP和对比度归一化系数MSCN系数,LBP和MSCN特征分别衡量了图像在出现畸变时的结构变化和自然损失。

步骤(2)、人类视觉感知特征提取;

从人类视觉感知的角度研究人类大脑的感知特征来表征图像质量。在基于IGM下,人类大脑会对视觉场景产生相应的表征,并进行视觉感知。因此,图像的感知质量与大脑表征过程以及图像与脑表征版本之间的差异密切相关。

使用稀疏表示近似人脑中的IGM来感知外部图像信号。

步骤(3)、语义特征提取;

在ImageNet数据集上预先训练图像语义提取深度神经网络,然后直接通过训练好的网络来获得图像的高层语义信息。具体来说,将待评价的图像I输入到预先训练好的网络中,然后在网络的最后一个softmax层之前激活该网络,以此获得一个1000维的向量,来表图像的高级语义信息。

步骤(4)、图像质量计算;

在提取NSS特征、人类视觉感知特征和语义特征之后,将这些提取的特征连接在一起,生成一个综合特征向量来表征图像的整体质量。然后再使用SVR对综合特征向量和数据库提供的主观平均意见分数MOS进行训练,以此得到图像质量分数预测模型。通过训练好的图像质量分数预测模型进行图像质量预测。

步骤(1)具体方法如下;

首先,LBP定义了一种局部结构方法算子,在原始图像收到外部畸变时,图像的LBP值会随之发生变化,LBP作用于一个局部的图像块上,假设gc和gp分别代表局部图像块的中心像素和关于gc圆对称的其他邻间像素,根据中心像素的旋转不变一致性,LBP编码能够计算为:

其中P和R表示相邻像素的个数和半径,s(·)为阶跃函数,定义为:

而U(·)是一个测量一致性的函数,它统计的是一个模式的空间转换次数,具体定义为:

之后再逐个计算LBP编码像素值,生成一个0-1的LBP映射图M:

其中x、y为像素点的索引,l为常数值用于确定对应的LBP编码。

然后再对LBP映射图进行特征化,以提取质量感知特征。将获得的LBP映射图的平均值作为NSS特征向量的一个维度,通过LBP均值的变换记录图像质量的变化。

第二种NSS特征来自于MSCN系数,输入图像I的MSCN系数能够计算为:

其中x和y表示像素坐标,表示(x,y)处的MSCN系数,μ(x,y)和σ(x,y)为以(x,y)为中心的局部图像块的均值和标准差。采用零均值广义高斯分布(GGD)对MSCN系数的分布进行建模,具体过程为:

其中Γ(·)表示伽马函数,具体可以被定为:

其中α和β表示GGD的参数,通过基于矩匹配的方法能够准确估计。由于描述GGD的模型参数α和β对图像失真有很强的反射性,使用它们作为质量特征来捕捉引入的图像失真,也将其加入到NSS特征向量中。

进一步沿着四个方向计算相邻位置的MSCN系数,即水平、垂直、主对角线和次对角线。使用零阶不对称的广义高斯分布AGGD进行建模。

这个分布的均值定义为:

同样,该AGGD模型的参数(γ,βl,βr,η)也被引入到图像I的NSS特征向量中。

步骤(2)具体方法如下:

使用稀疏表示近似人脑中的IGM来感知外部图像信号。

在给定的图像I中提取出图像块其中k为图像块序号,表示第k个图像块。而xk在过完备字典上的稀疏表示实际上是指找到一个元素大部分为零或接近于零的稀疏向量具体能够表述为:

其中αk的第一项表示表示保真度,第二项表示稀疏性约束。||·||p表示为lp的范数,λ是一个用来调整这两个部分权重的常数。通过求解上述方程,能够得到表示xk的稀疏向量。由于这种稀疏向量对视觉输入的大脑感知的重要信息进行了编码,对稀疏向量进行感知特征提取:

使用标准差来对其进行总结。假设σk为αk的标准差,将得到的所有稀疏向量的标准差取平均值作为图像I的感知特征向量的其中一个维度:

其中N表示为图像I的稀疏向量总数。

输入的图像I经过稀疏表示后能够得到人脑预测的版本I′,从预测残差和构造差异这两个角度来量化差异信息。

首先,预测残差是指I与I′之间的直接差值,具体定义为:

PR(x,y)=I(x,y)-I′(x,y) (12)

其中x和y为像素坐标,PR为预测的残差值。为了提取感知特征,利用PR的矩特征和熵特征来概括一个随机变量,并明确揭示了它们与人类视觉感知的关系。具体来说,计算PR的均值mPR、标准差σPR、偏度sPR、峰度kPR和熵ePR来表示图像的特征信息,将其加入到感知特征向量中。假设ε(·)为均值算子,则感知特征能够计算为:

mPR=ε(PR) (13)

其中pi为PR中第i个灰度的概率密度。

由于PR的分布对图像质量的变化非常敏感,因此使用GGD来广泛拟合PR分布,并选取最佳的拟合参数来作为图像I的人类视觉感知特征向量的其中一个维度。

使用质量指数SSIM来衡量I和I′之间的结构相似性:

其中μI和μI′为I和I′的平均强度,σI和σI′为标准差,σII′为相关系数,C1、C2为避免不稳定的常数值。逐个像素地计算结构相似值,得到一个像素级的结构相似图,记为SS,由于SS中的SSIM值衡量的是两个同位像素之间的相似程度,其值小于等于1,SSIM=1表示比较的两个信号完全相等。因此将结构不相似定义为SSIM值与1之间的距离:

SD(x,y)=1-SS(x,y) (19)

其中x、y为像素坐标,SD为I与I′之间的结构不相似图。

为了表征I的质量,选用SD的矩特征和熵特征作为感知质量特征的一组维度,即mSD、σSD、sSD、kSD和eSD。使用Weibull函数来拟合SD分布,以提取质量意识特征,具体定义为:

其中将其威布尔分布的参数λ和v也引入到图像I的人类视觉感知特征向量中。

步骤(4)具体方法如下:

给定一个训练集Ω,然后从训练集中选取一个图像Ii,然后提取它的NSS特征f1、人类视觉感知特征f2和语义特征f3,做为特征向量假设图像Ii的MOS值为那么最终的质量预测模型就能够表达为:

其中M即为我们所需的图像质量分数预测模型。

最后进行图像质量预测时,对于一个新待预测的图像Ij,也先提取得到它的综合特征向量然后再利用训练好的图像质量分数预测模型M对其进行质量预测,其图像质量就可以表示为:

其中Q为图像Ij的预测质量分数。

本发明有益效果如下:

本发明在针对夜间图像的无参考质量评价问题上,设计出了一个新的评价模型。具体而言,是在基于对自然场景统计(NSS)、人脑视觉感知特征和高级语义信息的研究基础上,从图像信息的低中高三层角度出发,设计出了一组新的质量感知特征来表征图像质量。与其他先进的夜间图像评价工作相比,我们所提出方法的整体评价性能更好。

附图说明

图1为本发明实施例方法流程图;

图2使用SqueezeNet提取输入图像的语义信息。

具体实施方式

以下结合附图与实施例对本发明方法进行进一步描述。

如图1所示,一种面向夜间图像的无参考质量评价方法,具体步骤如下:

步骤(1)、自然场景统计NSS特征提取;

使用NSS捕捉图像失真:NSS特征来源于图像的局部二值模式映射LBP和对比度归一化系数MSCN系数,LBP和MSCN特征分别衡量了图像在出现畸变时的结构变化和自然损失,这两者在表征图像质量方面具有高度指示性。

首先,LBP定义了一种局部结构方法算子,该描述方法已成功应用于各种计算机视觉任务,如人脸识别、纹理识别、纹理分类等。具体表现为在原始图像收到外部畸变时,图像的LBP值会随之发生变化,LBP作用于一个局部的图像块上,假设gc和gp分别代表局部图像块的中心像素和关于gc圆对称的其他邻间像素,根据中心像素的旋转不变一致性,LBP编码能够计算为:

其中P和R表示相邻像素的个数和半径,s(·)为阶跃函数,定义为:

而U(·)是一个测量一致性的函数,它统计的是一个模式的空间转换次数,具体定义为:

之后再逐个计算LBP编码像素值,生成一个0-1的LBP映射图M:

其中x、y为像素点的索引,l为常数值用于确定对应的LBP编码。

然后再对LBP映射图进行特征化,以提取质量感知特征。将获得的LBP映射图的平均值作为NSS特征向量的一个维度,通过LBP均值的变换记录图像质量的变化。

我们提取的用于表征图像质量的第二种NSS特征来自于MSCN系数。前人的研究表明,自然图像的MSCN系数很好地符合单位高斯分布,而畸变的引入极易对其造成破坏。因此分布变化的程度可以用来表示图像质量的变化,具体来说,输入图像I的MSCN系数能够计算为:

其中x和y表示像素坐标,表示(x,y)处的MSCN系数,μ(x,y)和σ(x,y)为以(x,y)为中心的局部图像块的均值和标准差。采用零均值广义高斯分布(GGD)对MSCN系数的分布进行建模,具体过程为:

其中Γ(·)表示伽马函数,具体可以被定为:

其中α和β表示GGD的参数,通过基于矩匹配的方法能够准确估计。由于描述GGD的模型参数α和β对图像失真有很强的反射性,使用它们作为质量特征来捕捉引入的图像失真,也将其加入到NSS特征向量中。

此外,相邻MSCN系数对的乘积也可以有效地表征图像质量。因此,我们进一步沿着四个方向计算相邻位置的MSCN系数,即水平、垂直、主对角线和次对角线。这些结果可以使用零阶不对称的广义高斯分布(AGGD)进行建模。

这个分布的均值定义为:

同样,该AGGD模型的参数(γ,βl,βr,η)也被引入到图像I的NSS特征向量中。

步骤(2)、人类视觉感知特征提取;

除了利用NSS进行图像质量评价外,我们还从人类视觉感知的角度研究了人类大脑的感知特征来表征图像质量。

在脑理论和神经科学中,一种被称为自由能量原理的理论被提出,该理论结合了几个脑理论和物理知识来解释人类的行为、感知和学习过程。自由能量原理表明,人类大脑对图像输入的感知或理解是一个主动的推理过程,由内部生成模型(IGM)控制。更具体地说,在基于IGM下,人类大脑会对视觉场景产生相应的表征,并进行视觉感知。因此,图像的感知质量与大脑表征过程以及图像与脑表征版本之间的差异密切相关。

因此,基于IQA中强大的神经生物学支持和仔细的实践,我们也将继续使用稀疏表示近似人脑中的IGM来感知外部图像信号。

具体而言,稀疏表示一幅图像的基本单位通常是一个图像块,因此先在给定的图像I中提取出图像块其中k为图像块序号,表示第k个图像块。而xk在过完备字典上的稀疏表示实际上是指找到一个元素大部分为零或接近于零的稀疏向量具体能够表述为:

其中αk的第一项表示表示保真度,第二项表示稀疏性约束。||·||p表示为lp的范数(lp为图像I的范数P,这里我们将p取0,选用第零范式),λ是一个用来调整这两个部分权重的常数。通过求解上述方程,能够得到表示xk的稀疏向量。由于这种稀疏向量对视觉输入的大脑感知的重要信息进行了编码,对稀疏向量进行感知特征提取:

这里我们较为关注偏差影响,并使用标准差来对其进行总结。假设σk为αk的标准差,将得到的所有稀疏向量的标准差取平均值作为图像I的感知特征向量的其中一个维度:

其中N表示为图像I的稀疏向量总数。

输入的图像I经过稀疏表示后能够得到人脑预测的版本I′,通过研究发现I与I′的差异也可以对图像I的感知质量进行很好的表征。因此在这里我们对其进行深一步的探讨,具体来说我们从预测残差和构造差异这两个角度来量化差异信息。

首先,预测残差是指I与I′之间的直接差值,它也是在测量两个信号之间差值中被广泛采用的方法,具体定义为:

PR(x,y)=I(x,y)-I′(x,y) (12)

其中x和y为像素坐标,PR为预测的残差值。为了提取感知特征,利用PR的矩特征和熵特征(这些特征具有较强的代表性)来概括一个随机变量,并明确揭示了它们与人类视觉感知的关系。具体来说,计算PR的均值mPR、标准差σPR、偏度sPR、峰度kPR和熵ePR来表示图像的特征信息,将其加入到感知特征向量中。假设ε(·)为均值算子,则感知特征能够计算为:

mPR=ε(PR) (13)

其中pi为PR中第i个灰度的概率密度。

由于PR的分布对图像质量的变化非常敏感,因此使用GGD来广泛拟合PR分布,并选取最佳的拟合参数来作为图像I的感知特征向量的其中一个维度。

其次,由于人类大脑对图像中的结构信息具有很强的视觉感知敏感性,我们还测量了图像I与其大脑所代表的版本I′之间的结构差异。为此,我们首先使用质量指数SSIM来衡量I和I′之间的结构相似性:

其中μI和μI′为I和I′的平均强度,σI和σI′为标准差,σII′为相关系数,C1、C2为避免不稳定的常数值。逐个像素地计算结构相似值,得到一个像素级的结构相似图,记为SS,由于SS中的SSIM值衡量的是两个同位像素之间的相似程度,其值小于等于1,SSIM=1表示比较的两个信号完全相等。因此将结构不相似定义为SSIM值与1之间的距离:

SD(x,y)=1-SS(x,y) (19)

其中x、y为像素坐标,SD为I与I′之间的结构不相似图。

为了表征I的质量,选用SD的矩特征和熵特征作为感知质量特征的一组维度,即mSD、σSD、sSD、kSD和eSD。同样我们检查了SD分布,发现它也可以用来捕捉图像质量变化,因此我们使用Weibull函数来拟合SD分布,以提取质量意识特征,具体定义为:

其中将其威布尔分布的参数λ和v也引入到图像I的感知特征向量中。

步骤(3)、语义特征提取;

上面我们提取的特征未考虑图像的语义信息,而高级的语义信息也可以帮我们直观的反映图像质量,故这里我们引入语义信息相关的特征提取工作。显然,高质量图像的语义信息提取工作要容易得多,而低质量的图像将会阻碍有用语义信息的提取,从而降低图像质量。为了实现这一目标,我们选择在ImageNet数据集上预先训练图像语义提取深度神经网络,然后直接通过训练好的网络来获得图像的高层语义信息。具体来说,将待评价的图像I输入到预先训练好的网络中,然后在网络的最后一个softmax层之前激活该网络,以此获得一个1000维的向量,来表图像的高级语义信息。所述的图像语义提取深度神经网络采用VGG、SqueezeNet、GoogleNet或ResNet等在图像语义信息上有较好提取效果深度神经网络。

这里我们选用了提取性能好且模型较小的SqueezeNet网络来提取语义信息,在图2中演示了其具体过程。我们从输入图像中提取一个位于中心且大小为227×227的图像块,并将其输入到神经网络中,最后提取“global avgpool”层的输出信息以此来表征图像的语义信息。

步骤(4)、图像质量计算;

在提取NSS特征、人类视觉感知特征和语义特征之后,将这些提取的特征连接在一起,生成一个综合特征向量来表征图像的整体质量。然后再使用SVR对综合特征向量和数据库提供的主观平均意见分数(MOS)进行训练,以此得到图像质量分数预测模型。通过训练好的图像质量分数预测模型进行图像质量预测。

所述的NSS特征、人类视觉感知特征和语义特征都是一个多维向量,将我们提取相应的参数之类的数值,作为其中的一个维度,最终再将三个向量拼成一个大的特征向量(直接进行维度相加,放在同一个向量中)。

具体而言,给定一个训练集Ω,然后从训练集中选取一个图像Ii,然后提取它的NSS特征f1、人类视觉感知特征f2和语义特征f3,做为特征向量假设图像Ii的MOS值为那么最终的质量预测模型就能够表达为:

其中M即为我们所需的图像质量分数预测模型。

最后进行图像质量预测时,对于一个新待预测的图像Ij,也先提取得到它的综合特征向量然后再利用训练好的图像质量分数预测模型M对其进行质量预测,其图像质量就可以表示为:

其中Q为图像Ij的预测质量分数。

完整详细技术资料下载
上一篇:石墨接头机器人自动装卡簧、装栓机
下一篇:一种基于端到端算法的绝缘子缺陷检测的方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!