商品图像的质量识别方法、装置、计算设备及存储介质
技术领域
本发明涉及图像处理
技术领域
,具体涉及一种商品图像的质量识别方法、装置、计算设备及存储介质。背景技术
在电子商务领域,商品图像能够以直观、快速的方式向用户展示商品信息。商品图像的质量直接或间接地影响着用户对商品的浏览或购买欲望。从而对商品图像质量的识别尤为重要。
然而,发明人在实施过程中发现,现有技术中存在如下缺陷:现有技术在对商品图像质量识别时,采用的是人工识别的方式。然而采用该种方式商品图像的质量识别效率低下,并且识别精度低。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的商品图像的质量识别方法、装置、计算设备及存储介质。
根据本发明的一个方面,提供了一种商品图像的质量识别方法,包括:
获取商品图像;
将所述商品图像输入至预先训练好的图像背景识别模型,并基于所述图像背景识别模型的输出结果获得所述商品图像的背景质量评分;
将所述商品图像输入至预先训练好的商品位置识别模型,并基于所述商品位置识别模型的输出结果获得所述商品图像的商品位置质量评分;
将所述商品图像输入至预先训练好的用户视觉体验识别模型,并基于所述用户视觉体验识别模型的输出结果获得所述商品图像的视觉体验质量评分;
根据所述背景质量评分、所述商品位置质量评分、以及所述视觉体验质量评分获得所述商品图像的总质量评分。
根据本发明的另一方面,提供了一种商品图像的质量识别装置,包括:
获取模块,用于获取商品图像;
第一执行模块,用于将所述商品图像输入至预先训练好的图像背景识别模型,并基于所述图像背景识别模型的输出结果获得所述商品图像的背景质量评分;
第二执行模块,用于将所述商品图像输入至预先训练好的商品位置识别模型,并基于所述商品位置识别模型的输出结果获得所述商品图像的商品位置质量评分
第三执行模块,用于将所述商品图像输入至预先训练好的用户视觉体验识别模型,并基于所述用户视觉体验识别模型的输出结果获得所述商品图像的视觉体验质量评分;
综合模块,用户根据所述背景质量评分、所述商品位置质量评分、以及所述视觉体验质量评分获得所述商品图像的总质量评分。
根据本发明的又一方面,提供了一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行上述商品图像的质量识别方法对应的操作。
根据本发明的再一方面,提供了一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如上述商品图像的质量识别方法对应的操作。
根据本发明提供的商品图像的质量识别方法、装置、计算设备及存储介质,获取商品图像;将商品图像输入至图像背景识别模型,基于图像背景识别模型的输出结果获得商品图像的背景质量评分;将商品图像输入至商品位置识别模型,基于商品位置识别模型的输出结果获得商品图像的商品位置质量评分;将商品图像输入至用户视觉体验识别模型,基于用户视觉体验识别模型的输出结果获得商品图像的视觉体验质量评分;根据背景质量评分、商品位置质量评分、视觉体验质量评分获得总质量评分。本方案从图像背景、商品位置、用户视觉体验三个维度自动地获得商品图像的总质量评分,提升商品图像质量评分精准度以及提升商品图像质量评分的效率。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的
具体实施方式
。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明一个实施例提供的一种商品图像的质量识别方法的流程图;
图2示出了本发明一个实施例提供的一种图像背景识别模型的结构示意图;
图3示出了本发明一个实施例提供的一种Bottleneck_3x3模块的结构示意图;
图4示出了本发明一个实施例提供的一种Bottleneck_5x5模块的结构示意图;
图5示出了本发明一个实施例提供的一种商品位置识别模型的结构示意图;
图6示出了本发明一个实施例提供的一种CBL单元的结构示意图;
图7示出了本发明一个实施例提供的一种Focus单元的结构示意图;
图8示出了本发明一个实施例提供的一种SPP单元的结构示意图;
图9示出了本发明一个实施例提供的一种CSP1_X单元的结构示意图;
图10示出了本发明一个实施例提供的一种Resunit组件的结构示意图;
图11示出了本发明一个实施例提供的一种CSP2_X单元的结构示意图;
图12示出了本发明一个实施例提供的一种用户视觉体验识别模型的结构示意图;
图13示出了本发明一个实施例提供的一种商品图像的质量识别装置的结构示意图;
图14示出了本发明一个实施例提供的一种计算设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
图1示出了本发明一个实施例提供的一种商品图像的质量识别方法的流程图。如图1所示,该方法包括:
步骤S110,获取商品图像。
商品图像具体为后续进行质量识别的图像,该商品图像中包含有商品的相关信息。例如,商品图像可以为购物网站中的商品展示图等等。本实施例对获取的商品图像的类别、格式、及尺寸等也不作限定。
与现有技术不同的是,本实施例在获取商品图像之后,并非是人工对商品图像进行质量识别,而是通过后续步骤S120-步骤S150基于机器学习算法从商品图像的背景、商品在商品图像中的位置、以及商品图像的用户视觉体验三个维度自动地获得商品图像的质量评分。
步骤S120,将商品图像输入至预先训练好的图像背景识别模型,并基于图像背景识别模型的输出结果获得商品图像的背景质量评分。
商品图像所采用的图像背景会直接影响用户对商品特性的获知度,从而对用户的购买欲望产生影响。例如,当商品图像的图像背景过于杂乱时,将无法突出商品的相关特性,从而降低用户对商品的购买欲望。本步骤从商品图像的图像背景维度来对商品图像的质量进行识别,从而获得商品图像的背景质量评分。
具体地,本实施例预先构建有图像背景识别模型,该图像背景识别模型基于神经网络算法构建。本实施例对图像背景识别模型的具体结构不作限定。可选的,图像背景识别模型的具体结构可如图2所示。
从图2中可看出,图像背景识别模型包括多个不同结构的Bottleneck模块(该多个不同结构的Bottleneck模块为Bottleneck_3x3模块以及Bottleneck_5x5模块)、Input层(输入层)、Conv层(卷积层)、Concat层(拼接层)、AvgPooling层(平均池化层)、Flatten层(压平层)以及Class_prediction层(结果输出层)。
如图3所示,Bottleneck_3x3模块包括:Input层(输入层)、DW_3x3层(深度可分离卷积层)、Conv层(卷积层)、BN层(Batch Normalization批量归一化层)、MaxPooling层(最大池化层)、AvgPooling层(平均池化层)以及Add层(加运算)。其中,在Bottleneck_3x3模块中,通过在边缘采用DW_3x3层以及Conv_1x1层能够使得在训练过程时反向传播过程中的梯度不消失,从而保障损失能够持续下降,一方面提升了模型的收敛速度,另一方面提升了模型的训练精度。另外,在Bottleneck_3x3模块包含了3个DW_3x3层,能够使图像背景识别模型有效学习商品图像的背景特性,提升图像背景识别模型的识别精度。
如图4所示,Bottleneck_5x5模块包含:Input层、DW_3x3层、Conv层、BN层、AvgPooling层、DW_1x5层、DW_5x1层、DW_5x5层以及Add层。其中,Bottleneck_5x5模块相较于Bottleneck_3x3模块额外增加了DW_1x5层、DW_5x1层以及DW_5x5层。DW_1x5层以及DW_5x1层能够通过通道分离来增加提取到的特征,并且DW_1x5层、DW_5x1层、DW_5x5层以及DW_3x3层提取到的特征感受野不同,从而能够从多个维度学习商品图像的背景特性,进一步增加算法对复杂问题和非线性问题的拟合度和准确性。
此外,采用DW层(包括DW_1x5层、DW_5x1层、DW_5x5层以及DW_3x3层)还能够减少图像背景识别模型的参数量及计算量,节约计算资源以及提升计算效率;并且还能够增加模型的感受野,提升模型的识别精度。
进一步,获取训练图像背景识别模型所需的样本商品图像。该样本商品图像可以是包含各种图像背景的商品图像。其中,各种图像背景可以包括:白背景、黑背景、生活场景背景、纯色彩色背景等等。并且针对获取的任一样本商品图像,生成该样本商品图像的背景类别标签,并将该样本商品图像以及对应的背景类别标签输入至构建的图像背景识别模型,待满足预设的损失条件时,输出训练好的图像背景识别模型。
在获得训练好的图像背景识别模型之后,利用该图像背景识别模型对步骤S110获得的商品图像进行背景识别。具体地,图像背景识别模型会输出该商品图像的背景分类结果。
在一种可选的实施方式中,可预先根据不同背景分类与不同背景质量评分的映射关系,查找出与图像背景识别模型输出的背景分类结果相匹配的背景质量评分,该相匹配的背景质量评分即为步骤S110获得的商品图像的背景质量评分。采用该种方式,能够快速地根据图像背景识别模型的输出结果获得商品图像的背景质量评分。
在又一种可选的实施方式中,商品图像所应用的场景不同,背景分类所对应的背景质量评分不同。例如,在通过对大量数据分析发现,在数码产品应用场景中,纯白背景的商品图像所对应的用户购买率高;而在食品产品应用场景中,彩色背景的商品图像所对应的用户购买率高。基于此,实施方式中,在获得图像背景识别模型输出的背景分类结果之后,进一步获取步骤S110获得的商品图像的应用场景。继而根据背景分类结果以及应用场景查找相匹配的背景质量评分。其中,与背景分类结果以及应用场景均相匹配的背景质量评分为步骤S110获得的商品图像的背景质量评分。采用该种方式,能够准确地根据图像背景识别模型的输出结果获得商品图像的背景质量评分。
步骤S130,将商品图像输入至预先训练好的商品位置识别模型,并基于商品位置识别模型的输出结果获得商品图像的商品位置质量评分。
商品图像中商品在图像所占据的位置也会影响用户对商品特性的感知,继而影响用户的购买欲望。例如,当商品位于商品图像的边界时,会降低用户的购买欲望等。基于此,本步骤从商品图像的商品位置维度来对商品图像的质量进行识别,从而获得商品图像的商品位置质量评分。
具体地,本实施例预先构建有商品位置识别模型,该商品位置识别模型基于神经网络算法构建。本实施例对商品位置识别模型的具体结构不作限定。可选的,商品位置识别模型的具体结构如图5所示。
从图5中可看出,商品位置识别模型包括:CBL单元、Focus单元、SPP单元、CSP1_X单元、以及CSP2_X单元。
如图6所示,CBL单元为Conv+BN+Leaky_relu结构,其中Conv为卷积层,BN为归一化层,Leaky_relu为Leaky_relu激活函数。采用该种结构能够增强模型的特征提取效果,从而有利于提升模型的预测精度。
如图7所示,Focus单元可以将输入进行切片(Slice)操作,从而实现通道分离。例如将原始n*n*3的输入图像进行切片处理后,生成n/2*n/2*12的特征图,从而增大特征提取,进一步提升模型的预测精度。Focus单元在将输入图像进行切片处理之后,进一步通过concat进行张量拼接,从而扩充张量维度,并最终经由Focus单元中的CBL输出数据。
如图8所示,SPP单元中包含多个Maxpool层,例如SPP单元可采用1*1,3*3,5*5,7*7,9*9,11*11,13*13的最大池化方式,在特征提取后进行多尺度的融合,从而增强网络的鲁棒性和准确性,降低模型中的参数量,提升模型的预测速度。
如图9所示,CSP1_X单元能够对特征图进行下采样,从而增大感受野并增强对小目标样本的特征提取。在CSP1_X单元中包含X个Resunit组件,Resunit组件具体结构图如图10所示,其中,ADD为张量加运算。Resunit组件借鉴残差结构,使模型网络层次加深,增强特征提取效果,并在模型训练过程中可以抑制过拟合。进一步地,通过CSP1_X单元中的Concat进行多尺度多维度地特征融合,从而丰富特征的多样性,进一步提升模型的预测精度。
如图11所示,CSP2_X单元能够对特征图进行下采样,从而增大感受野。并且,CSP2_X单元与CSP1_X单元不同的是,CSP2_X单元将CSP1_X单元的X个Resunit组件替换为2X个CBL单元,通过CBL单元来增强特征提取效果,并通过Concat进行多尺度多维度地特征融合,从而丰富特征的多样性,进一步提升模型的预测精度。
此外,从图5中可以看出,商品位置识别模型包括三个输出层(Output1、Output2、以及Output3)。其中,Output1用于输出商品位置类别,该商品位置类别具体为主体类别或非主体类别。主体类别为商品占据商品图像的主体位置,而非主体类别为商品占据商品图像的非主体位置。Output2用于输出商品坐标信息,该商品坐标信息具体为商品在商品图像的具体坐标信息。Output3用于输出坐标概率信息,该坐标概率信息具体为对应坐标的预测概率。
进一步,获取训练商品位置识别模型所需的样本商品图像。该样本商品图像可以是包含各种商品位置的商品图像。并且针对获取的任一样本商品图像,生成该样本商品图像的商品位置标签,并将该样本商品图像以及对应的商品位置标签输入至构建的商品位置识别模型,待满足预设的损失条件时,输出训练好的商品位置识别模型。
在获得训练好的商品位置识别模型之后,利用该商品位置识别模型对步骤S110获得的商品图像进行商品位置。具体地,获取商品位置识别模型输出的商品位置类别、商品坐标信息、以及坐标概率信息,并根据商品位置类别、商品坐标信息、和/或坐标概率信息得到步骤S110获得的商品图像的商品位置质量评分。例如,可根据商品位置类别、商品坐标信息、和/或坐标概率信息与质量评分的映射关系来得到商品图像的商品位置质量评分。
步骤S140,将商品图像输入至预先训练好的用户视觉体验识别模型,并基于用户视觉体验识别模型的输出结果获得商品图像的视觉体验质量评分。
用户对商品图像的视觉体验(例如美学体验等)也会影响用户对商品特性的感知,继而影响用户的购买欲望。例如,当商品构图差时,会降低用户的购买欲望等。基于此,本步骤从用户视觉体验维度来对商品图像的质量进行识别,从而获得商品图像的视觉体验质量评分。
具体地,本实施例预先构建有用户视觉体验识别模型,该用户视觉体验识别模型基于神经网络算法构建。本实施例对用户视觉体验识别模型的具体结构不作限定。可选的,用户视觉体验识别模型的具体结构如图12所示。
从图12中可以看出,用户视觉体验识别模型包括:Input层、Conv层、Flatten层以及两个输出层(Output1及Output2)。其中,用户视觉体验识别模型中的Output1用于输出视觉体验子评分,该视觉体验子评分具体为用户美学体验评分;用户视觉体验识别模型中的Output2用于输出噪音子评分,该噪音子评分具体为图像的噪音评分。
在训练用户视觉体验识别模型过程中,为了提升用户视觉体验识别模型的识别精度,本实施例除了构建用户视觉体验识别模型之外,还进一步构建了用户视觉体验识别模型的孪生模型。其中,该孪生模型与用户视觉体验识别模型的结构相同,但两者在训练过程中的训练样本以及模型参数不同。
进一步获取训练用户视觉体验识别模型及孪生模型所需的样本数据。具体地,针对于任一样本商品图像,将该样本商品图像以及该样本商品图像的视觉体验质量评分标签输入至孪生模型,以及将该样本商品图像进行加噪处理后的加噪样本图像以及该加噪样本图像的视觉体验质量评分标签输入至用户视觉体验识别模型。其中,本实施例对具体的加噪处理方式不作限定,例如可对样本商品图像进行随机高斯和/或随机滤波噪声处理等。并且,本实施例中,视觉体验质量评分标签包括用户美学体验评分标签(其中,该用户美学体验评分标签可以通过构图、配色、对比度、纹理等美学指标获得)以及噪音子评分标签。
以及,根据孪生模型的输出结果与用户视觉体验识别模型的输出结果的差异,计算损失函数,并当满足预设损失条件时,输出训练好的用户视觉体验识别模型。具体地,输出结果同样包括视觉体验子评分以及噪音子评分。若孪生模型输出的视觉体验质量评分大于或等于用户视觉体验识别模型输出的视觉体验质量评分,则不计算损失函数;若孪生模型输出的视觉体验质量评分小于用户视觉体验识别模型输出的视觉体验质量评分,则计算损失函数。并判定损失函数是否满足预设损失条件,若满足预设损失条,则输出当前的用户视觉体验识别模型;若不满足预设损失条件,对用户视觉体验识别模型的模型参数进行调整后进行下一次训练。直至满足预设损失条件时,输出训练好的用户视觉体验识别模型。可选的,在计算上述损失函数过程中,具体是根据孪生模型输出的视觉体验质量评分计算孪生模型的第一回归损失,以及根据用户视觉体验识别模型输出的视觉体验质量评分计算用户视觉体验识别模型的第二回归损失,最终根据第一回归损失以及第二回归损失计算该损失函数。例如,可将第一回归损失以及第二回归损失的差值作为该损失函数取值。
在获得预先训练好的用户视觉体验识别模型之后,将商品图像输入至预先训练好的用户视觉体验识别模型,并获取用户视觉体验识别模型的输出的视觉体验子评分以及噪音子评分,继而根据视觉体验子评分以及噪音子评分获得商品图像的视觉体验质量评分。例如,可根据视觉体验子评分以及噪音子评分的加权求和结果作为商品图像的视觉体验质量评分。
可选的,为了保障最终商品图像的质量评分的准确性,本实施例中对图像背景识别模型、商品位置识别模型、以及用户视觉体验识别模型训练时采用的样本数据相同。
另外,本实施例对步骤S120、步骤S130及步骤S140的执行顺序不作限定。步骤S120、步骤S130及步骤S140可以按照相应的次序来顺序执行,也可以并发执行。
步骤S150,根据背景质量评分、商品位置质量评分、以及视觉体验质量评分获得商品图像的总质量评分。
具体地,分别为背景质量评分、商品位置质量评分、以及视觉体验质量评分分配对应的权重系数,从而根据背景质量评分、商品位置质量评分、以及视觉体验质量评分的加权求和结果获得商品图像的总质量评分。
由此可见,本实施例基于机器学习算法从商品图像的背景、商品在商品图像中的位置、以及商品图像的用户视觉体验三个维度自动地获得商品图像的总质量评分,在提升商品图像质量评分精准度的同时,进一步提升商品图像质量评分的效率。
图13示出了本发明一个实施例提供的一种商品图像的质量识别装置的结构示意图。
如图13所示,商品图像的质量识别装置1300包括:获取模块1310、第一执行模块1320、第二执行模块1330、第三执行模块1340、以及综合模块1350。
获取模块1310,用于获取商品图像;
第一执行模块1320,用于将所述商品图像输入至预先训练好的图像背景识别模型,并基于所述图像背景识别模型的输出结果获得所述商品图像的背景质量评分;
第二执行模块1330,用于将所述商品图像输入至预先训练好的商品位置识别模型,并基于所述商品位置识别模型的输出结果获得所述商品图像的商品位置质量评分
第三执行模块1340,用于将所述商品图像输入至预先训练好的用户视觉体验识别模型,并基于所述用户视觉体验识别模型的输出结果获得所述商品图像的视觉体验质量评分;
综合模块1350,用户根据所述背景质量评分、所述商品位置质量评分、以及所述视觉体验质量评分获得所述商品图像的总质量评分。
在一种可选的实施方式中,第三执行模块1340进一步用于:在所述将所述商品图像输入至预先训练好的用户视觉体验识别模型之前,构建用户视觉体验识别模型以及所述用户视觉体验识别模型的孪生模型;
针对于任一样本商品图像,将该样本商品图像以及该样本商品图像的视觉体验质量评分标签输入至所述孪生模型,以及将该样本商品图像进行加噪处理后的加噪样本图像以及该加噪样本图像的视觉体验质量评分标签输入至所述用户视觉体验识别模型;
根据所述孪生模型的输出结果与所述用户视觉体验识别模型的输出结果的差异,计算损失函数;
当满足预设损失条件时,输出训练好的用户视觉体验识别模型。
在一种可选的实施方式中,第三执行模块1340进一步用于:若所述孪生模型输出的视觉体验质量评分大于或等于所述用户视觉体验识别模型输出的视觉体验质量评分,则不计算所述损失函数;
若所述孪生模型输出的视觉体验质量评分小于所述用户视觉体验识别模型输出的视觉体验质量评分,则计算所述损失函数。
在一种可选的实施方式中,第三执行模块1340进一步用于:根据所述孪生模型输出的视觉体验质量评分计算所述孪生模型的第一回归损失,以及根据所述用户视觉体验识别模型输出的视觉体验质量评分计算所述用户视觉体验识别模型的第二回归损失;
根据所述第一回归损失以及所述第二回归损失计算所述损失函数。
在一种可选的实施方式中,第三执行模块1340进一步用于:获取所述用户视觉体验识别模型的输出的视觉体验子评分以及噪音子评分;
根据所述视觉体验子评分以及所述噪音子评分获得所述商品图像的视觉体验质量评分。
在一种可选的实施方式中,所述图像背景识别模型包括:多个不同结构的Bottleneck模块。
在一种可选的实施方式中,第二执行模块1330进一步用于:获取所述商品位置识别模型输出的商品位置类别、商品坐标信息、以及坐标概率信息;
根据所述商品位置类别、所述商品坐标信息、和/或所述坐标概率信息获得所述商品图像的商品位置质量评分。
其中,本装置中各模块的具体实施过程可参照图1所示方法实施例中相应部分的描述,本实施例在此不作赘述。
由此可见,本实施例基于机器学习算法从商品图像的背景、商品在商品图像中的位置、以及商品图像的用户视觉体验三个维度自动地获得商品图像的总质量评分,在提升商品图像质量评分精准度的同时,进一步提升商品图像质量评分的效率。
本发明一个实施例提供了一种非易失性计算机存储介质,所述计算机存储介质存储有至少一可执行指令,该计算机可执行指令可执行上述任意方法实施例中的商品图像的质量识别方法。
可执行指令具体可以用于使得处理器执行以下操作:
获取商品图像;
将所述商品图像输入至预先训练好的图像背景识别模型,并基于所述图像背景识别模型的输出结果获得所述商品图像的背景质量评分;
将所述商品图像输入至预先训练好的商品位置识别模型,并基于所述商品位置识别模型的输出结果获得所述商品图像的商品位置质量评分;
将所述商品图像输入至预先训练好的用户视觉体验识别模型,并基于所述用户视觉体验识别模型的输出结果获得所述商品图像的视觉体验质量评分;
根据所述背景质量评分、所述商品位置质量评分、以及所述视觉体验质量评分获得所述商品图像的总质量评分。
在一种可选的实施方式中,可执行指令具体可以用于使得处理器执行以下操作:
在所述将所述商品图像输入至预先训练好的用户视觉体验识别模型之前,
构建用户视觉体验识别模型以及所述用户视觉体验识别模型的孪生模型;
针对于任一样本商品图像,将该样本商品图像以及该样本商品图像的视觉体验质量评分标签输入至所述孪生模型,以及将该样本商品图像进行加噪处理后的加噪样本图像以及该加噪样本图像的视觉体验质量评分标签输入至所述用户视觉体验识别模型;
根据所述孪生模型的输出结果与所述用户视觉体验识别模型的输出结果的差异,计算损失函数;
当满足预设损失条件时,输出训练好的用户视觉体验识别模型。
在一种可选的实施方式中,可执行指令具体可以用于使得处理器执行以下操作:
若所述孪生模型输出的视觉体验质量评分大于或等于所述用户视觉体验识别模型输出的视觉体验质量评分,则不计算所述损失函数;
若所述孪生模型输出的视觉体验质量评分小于所述用户视觉体验识别模型输出的视觉体验质量评分,则计算所述损失函数。
在一种可选的实施方式中,可执行指令具体可以用于使得处理器执行以下操作:
根据所述孪生模型输出的视觉体验质量评分计算所述孪生模型的第一回归损失,以及根据所述用户视觉体验识别模型输出的视觉体验质量评分计算所述用户视觉体验识别模型的第二回归损失;
根据所述第一回归损失以及所述第二回归损失计算所述损失函数。
在一种可选的实施方式中,可执行指令具体可以用于使得处理器执行以下操作:
获取所述用户视觉体验识别模型的输出的视觉体验子评分以及噪音子评分;
根据所述视觉体验子评分以及所述噪音子评分获得所述商品图像的视觉体验质量评分。
在一种可选的实施方式中,所述图像背景识别模型包括:多个不同结构的Bottleneck模块。
在一种可选的实施方式中,可执行指令具体可以用于使得处理器执行以下操作:
获取所述商品位置识别模型输出的商品位置类别、商品坐标信息、以及坐标概率信息;
根据所述商品位置类别、所述商品坐标信息、和/或所述坐标概率信息获得所述商品图像的商品位置质量评分。
由此可见,本实施例基于机器学习算法从商品图像的背景、商品在商品图像中的位置、以及商品图像的用户视觉体验三个维度自动地获得商品图像的总质量评分,在提升商品图像质量评分精准度的同时,进一步提升商品图像质量评分的效率。
图14示出了本发明一个实施例提供的一种计算设备的结构示意图。本发明具体实施例并不对计算设备的具体实现做限定。
如图14所示,该计算设备可以包括:处理器(processor)1402、通信接口(Communications Interface)1404、存储器(memory)1406、以及通信总线1408。
其中:处理器1402、通信接口1404、以及存储器1406通过通信总线1408完成相互间的通信。通信接口1404,用于与其它设备比如客户端或其它服务器等的网元通信。处理器1402,用于执行程序1410,具体可以执行上述方法实施例中的相关步骤。
具体地,程序1410可以包括程序代码,该程序代码包括计算机操作指令。
处理器1402可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。计算设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器1406,用于存放程序1410。存储器1406可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序1410具体可以用于使得处理器1402执行以下操作:
可执行指令具体可以用于使得处理器执行以下操作:
获取商品图像;
将所述商品图像输入至预先训练好的图像背景识别模型,并基于所述图像背景识别模型的输出结果获得所述商品图像的背景质量评分;
将所述商品图像输入至预先训练好的商品位置识别模型,并基于所述商品位置识别模型的输出结果获得所述商品图像的商品位置质量评分;
将所述商品图像输入至预先训练好的用户视觉体验识别模型,并基于所述用户视觉体验识别模型的输出结果获得所述商品图像的视觉体验质量评分;
根据所述背景质量评分、所述商品位置质量评分、以及所述视觉体验质量评分获得所述商品图像的总质量评分。
在一种可选的实施方式中,程序1410具体可以用于使得处理器1402执行以下操作:
在所述将所述商品图像输入至预先训练好的用户视觉体验识别模型之前,构建用户视觉体验识别模型以及所述用户视觉体验识别模型的孪生模型;
针对于任一样本商品图像,将该样本商品图像以及该样本商品图像的视觉体验质量评分标签输入至所述孪生模型,以及将该样本商品图像进行加噪处理后的加噪样本图像以及该加噪样本图像的视觉体验质量评分标签输入至所述用户视觉体验识别模型;
根据所述孪生模型的输出结果与所述用户视觉体验识别模型的输出结果的差异,计算损失函数;
当满足预设损失条件时,输出训练好的用户视觉体验识别模型。
在一种可选的实施方式中,程序1410具体可以用于使得处理器1402执行以下操作:
若所述孪生模型输出的视觉体验质量评分大于或等于所述用户视觉体验识别模型输出的视觉体验质量评分,则不计算所述损失函数;
若所述孪生模型输出的视觉体验质量评分小于所述用户视觉体验识别模型输出的视觉体验质量评分,则计算所述损失函数。
在一种可选的实施方式中,程序1410具体可以用于使得处理器1402执行以下操作:
根据所述孪生模型输出的视觉体验质量评分计算所述孪生模型的第一回归损失,以及根据所述用户视觉体验识别模型输出的视觉体验质量评分计算所述用户视觉体验识别模型的第二回归损失;
根据所述第一回归损失以及所述第二回归损失计算所述损失函数。
在一种可选的实施方式中,程序1410具体可以用于使得处理器1402执行以下操作:
获取所述用户视觉体验识别模型的输出的视觉体验子评分以及噪音子评分;
根据所述视觉体验子评分以及所述噪音子评分获得所述商品图像的视觉体验质量评分。
在一种可选的实施方式中,所述图像背景识别模型包括:多个不同结构的Bottleneck模块。
在一种可选的实施方式中,程序1410具体可以用于使得处理器1402执行以下操作:
获取所述商品位置识别模型输出的商品位置类别、商品坐标信息、以及坐标概率信息;
根据所述商品位置类别、所述商品坐标信息、和/或所述坐标概率信息获得所述商品图像的商品位置质量评分。
由此可见,本实施例基于机器学习算法从商品图像的背景、商品在商品图像中的位置、以及商品图像的用户视觉体验三个维度自动地获得商品图像的总质量评分,在提升商品图像质量评分精准度的同时,进一步提升商品图像质量评分的效率。
在此提供的算法或显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明实施例也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。上述实施例中的步骤,除有特殊说明外,不应理解为对执行顺序的限定。