一种用于抑制语言偏差的贪心梯度集成方法及系统

文档序号:7796 发布日期:2021-09-17 浏览:56次 英文

一种用于抑制语言偏差的贪心梯度集成方法及系统

技术领域

本发明涉及一种贪心梯度集成方法及系统,尤其涉及一种用于抑制语言偏差的贪心梯度集成方法及系统。

背景技术

视觉问答技术(VQA,Visual Question answering)的目标是根据给定的图片进行自然语言的问答,是多模态领域一个重要研究方向,在改善人机交互,视觉障碍人群辅助获取视觉信息,高级AI智能方面有广泛的研究和应用价值。

由于收集数据过程中的不可避免的不平衡,以及由于问题-答案是同模态特征产生的强关联,基于深度学习的视觉问答模型通常倾向于捕捉问题和答案之间的映射关系而忽略图片的信息进行问题回答,严重影响了模型的鲁棒性和泛化能力。这种偏差在视觉问答系统中被称为“语言偏差”(Language Bias)。对于一个可信赖可泛化的视觉问答系统,如何平衡语言和视觉特征对最后决策的影响,在决策过程中充分利用图像信息进行答案的预测,抑制语言偏差,是一个亟待解决的问题。

发明内容

本发明的目的是针对视觉问答系统中语言偏差的问题,提出了一种贪心梯度集成算法,该发明可以通过抑制数据偏差和语言捷径,抑制语言偏差现象。

本发明提供一种用于抑制语言偏差的贪心梯度集成方法,其中,包括下列步骤:将视觉问答任务建模为一加性模型,该加性模型分为广义相加的基础模型与偏差模型;对该加性模型各部逐一进行优化,先对偏差模型进行优化,利用二值交叉熵损失函数求该偏差模型最小损失:将m(m∈N*)个偏差模型函数代入二值交叉熵损失函数,对该二值交叉熵损失函数求负梯度以获得第m+1偏差模型函数的优化方向;优化该所有偏差模型后,以所有偏差模型的负梯度为监督,再对该基础模型进行优化。

上述的贪心梯度集成方法,其中,该加性模型用一函数表示:

其中,f(X;θ)表示该基础模型,hi(Bi;φi)表示该偏差模型,X表示输入变量,θ表示基础模型的参数,Bi表示分离的偏差特征,M(M∈N*且m∈M)表示偏差模型总数,用于监督模型优化方向,φi代表第i个偏差模型的参数。

上述的贪心梯度集成方法,其中,将该m个偏差模型函数代入该二值交叉熵损失函数后得到:

对该代入后的二值交叉熵损失函数求负梯度得:

其中,σ()代表Sigmoid函数,ym,i代表第m个模型第i个答案候选的标注标签(0或者1)。

上述的贪心梯度集成方法,其中,以所有偏差模型的负梯度为监督,再对该基础模型进行优化具体表现为:

如上式所示,代表以所有偏差模型负梯度为标签,σ(f(X;θ))表示基础模型函数的Sigmoid函数,代表对该基础模型函数以该所有偏差模型函数负梯度为标签取损失最小值。

上述的贪心梯度集成方法,其中,该偏差模型包括长尾分布偏差模型与问题答案偏差模型。

本发明还提供一种用于抑制语言偏差的贪心梯度集成系统,其中,包括:模块1、将视觉问答任务建模为一加性模型,该加性模型分为广义相加的基础模型与偏差模型;模块2、对该加性模型各部逐一进行优化,先对偏差模型进行优化,利用二值交叉熵损失函数求该偏差模型最小损失:将m(m∈N*)个偏差模型函数代入二值交叉熵损失函数,对该二值交叉熵损失函数求负梯度以获得第m+1偏差模型函数的优化方向;模块3、优化该所有偏差模型后,以所有偏差模型的负梯度为监督,再对该基础模型进行优化。

上述的贪心梯度集成系统,其中,该加性模型用一函数表示:

其中,f(X;θ)表示该基础模型,hi(Bi;φi)表示该偏差模型,X表示输入变量,θ表示基础模型的参数,φi代表第i个偏差模型的参数,Bi表示分离的偏差特征,M(M∈N*且m∈M)表示偏差模型总数,用于监督模型优化方向。

上述的贪心梯度集成系统,其中,将该m个偏差模型函数代入该二值交叉熵损失函数后得到:

对该代入后的二值交叉熵损失函数求负梯度得:

其中,σ()代表Sigmoid函数,ym,i代表第m个模型第i个答案候选的标注标签(0或者1)。

上述的贪心梯度集成系统,其中,以所有偏差模型的负梯度为监督,再对该基础模型进行优化具体表现为:

如上式所示,代表以所有偏差模型负梯度为标签,σ(f(X;θ))表示基础模型函数的Sigmoid函数,代表对该基础模型函数以该所有偏差模型函数负梯度为标签取损失最小值。

上述的贪心梯度集成系统,其中,该偏差模型包括长尾分布偏差模型与问题答案偏差模型。

以下结合附图和具体实施例对本发明进行详细描述,但不作为对本发明的限定。

附图说明

图1为根据本发明一实施例的贪心梯度集成方法流程图。

图2为根据本发明一具体实施例的贪心梯度集成方法流程图。

具体实施方式

下面结合附图对本发明的结构原理和工作原理作具体的描述:

本说明书公开了一个或多个包含本发明特点的实施例。公开的实施例仅仅用于举例说明。本发明的保护范围并不限于所公开的实施例。本发明由所附权利要求来限定。

说明书中针对“一个实施例”、“实施例”、“示例实施例”等的引用,指的是描述的该实施例可包括特定的特征、结构或特性,但是不是每个实施例必须包含这些特定特征、结构或特性。此外,这样的表述并非指的是同一个实施例。进一步,在结合实施例描述特定的特征、结构或特性时,不管有没有明确的描述,已经表明将这样的特征、结构或特性结合到其它实施例中是在本领域技术人员的知识范围内的。

在说明书及后续的权利要求书中使用了某些词汇来指称特定组件或部件,本领域普通技术的员应可理解,技术使用者或制造商可以不同的名词或术语来称呼同一个组件或部件。本说明书及后续的权利要求书并不以名称的差异来作为区分组件或部件的方式,而是以组件或部件在功能上的差异来作为区分的准则。在通篇说明书及后续的权利要求项中所提及的“包括”和“包含”为一开放式的用语,故应解释成“包含但不限定于”。以外,“连接”一词在此包含任何直接及间接的电性连接手段。间接的电性连接手段包括通过其它装置进行连接。

需要说明的是,在本发明的描述中,术语“横向”、“纵向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,并不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。

如图1所示,为根据本发明一实施例的贪心梯度集成方法流程图。贪心梯度集成方法包括下列步骤:将视觉问答任务建模为一加性模型,加性模型分为广义相加的基础模型与偏差模型,加性模型可用一函数表示:

其中,f(X;θ)表示该基础模型,hi(Bi;φi)表示该偏差模型,X表示输入变量,θ表示基础模型的参数,φi代表第i个偏差模型的参数,Bi表示分离的偏差特征,M(M∈N*且m∈M)表示偏差模型总数,用于监督模型优化方向。

建模完成后,再对加性模型各部逐一进行优化。在本发明中为了以所有偏差模型的负梯度作为标签,所以需要先对偏差模型进行优化,利用二值交叉熵损失函数求偏差模型最小损失:

二值交叉熵损失函数为:

pi=σ(zi)

其中,P代表C维向量,Y代表C维向量;pi表示向量P的第i个维度,yi表示向量Y的第i个维度,zi是模型的对第i个答案候选的输出。

将m(m∈N*)个偏差模型函数代入二值交叉熵损失函数,得到:

对该代入后的二值交叉熵损失函数求负梯度得:

其中,σ()代表Sigmoid函数,ym,i代表第m个模型第i个答案候选的标注标签(0或者1)。

对二值交叉熵损失函数求负梯度以获得第m+1个偏差模型函数的优化方向;

由于偏差模型有多种,所以需要在每优化一个偏差模型就判断是否优化完所有偏差模型。当优化所有偏差模型后,以所有偏差模型的负梯度为监督,再对该基础模型进行优化,如下式:

如上式所示,代表以所有偏差模型负梯度为标签,σ(f(X;θ))表示基础模型函数的Sigmoid函数,代表对该基础模型函数以该所有偏差模型函数负梯度为标签取损失最小值。

如图2所示,为根据本发明一具体实施例的贪心梯度集成方法流程图。在视觉问答问题中,带来语言偏差的偏差特征主要有两种:答案的长尾分布,以及问题语义和答案之间的强关联。因此,在本具体实施例中,偏差模型被具体为长尾分布偏差模型与问题答案偏差模型,该两种模型为主要存在的偏差模型类型,但本发明不以此为限,还可根据需要添加或减少偏差特征的类型。

具体来说,流程大致如图1实施例所示,首先仍然是将将视觉问答任务建模为一加性模型,加性模型分为广义相加的基础模型与偏差模型。在本实施例中,偏差模型可分别表示为:

该式表示长尾分布偏差模型,其中ti代表问题qi的类型,问题类型参考VQA(图像问题和答案标签)数据集的65个类型,由问题的前几个单词确定。

还表示为:

该式表示问题答案偏差模型,其中,cq是全连接的分类器,得到代表答案的预测置信是C维的实数向量。

首先将统计得到预测作为第一个偏差模型预测,根据第一次预测的梯度优化第二个偏差模型

其中为标签答案。两次偏差模型相加,继续优化基础模型,继续使用梯度集成优化基础模型

模型使用批梯度下降(Batch SGD,Stochastic Gradient Decent)进行优化,在每个批内一次优化L1和L2,在测试的时候只使用按照贪心梯度集成得到基础模型进行答案预测。由于本发明提出的贪心梯度集成是在监督层面进行约束,与基础模型的选择无关,对于各种基础模型都具有泛化能力。

本发明设计了一种贪心策略梯度集成算法,用有偏差特征预测损失的梯度作为主模型预测的伪标签进行监督,训练得到更稳定的视觉问答模型。针对该任务通常面临的两种主要偏差,首先将训练样本标签长尾分布作为第一种偏差建模,使用梯度集成方法平衡样本,重点关注尾部标签样本;使用问题-答案分支作为第二种偏差建模,再次使用梯度集成方法鼓励模型重点学习只使用语言模型难以回答的问题,迫使模型更多参考视觉信息进行答案推理。通过两次学习得到对语言先验更鲁棒的视觉问答模型。在技术效果上,可以去除掉多种偏差特征带来的影响,对于语言先验更加鲁棒,提升预测模型的泛化能力。对标签分布特征和问题语言特征进行单独建模,并通过贪心梯度集成的策略进行逐一抑制;在技术效果上可以迫使视觉问答系统关注视觉部分信息,对预测答案提供可回溯的视觉证据。

当然,本发明还可有其它多种实施例,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

完整详细技术资料下载
上一篇:石墨接头机器人自动装卡簧、装栓机
下一篇:一种基于自然语言实时场景生成的聊天机器人

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!