一种基于自适应特征融合的多模态实体对齐方法

文档序号:7761 发布日期:2021-09-17 浏览:43次 英文

一种基于自适应特征融合的多模态实体对齐方法

技术领域

本发明涉及自然语言处理中的知识图谱

技术领域

,尤其涉及一种基于自适应特征融合的多模态实体对齐方法。

背景技术

近年来,知识图谱成为了结构化数据广泛使用的表示方式。它以三元组的形式来表示现实世界的知识或事件,并且广泛应用于各类人工智能的下游任务。当前,多模态知识图谱往往从有限的数据源构建而得,存在信息缺失、覆盖率低的问题,使得知识利用率不高。考虑到人工补全知识图谱开销大且效率低,为了提高知识图谱的覆盖程度,一种可行的方法是自动地整合来自其他知识图谱的有用知识。实体作为链接不同知识图谱的枢纽,对于整合各个多模态知识图谱而言至关重要。识别不同的多模态知识图谱中表达同一含义的实体的过程,称为多模态实体对齐。

多模态实体对齐需要利用和融合多个模态的信息。然而,现有的多模态实体对齐方法遇到两个瓶颈:第一,图谱结构差异性难以处理。不同知识图谱中对等的实体通常具有对等的邻居实体,基于这一假设,目前的主流实体对齐方法主要依赖知识图谱的结构信息。然而真实世界中,由于构建方式的不同,不同知识图谱可能存在着较大结构差异。针对此类问题,可基于链接预测生成三元组以丰富结构信息,虽然在一定程度上缓和了结构差异性的问题,但生成的三元组可靠性有待考量,并且对于三元组数量相差多倍的情况补全难度很大。第二,视觉信息利用差。当前自动化构建多模态知识图谱的方法通常基于现有知识图谱补全其他模态的信息。为获取视觉信息,这些方法主要是利用爬虫从互联网获取与实体的相关图片。然而获取的图片中不可避免地存在部分相关程度较低的图片,即噪声图片。当前方法无法判别实体相关图片中的噪声图片,使得实体的视觉信息中混有部分噪声,进而降低了视觉信息进行实体对齐的准确率。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明公开了一种基于自适应特征融合的多模态实体对齐方法。所述方法针对目前多模态知识图谱视觉信息利用差的问题,利用预训练的图像-文本匹配模型,计算实体-图片的相似度得分,设置相似度阈值以过滤噪声图片,并基于相似度赋予图片不同权重,最终生成实体的视觉特征表示;此外,为捕获结构信息动态变化的置信度,充分利用不同模态信息的互补性,设计了自适应特征融合机制,基于实体的度以及实体与种子实体之间的距离,动态融合实体的结构信息和视觉信息,这种机制能够应对长尾实体数量占比大且结构信息相对匮乏的挑战。

本发明的技术方案如下,一种基于自适应特征融合的多模态实体对齐方法,包括以下步骤:

步骤1,获取两个多模态知识图谱的数据,以及,其中E代表实体集合;R代表关系集合;T代表三元组集合,是E×R×E的子集;I代表实体相关联的图片集合;

步骤2,在结构特征学习模块中,利用图卷积神经网络分别学习所述两个多模态知识图谱的实体的结构向量,生成各自实体的结构特征表示;

步骤3,在视觉特征处理模块中,分别生成各自实体的视觉特征表示;

步骤4,所述的自适应特征融合模块,对于每个实体对计算之间的相似度得分,利用该相似度得分来预测潜在的对齐实体,所述的相似度得分为:

,

分别表示实体的结构特征表示和视觉特征表示的相似度,分别代表结构特征表示和视觉特征表示的贡献率权重;

,

.

其中,K、b、a为超参数,degree表示实体的度,Nhop表示实体与种子实体关联密切程度:

,

其中,分别表示距离种子实体1跳和2跳的数量;w1、w2为超参数。

具体地,在步骤3的视觉特征处理模块中包括,步骤301,采用预训练的图像-文本匹配模型CVSE,生成图片与实体相似度;步骤302,设置相似度阈值过滤噪声图片;步骤303,基于图片与实体相似度赋予图片相应的权重,生成实体的视觉特征表示。

更进一步地,在步骤301中,使用预训练的图像-文本匹配模型计算实体图片集中各个图片的相似度得分,采用预训练的共识感知视觉语义嵌入模型CVSE,CVSE模型输入为实体ei的图片嵌入pi,和文本信息ti,其中,图片嵌入,n为实体对应图片集中图片的数量,36×2048为预训练的目标检测算法Faster-RCNN为每张图片生成的特征向量维度,输入模型的实体文本信息ti通过将实体名拓展为句子:ti={A photo of EntityName.}得到;接着将图片嵌入和文本信息送入模型CVSE中,获取实体图像集中图片的相似度得分:

,

其中,CVSE的Softmax层被移除,模型输入为图片嵌入pi和文本信息ti,生成多张图片的相似度得分,n为实体对应图片集中图片的数量;

在步骤302中,设置相似度阈值α,以过滤噪声图片:

,

其中set(i)代表初始图片集,set(i)’表示过滤掉噪声图片后的图片集,Simv(j’)表示图片j’与实体的相似度得分;

在步骤303中,生成实体ei更精确的视觉特征表示Vi:

,

其中,表示实体i的视觉特征;为Resnet模型生成的图像特征,n’为去除噪声后的图片数量,Atti表示图片注意力权重:

Atti = Softmax(Simv’),

其中 Simv’为图片集set(i)’的相似度得分。

具体地,步骤2所述的结构特征学习模块采用图卷积神经网络捕捉实体邻接结构信息并生成实体结构特征表示:

,

其中,Hl,Hl+1分别表示l层,l+1层实体节点的特征矩阵; 表示标准化的邻接矩阵,D为度矩阵,,其中A表示邻接矩阵,若实体i和实体j之间存在关系,则Aij=1;I表示单位矩阵,激活函数σ设为ReLU,Wl为l层可训练的参数矩阵;

由于不同知识图谱的实体结构向量并不在同一空间中,因此需要利用已知实体对S将不同知识图谱的实体结构向量映射到同一空间中,具体的训练目标为最小化下述损失值:

,

其中,(x)+=max{0,x},代表负样本集合,基于已知的种子实体对(e1,e2),以随机实体替换e1或者 e2生成,he代表实体e的结构向量,代表实体e1和 e2 之间的曼哈顿距离,γ代表正负例样本分隔的距离,采用随机梯度下降进行模型优化。

更进一步地,在进行步骤2获得结构特征表示和步骤3获得视觉特征表示之前,利用无监督的三元组筛选模块量化三元组(h,r,t)的重要性,并基于重要性得分过滤部分无效三元组,其中h代表头实体,t代表尾实体,r代表关系。

具体地,在所述的三元组筛选模块中,首先构建以关系为节点,实体为边的关系-实体图,也称知识图谱的关系对偶图,定义知识图谱为Ge=(Ve,Ee),其中Ve 为实体集合,Ee为关系集合,关系对偶图Gr以关系为节点,若两个不同的关系有同一个实体连接,则这两个关系节点间存在一条边,Vr为关系节点的集合,Er为边的集合,关系对偶图Gr=(Vr,Er),基于关系对偶图,使用PageRank算法计算关系得分:

其中,PR(r)为关系的PageRank评分;Br表示关系r的邻居关系集合,关系,L(v)代表关系v的连接关系数量;

由此计算三元组评分函数:

Score(h,r,t) = PR(r),

基于三元组评分Score(h,r,t) ,并设置阈值β,保留Score(h,r,t) >β的三元组,精化知识图谱。

与现有方法相比,本发明方法的优点在于:针对视觉信息利用差的问题,本工作基于预训练图像-文本匹配模型,计算实体-图片的相似度得分,过滤噪声图片,并基于相似度得分获得更准确的实体视觉特征表示;设计了自适应特征融合机制,以可变注意力融合实体的结构特征和视觉特征,充分利用多模态信息的互补性,提升对齐效果。

附图说明

图1示出了本发明实施例的流程示意图;

图2示出了本发明实施例的多模态实体对齐框架示意图;

图3示出了本发明实施例的视觉特征处理模块流程示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部份实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。

应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

图1示出了一种基于自适应特征融合的多模态实体对齐方法,包括以下步骤:

步骤1,获取两个多模态知识图谱的数据;

步骤2,在结构特征学习模块中,利用图卷积神经网络分别学习所述两个多模态知识图谱的实体的结构向量,生成各自实体的结构特征表示;

步骤3,在视觉特征处理模块中,分别生成各自实体的视觉特征表示;

步骤4,通过自适应特征融合模块,结合两个多模态知识图谱的实体结构特征和实体视觉特征进行实体对齐。

多模态知识图谱通常包含多个模态的信息。在不失一般性的前提下,本工作仅关注知识图谱的结构信息和视觉信息。给定两个多模态知识图谱,以及,其中E代表实体集合;R代表关系集合;T代表三元组集合,是E×R×E的子集;I代表实体相关联的图片集合。种子实体对集合,表示用于训练的已经对齐的实体对集合。多模态实体对齐任务旨在利用已知的实体对信息找到新的实体对,并预测潜在的对齐结果,其中等号代表两个实体指向真实世界中同一实体。

给定某一实体,寻找其在另一知识图谱中对应实体的过程可视为排序问题。即在某一特征空间下,计算给定实体与另一知识图谱中所有实体的相似程度(距离)并给出排序,而相似程度最高(距离最小)的实体可被视为对齐结果。

如图2所示,本发明首先设计了多模态实体对齐框架:利用图卷积神经网络学习实体的结构向量,生成实体结构特征;设计视觉特征处理模块,生成实体视觉特征;接着基于自适应特征融合机制,结合两种模态的信息进行实体对齐。此外,为缓和知识图谱的结构差异性,本实施例设计了三元组筛选机制,融合关系评分及实体的度,过滤部分三元组。图2中MG1、MG2表示不同的多模态知识图谱;KG1、KG2表示知识图谱,KG1’表示三元组筛选模块处理后的知识图谱。

视觉特征处理模块:为解决多模态实体对齐方法存在的视觉信息利用差的问题,受图像-文本匹配模型的启发,本工作设计了视觉特征处理模块,为实体生成更精确的视觉特征以帮助实体对齐。图3详细描述了实体视觉特征的生成过程。在缺乏监督数据的情况下,本文采用预训练的图像-文本匹配模型CVSE,生成图片与实体相似度;接下来设置相似度阈值过滤噪声图片;并基于相似度得分赋予图片相应的权重,最终生成实体的视觉特征表示。

计算图片-实体相似度得分。本步骤使用预训练的图像-文本匹配模型计算实体图片集中各个图片的相似度得分。采用预训练的共识感知视觉语义嵌入模型CVSE(Consensus-aware Visual Semantic Embedding),模型参数在MSCOCO和Flickr30k数据集上训练而得到。模型输入为实体ei的图片嵌入pi,和文本信息ti,其中,图片嵌入,n为实体对应图片集中图片的数量,36×2048为预训练的目标检测算法Faster-RCNN为每张图片生成的特征向量维度。输入模型的实体文本信息ti 通过将实体名[Entity Name]拓展为句子: ti={A photo of Entity Name.}得到。

接着将图片嵌入和文本信息送入模型CVSE中,获取实体图像集中图片的相似度得分:

其中,CVSE的Softmax层被移除,模型输入为图片嵌入pi和文本信息ti,生成多张图片的相似度得分,n为实体对应图片集中图片的数量。

过滤噪声图片。考虑到实体的图片集中存在部分相似度很低的图片,影响视觉信息的精度。鉴于此,设置相似度阈值α,以过滤噪声图片:

,

其中set(i)代表初始图片集,set(i)’表示过滤掉噪声图片后的图片集,Simv(j’)表示图片j’与实体的相似度得分。

实体视觉特征表示生成。通过图片过滤机制生成的实体图片集合,并基于图片相似度得分赋予权重,最终生成实体ei更精确的视觉特征表示Vi:

,

其中,表示实体i的视觉特征;为Resnet模型生成的图像特征,n’为去除噪声后的图片数量,Atti表示图片注意力权重:

Atti = Softmax(Simv’),

其中 Simv’为图片集set(i)’的相似度得分。

结构特征学习模块:本实施例采用图卷积神经网络(GCN)捕捉实体邻接结构信息并生成实体结构表示向量。GCN 是一种直接作用在图结构数据上的卷积网络,通过捕捉节点周围的结构信息生成相应的节点结构向量:

,

其中,Hl,Hl+1分别表示l层,l+1层实体节点的特征矩阵; 表示标准化的邻接矩阵,D为度矩阵,,其中A表示邻接矩阵,若实体i和实体j之间存在关系,则Aij=1;I表示单位矩阵,激活函数σ设为ReLU,Wl为l层可训练的参数矩阵。

由于不同知识图谱的实体结构向量并不在同一空间中,因此需要利用已知实体对S将它们映射到同一空间中。具体的训练目标为最小化下述损失值:

,

其中,(x)+=max{0,x},代表负样本集合,基于已知的种子实体对(e1,e2),以随机实体替换e1或者 e2生成,he代表实体e的结构向量,代表实体e1和 e2 之间的曼哈顿距离,γ代表正负例样本分隔的距离,采用随机梯度下降进行模型优化。

自适应特征融合模块:多模态知识图谱包含至少两个模态的信息,多模态实体对齐需要融合不同模态的信息。已有的方法将不同的嵌入合并到一个统一的表示空间中,这需要额外的训练来统一表示不相关的特征。更可取的策略是首先计算每个特征特定空间内的相似度矩阵,然后组合特征相似度得分。

形式上,给定结构特征向量表示S,视觉特征表示V。对于每个实体对(e1,e2),计算e1和e2之间的相似度得分,然后利用该相似度得分来预测潜在的对齐实体。为了计算总体相似度,我们首先计算实体对之间的特定特征相似度得分,即。 接下来,组合上述相似度得分:

其中,Atts、Attv分别代表结构信息和视觉信息的贡献率权重。

不同模态的特征从不同视角表征实体,具有一定相关性和互补性。而当前方法以固定的贡献率权重结合结构信息和视觉信息,忽略了不同实体之间结构信息的贡献率差异性。对于结构信息匮乏的实体,应更多地信任视觉特征表示。并且,直觉来看,实体与种子实体关联的密切程度与其结构特征的准确性也成正相关。

为了捕捉不同模态信息的贡献率动态变化,受基于度感知的联合注意机制的启发,在实体度的基础上,进一步结合实体与种子实体关联的密切程度,设计了自适应特征融合机制:

,

.

其中,K、b、a为超参数,degree表示实体的度,Nhop表示实体与种子实体关联密切程度:

,

其中,分别表示距离种子实体1跳和2跳的数量;w1、w2为超参数。

更进一步地,在进行步骤2获得结构特征表示和步骤3获得视觉特征表示之前,利用无监督的三元组筛选模块量化三元组(h,r,t)的重要性,并基于重要性得分过滤部分无效三元组。

知识图谱的结构信息表现为三元组,(h,r,t),其中其中h代表头实体,t代表尾实体,r代表关系。不同知识图谱三元组的数量差异较大,导致基于结构信息进行实体对齐的效果大打折扣。为缓和不同知识图谱的结构差异性,本工作设计了无监督的三元组筛选模块,量化三元组重要性,并基于重要性得分过滤部分无效三元组。其中三元组重要性得分结合了关系r的PageRank得分,以及实体h、t的度。

关系PageRank评分计算。首先构建以关系为节点,实体为边的关系-实体图,也称知识图谱的关系对偶图。定义知识图谱为Ge=(Ve,Ee),其中Ve 为实体集合,Ee 为关系集合,关系对偶图Gr以关系为节点,若两个不同的关系有同一个实体连接,则这两个关系节点间存在一条边,Vr为关系节点的集合,Er为边的集合,关系对偶图Gr=(Vr,Er)。

基于上述生成的关系对偶图,本实施例使用PageRank算法计算关系得分。PageRank算法是图数据上链接分析的代表性算法,属于无监督学习方法。其基本想法是在有向图上定义一个随机游走模型,描述随机游走者沿着有向图随机访问各个结点的行为。在一定条件下,极限情况访问每个结点的概率收敛到平稳分布,这时各个结点的平稳概率值就是其PageRank值,表示结点的重要度。受该算法的启发,基于知识图谱关系对偶图,计算关系的PageRank值以表示关系的重要性:

其中,PR(r)为关系的PageRank评分;Br表示关系r的邻居关系集合,关系,L(v)代表关系v的连接关系数量(即度)。

三元组评分机制。对三元组的筛选,一方面要过滤掉冗余或无效的关系,另一方面要保护知识图谱的结构特征。由于结构信息缺乏的长尾实体仅有少量相关三元组,若基于关系重要性评分直接过滤一种关系可能会加剧长尾实体的结构信息匮乏问题。为此,本实施例提供了两种三元组的评分函数,一种是直接采用PageRank评分,设计三元组评分函数:

Score(h,r,t) = PR(r),

基于三元组评分Score(h,r,t) ,并设置阈值β,保留Score(h,r,t) >β的三元组,精化知识图谱。

在实验中,本实施例使用了数据集MMKG,分别从知识库FreeBase、DBpedia和Yago中抽取得到。这些数据集基于FB15K,使用知识图谱间的SameAs(等价)链接将FB15K中的实体与其他知识图谱中的等效实体对齐,从而生成DB15K和Yago15K。本文在FB15K-DB15K和FB15K-YAGO15K两对多模态知识图谱上进行实验。

由于数据集不提供图片,为获取实体相关图片,本实施例使用URI数据,并设计了网络爬虫,解析来自图像搜索引擎(即Google Images、Bing Images和Yahoo ImageSearch)的查询结果。然后,将不同搜索引擎获取的图片分配给不同的MMKG。为模拟真实世界多模态知识图谱的构建过程,去除了等效实体图像集中相似度过高的图片,并引入一定数量的噪声图片。表1描述了数据集的详细信息。在实验中,已知的等效实体对被用于模型训练和测试。

表1 多模态知识图谱统计信息

数据集 实体 关系 三元组 图片 等价
FB15K 14,951 1,345 592,213 13,444
DB15K 14,777 279 99,028 12,841 12,846
Yago15K 15,404 32 122,886 11,194 11,199

评价指标:实验使用[email protected](k=1,10)和平均排序倒数(mean reciprocal rank,MRR)作为评价指标。对于测试集中每个实体,另一个图谱中的实体根据它们与该实体的相似度得分以降序排列。[email protected]表示前k个实体中包含正确的实体的数量占总数量的百分比。另一方面,MRR表示正确对齐实体的倒数排序的平均值,[email protected]代表对齐的准确率,是最重要的评价指标,[email protected]以及MRR提供补充信息。注意,[email protected]和MRR数值越高表示性能更好,[email protected]的结果以百分比表示。我们在表格中用粗体标注最好的效果。

实验利用图卷积神经网络生成实体结构特征,设定负例数量为15,γ=3,训练400轮,维度ds=300;视觉特征由视觉特征处理模块生成,维度dv=2048。将种子实体的比例设置为20%和50%,并且选取10%的实体作为验证集,用于调整公式中超参数,其中b=1.5,a=1,参数K的取值与种子实体的比例相关,在seed=0.2时取0.6;seed=0.5时取0.8。对于超参数w1和w2分别取0.8和0.1。

表2 多模态实体对齐结果

将本实施例方法以及本实施例方法中去除三元组筛选模块的方法与2种方法进行对比:(1)GCN-align,利用GCN生成实体结构和视觉特征矩阵,以固定权重结合两种特征以对齐实体;(2)HMEA,利用双曲图卷积神经网络(HGCN)生成实体的结构和视觉特征矩阵,并在双曲空间中以权重结合结构特征和视觉特征,进行实体对齐。本实施例方法取得了当前最好的多模态实体对齐效果。

另外,为验证本发明提出的三元组筛选模块的有效性,我们对比了FPageRank、FRandom、Four三种筛选机制,分别代表直接采用PageRank评分筛选、随机筛选,以及改进的PageRank评分筛选。为控制实验变量,本实验使用上述3种筛选机制筛选了相同数量的三元组,约29万;均基于图卷积神经网络学习结构特征,并保持各参数一致。

实验结果表明,随机筛选FRandom相较于保留所有三元组的基线,其[email protected]在seed=0.2和0.5的情况下分别提升了约1.5%和2.5%,表明图谱结构差异性对于实体对齐存在一定的影响。基于PageRank评分的筛选机制相比于随机筛选,在种子实体比例为50%的情况下,提升3%左右。由结果可知,本发明提出的改进的PageRank评分筛选的三元组筛选机制取得了最优对齐结果,在FB15K-DB15K上与基线对比,其[email protected]分别提升了超8%,3%;在FB15K-Yago15K上,[email protected]分别提升约9%,5%。

由于结构信息的丰富程度与实体的度相关,我们按照实体度的数量将实体划分为三类,在这三类实体上分别测试本实施例提出的自适应融合机制和固定权重机制下多模态实体对齐的准确率。本实验种子实体比例设置为20%,分别在FB15K-DB15K与FB15K-Yago15K上进行,其余参数与前述实验保持一致。

表3展示了自适应特征融合与固定权重融合的多模态实体对齐结果。其中Fixed(固定),Adaptive(自适应)分别代表固定权重融合机制和自适应特征融合机制;组1、组2、组3分别表示前1/3、中间1/3和后1/3部分实体,基于实体度从小到大划分。由表3可知,自适应特征融合机制相比固定权重融合,在各类实体上均取得了更好的实体对齐效果。可以清晰地得出,在组1上提升显著高于组2和组3,证明本实施例的自适应特征融合机制可显著提升结构信息匮乏的实体即长尾实体的对齐准确率。

表3 自适应特征融合与固定权重融合多模态实体对齐结果

本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

完整详细技术资料下载
上一篇:石墨接头机器人自动装卡簧、装栓机
下一篇:一种用于共享平台的政务数据分析系统

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!