一种多模态数据匹配方法、装置、设备及存储介质
技术领域
本申请实施例涉及数据处理
技术领域
,具体而言,涉及一种多模态数据匹配方法、装置、设备及存储介质。背景技术
随着互联网等新兴技术的大规模兴起,人类社会每天都在产生种类繁多且体量巨大的数据,文本、图像等数据更是互联网数据中最常见的数据。这些数据之间具有广泛的潜在关联,具有很高的利用价值,发现这些数据之间的潜在关联是人工智能和信息
技术领域
的重要研究方向,但文本、图像属于不同模态的数据,具有非结构化、异构、语义稀疏的特点,想要同时利用这些跨模态数据难度较大。现有技术中,想要很好的利用跨模态数据,需要对不同模态的数据进行人工标注,使其相匹配。现有技术中存在的问题是,人工对大量跨模态数据进行标注,耗费人力物力,并且无法充分利用单模态数据。
发明内容
本申请实施例提供一种多模态数据匹配方法、装置、设备及存储介质,旨在实现低质量的跨模态数据的快速匹配。
本申请实施例第一方面提供一种多模态数据匹配方法,所述方法包括:
将获取的多种单模态数据进行分类,得到多个数据集,其中,同一数据集中包括模态相同的多个单模态数据;
对所述多个数据集中每个数据集的单模态数据进行特征提取,得到该数据集中多个所述单模态数据的高层特征,并将该数据集中的多个高层特征放入该数据集对应的特征数据集中;
分别对每个所述特征数据集中的高层特征进行基于参考点的结构表征,得到所述特征数据集对应的参考表征;
将多个特征数据集各自对应的参考表征输入预训练好的共同空间网络中,得到多组跨模态匹配的数据。
可选地,分别对每个所述特征数据集中的高层特征进行基于参考点的结构表征,得到所述特征数据集对应的参考表征,包括:
针对每个特征数据集执行以下步骤:
确定该特征数据集中的参考点数量,并确定该特征数据集中的参考点;
确定该特征数据集中的每个高层特征与该特征数据集中所有参考点的相似度;
将该特征数据集中的每个高层特征表示为该高层特征与对应参考点的相似度向量,得到多个高层特征分别对应的相似度向量,并将多个相似度向量的集合作为所述特征数据集的参考表征。
可选地,将多个特征数据集各自对应的参考表征输入预训练好的共同空间网络中,得到多组跨模态匹配的数据,包括:
通过所述预训练好的共同空间网络,将所述多个单模态数据中的每个单模态数据的参考表征与其对应的不同模态的参考表征进行对齐;
计算所述多个单模态数据的参考表征与其对应的不同模态的参考表征的相似度,得到不同模态数据之间的相似度矩阵;
根据所述相似度矩阵,得到所述多组跨模态匹配的数据。
可选地,所述共同空间网络通过以下步骤得到:
收集多种单模态数据;
对所述多种单模态数据进行配对,得到多组配对样本;
将所述多组配对样本输入所述共同空间网络中,对所述共同空间网络进行训练,得到预训练好的共同空间网络。
可选地,确定每个所述特征数据集中的参考点,包括:
对所述特征数据集中的高层特征进行预聚类,得到与确定的所述参考点数量相等的聚类簇;
选择所述聚类簇的聚类中心,将所述聚类中心作为所述特征数据集的参考点。
可选地,所述方法还包括:
确定所述多个特征数据集中的一个特征数据集中的预设数量的参考点;
查询所预设数量的参考点在剩余特征数据集中对应的多个跨模态相似对象;
将所述多个跨模态相似对象设置为所述剩余特征数据集中的参考点。
本申请实施例第二方面提供一种多模态数据匹配装置,所述装置包括:
数据分类模块,用于将获取的多种单模态数据进行分类,得到多个数据集,其中,同一数据集中包括模态相同的多个单模态数据;
特征提取模块,用于对所述多个数据集中每个数据集的单模态数据进行特征提取,得到该数据集中多个所述单模态数据的高层特征,并将该数据集中的多个高层特征放入该数据集对应的特征数据集中;
结构表征模块,用于分别对每个所述特征数据集中的高层特征进行基于参考点的结构表征,得到所述特征数据集对应的参考表征;
跨模态匹配模块,用于将多个特征数据集各自对应的参考表征输入预训练好的共同空间网络中,得到多组跨模态匹配的数据。
可选地,所述结构表征模块包括:
针对每个特征数据集执行以下步骤:
第一参考点确定子模块,用于确定该特征数据集中的参考点数量,并确定该特征数据集中的参考点;
第一相似度计算子模块,用于确定该特征数据集中的每个高层特征与该特征数据集中所有参考点的相似度;
参考表征子模块,用于将该特征数据集中的每个高层特征表示为该高层特征与对应参考点的相似度向量,得到多个高层特征分别对应的相似度向量,并将多个相似度向量的集合作为所述特征数据集的参考表征。
可选地,所述跨模态匹配模块包括:
特征对齐子模块,用于通过所述预训练好的共同空间网络,将所述多个单模态数据中的每个单模态数据的参考表征与其对应的不同模态的参考表征进行对齐;
第二相似度计算子模块,用于计算所述多个单模态数据的参考表征与其对应的不同模态的参考表征的相似度,得到不同模态数据之间的相似度矩阵;
跨模态匹配子模块,用于根据所述相似度矩阵,得到所述多组跨模态匹配的数据。
可选地,所述共同空间网络通过以下装置执行的步骤得到:
数据收集子模块,用于收集多种单模态数据;
样本配对子模块,用于对所述多种单模态数据进行配对,得到多组配对样本;
预训练子模块,用于将所述多组配对样本输入所述共同空间网络中,对所述共同空间网络进行训练,得到预训练好的共同空间网络。
可选地,所述参考点确定子模块包括:
特征聚类子模块,用于对所述特征数据集中的高层特征进行预聚类,得到与确定的所述参考点数量相等的聚类簇;
参考点选择子模块,用于选择所述聚类簇的聚类中心,将所述聚类中心作为所述特征数据集的参考点。
可选地,所述参考点确定子模块还包括:
第二参考点确定子模块,用于确定所述多个特征数据集中的一个特征数据集中的预设数量的参考点;
参考点查询子模块,用于查询所预设数量的参考点在剩余特征数据集中对应的多个跨模态相似对象;
参考点关联子模块,用于将所述多个跨模态相似对象设置为所述剩余特征数据集中的参考点。
本申请实施例第三方面提供一种可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,实现如本申请第一方面所述的方法中的步骤。
本申请实施例第四方面提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现本申请第一方面所述的方法的步骤。
采用本申请提供的多模态数据匹配方法,将多种类型的单模态数据进行分类,根据模态的不同放入不同的数据集中,得到多个数据集;分别对所述多个数据集中的数据进行特征提取,得到多个所述单模态数据的高层特征,并将所述高层特征放入对应的特征数据集中;分别对每个所述特征数据集中的高层特征进行结构表征,得到多个所述单模态数据的参考表征;将多个所述单模态数据的参考表征输入预训练好的共同空间网络中,得到多组跨模态匹配的数据。本申请提供的多模态数据匹配方法,将不同模态的数据放到不同数据集中,对不同模态的数据先进行特征提取,并得到了每个数据集中的单模态数据的参考表征,该参考表征是基于参考点的低维语义结构表征,该结构表征方法降低了数据的维度,去除了冗余维度,计算得到简化,适用于大规模的数据集。并且通过一个共同空间网络将不同模态的数据的结构表征进行了对齐,这些不同模态的数据是未进行配对的,在共同空间网络中进行了一一配对,提高了单模态样本的利用率,实现了跨模态数据的快速匹配。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一实施例提出的多模态数据匹配方法的流程图;
图2是本申请一实施例提出的语义结构表征示意图;
图3是本申请一实施例提出的基于参考点的结构表征图;
图4是本申请一实施例提出的一种通过预测类选择参考点的方法的示意图;
图5是本申请一实施例提出的一种参考表征算法图;
图6是本申请一实施例提出的一种基于“抽象-关联”的相似度框架示意图;
图7是本申请一实施例提出的基于语义结构一致性的跨模态相似度计算方法示意图;
图8是本申请一实施例提出的多模态数据匹配装置的示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
参考图1,图1是本申请一实施例提出的多模态数据匹配方法的流程图。如图1所示,该方法包括以下步骤:
S11:将获取的多种单模态数据进行分类,得到多个数据集,其中,同一数据集中包括模态相同的多个单模态数据。
本实施例中,单模态数据指的是图片数据、文本数据、音频数据等,根据模态的不同将不同类型的单模态数据放入不同的数据集中,得到了多个数据集,即图片数据集、文本数据集、音频数据集等。这些不同的数据之间是具有关联的,例如是同一个影片中的画面和台词,是一个场景中的图片和描述该场景的文字段落等。
示例地,收集一定数量的图片和文本,对图片和文本按照模态进行分类,将所有的图片放入图片数据集中,将所有的文本放入文本数据集中。
S12:对所述多个数据集中每个数据集的单模态数据进行特征提取,得到该数据集中多个所述单模态数据的高层特征,并将该数据集中的多个高层特征放入该数据集对应的特征数据集中。
本实施例中,特征提取是指将图片或者文本数据抽象成高层的特征。
分别将多个数据集中的数据集输入特征提取网络中,可以将不同模态的数据集中的数据输入对应的特征提取网络中,以达到最好的提取效果,可以将图片数据集中的图片数据放入图像提取网络中,可以将文本数据集中的数据放入语义识别网络中,分别提取出对应的高层特征。将提取出的图片数据的高层特征放入图片特征数据集中,将提取出的文本数据的高层特征放入文本特征数据集中。这些高层特征实质上是图片和文本数据各自抽象出的高层特征向量。
示例地,可以使用CNN网络对图片的高层特征进行提取,可以利用SIF网络提取文本数据的高层特征。设图片特征数据集X=[x1,x2,…,xn],文本特征数据集Y=[y1,y2,…,yn]。
S13:分别对每个所述特征数据集中的高层特征进行基于参考点的结构表征,得到所述特征数据集对应的参考表征。
传统的语义空间结构表征是指对特征数据集中的数据基于空间结构进行表征,语义空间结构表征将特征数据集表示为一个相似度矩阵,例如给定一个数据集X,语义空间表征将数据集X表示为数据集中的每个对象到其余对象的相似度向量:其中,表示xi和xj之间的相似度,n表示数据集中对象的个数。语义空间结构表征将数据集X表示为一个相似度矩阵,同时也等同于一个全连接图。
如图2所示,图2是本申请一实施例提出的语义结构表征示意图。图2中每个点表示一个对象,即一个数据,而对象间的相似度为对应边的权重。该表征方式使得表征对象之间的相似关系更加清晰,有助于保持数据的模态内相似关系。但是由于其表征的维度等于数据集的样本数量,因此,传统的基于语义结构的表征只能适用于小规模的数据集。传统的方法中,需要先计算出该特征数据集中的完整的矩阵,再通过矩阵的谱(特征向量)对表征进行降维,该计算过程具有较高的复杂度。
本实施例中,对大部分数据集来说,计算整个相似度矩阵是没有必要的,通过去除冗余维度,只保留其中具有代表性的维度,具体做法是将特征数据集中的每个对象表示为自身到一组参考点(特征数据集中具有代表性的对象)的距离向量,就是基于参考点的结构表征方法,数据集的对象经过基于参考点的结构表征方法表征后,得到的就是参考表征。如图3所示,图3是本申请一实施例提出的基于参考点的结构表征图,其中特征数据集中的待表示对象被表示为自身到特殊对象的相似度向量,即从特征数据集中所有对象代表的维度中选择部分维度作为全体维度的代表。
本实施例中,分别对每个所述特征数据集中的高层特征进行基于参考点的结构表征,得到多个所述单模态数据的参考表征的具体步骤为:
针对每个特征数据集执行以下步骤:
S13-1:确定该特征数据集中的参考点数量,并确定该特征数据集中的参考点。
本实施例中,需要先选择特征数据集中的参考点,参考点是数据集中的真实对象,是具有代表性的对象。参考点的选择是一个组合优化问题,必定存在一些参考点的组合,其表征性能要高于其他组合,同时具有较小的规模。参考点需要满足两个条件,一个是具有多样性,分布要足够广,这样才考表征才能尽可能地保持原始数据中的信息;一个是参考点与被表示对象间的距离应该具有较大的差异,保证参考点对其具有较高的区分能力。对上述两个目标进行形式化,将参考点的选择转换为了一个优化问题,如下式所示:
其中,maxL(r1,…,rk)表示取r1至rk中的最大值,k是给定的参考点的数量,d(ri,rj)为ri和rj的距离,σ(ri)为ri到所有非参考点距离的方差,λ为平衡因子。
求解该式的时间复杂度非常高,因此仍然难以在大规模数据集上应用。为了提高效率,本申请根据参考点需要满足的条件,提出了得到特征数据集中参考点的聚类计算方法,具体步骤为:
S13-1-1:对所述特征数据集中的高层特征进行预聚类,得到与确定的所述参考点数量相等的聚类簇。
S13-1-2:选择所述聚类簇的聚类中心,将所述聚类中心作为所述特征数据集的参考点。
如图4所示,图4是本申请一实施例提出的一种通过预测类选择参考点的方法的示意图,首先通过预聚类,将特征数据集中的对象分成多个聚类簇,再选择聚类中心。
本实施例中,聚类簇就是将特征数据集中距离相近的对象,即高层特征分配到一个簇中,一个数据集中会有多个聚类簇。预聚类是指在选择簇心之前先将对象划分到各个聚类簇之中。预聚类的簇的数量十分重要,簇的数量过低会导致表征效果严重下降,而簇的数量过高会导致表征的维度过高,难以起到降低表征维度的作用。每个聚类簇的聚类中心就是特征数据集的参考点,特征数据集的参考点组成了一个参考点集。
示例地,可以通过canopy算法来确定聚类簇的数量。也可以根据需求自行设置聚类簇的数量,在这里不做限制。
S13-2:确定该特征数据集中的每个高层特征与该特征数据集中所有参考点的相似度。
S13-3:将该特征数据集中的每个高层特征表示为该高层特征与对应参考点的相似度向量,得到多个高层特征分别对应的相似度向量,并将多个相似度向量的集合作为所述特征数据集的参考表征
本实施例中,在确定了数据集中的参考点后,就得到了一个参考点集,计算特征数据集中的每个对象到参考点集中的所有参考点的相似度,将每个对象表示为该对象到参考点的相似度量这样就得到了每个单模态数据的参考表征。
示例地,可以采用余弦相似度作为数据集中的对象到参考点的相似度量,计算方法如下式所述:
其中,表示xi和xj之间的相似度。选择余弦相似度作为数据集中对象与参考点之间的相似度量,是考虑到文本和图像等模态的数据通常具有较高的维度,而余弦相似度在高维度数据的表示中具有效率和精度优势;其次,余弦相似度是一种标准化度量(对不同的数据,其取值范围都是-1到1之间),有助于简化后续的跨模态相似度的计算。
综上所述,给定一个特征数据集,计算其参考表征的过程的算法如图5所示,图5是本申请一实施例提出的一种参考表征算法图,如图5所示,在该算法中,输入的是数据集X和参考点数量N,如果未输入参考点N,则通过canopy算法得到X的簇中心N,即参考点数量N,然后,通过聚类算法将X划分为N个簇,并且以所有的簇的中心为参考点集R,之后,计算X中的每个对象到所有参考点的相似度,将每个对象表示为该对象到参考点的相似度向量相似度向量也可以理解为距离。
S14:将多个特征数据集各自对应的参考表征输入预训练好的共同空间网络中,得到多组跨模态匹配的数据。
跨模态的数据具有异构性,例如图像和文本之间就具有异构性,不同模态的表征维度不同,而大部分相似性度量都要求度量对象具有相同的维度,此外假设通过一些机制使得他们具有相同的维度,但不同模态表征的各个维度取值具有不同的意义,因此对应维度取值的差别不具备意义。
为了克服异构性障碍,需要构造一个共同子空间,并将文本对象和图像对象都映射到其中,之后再进行相似度计算。各种构建共同子空间的方法都依赖于匹配的文本-图像训练数据,对未匹配的单模态样本利用率很低。
本实施例中,共同空间网络是将各个模态的数据的参考表征进行对齐的网络,同时可以计算跨模态数据之间的相似度,得到跨模态匹配结果。跨模态匹配指将不同模态的具有关联的数据进行匹配。
如图6所示,图6是本申请一实施例提出的一种基于“抽象-关联”的相似度框架示意图,如图所示,在抽象部分,通过特征提取和参考表征的方式学习如何在共同空间中保持对象的模态内的关系,即图中的虚线部分,代表了单模态数据内部的关联性,本申请实施例将单模态数据抽象为了高层特征,意味着是从语义层次而不是特征层次考虑模态内的关系。在关联部分,利用少量配对的文本、图像来学习如何在共同空间中保持对象的模态间相似关系,关联意味着保持模态间相似性,也就是寻找相似的文本和图像之间的相关性。在经过参考表征之后,发现文本和图像之间的相关性会变得更加容易,只需要很少的训练样本的条件下就可以对输入其中的图片和文本的参考表征的相似度及进行计算。
本实施例中,需要预先训练一个共同空间网络,训练过程为:
S14-1:收集多种单模态数据。
本实施例中,需要先收集多种类型的单模态数据,但每种类型只需要收集少量的数据即可作为训练样本即可。
收集的数据数量可以自行设置。例如可以收集少量的图片数据与其对应的文本数据。
S14-2:对所述多种单模态数据进行配对,得到多组配对样本。
本实施例中,需要先对收集来的单模态数据进行配对,得到多组配对样本,作为训练用的数据对。
示例地,收集10张图片和10段描述图片的对应文字。将每张图片和每个文字对应起来,就得到了10组匹配好的训练样本。
S14-3将所述多组配对样本输入所述共同空间网络中,对所述共同空间网络进行训练,得到预训练好的共同空间网络。
本实施例中,将匹配好的数据对输入共同空间中,共同空间学习到了这几对数据对之间的相关性,对自身参数进行调整,就得到了预训练好的共同空间网络。
这里再次强调。在经过参考表征之后,发现文本和图像之间的相关性会变得更加容易,只需要很少的训练样本的条件下就可以对输入其中的图片和文本的参考表征的相似度及进行计算,即对图片数据和文本数据进行跨模态匹配,得到匹配结果。
在得到预训练好的共同空间网络之后,就可以对未配对的跨模态数据进行配对,具体的步骤是:
S14-4:通过所述预训练好的共同空间网络,将所述多个单模态数据中的每个单模态数据的参考表征与其对应的不同模态的参考表征进行对齐。
本实施例中,不同类型的单模态数据的参考表征输入共同空间网络后,会被映射到一个共同的子空间中,因为已经经过了少量配对样本的训练,加上参考表征之间的关联很容易被确定,因此共同空间网络会很容易的找到子空间中结构具有关联的不同模态的数据,就完成了参考表征的对齐。
示例地,将未配对的文本数据的参考表征和图像数据的参考表征输入共同空间网络中,共同空间网络将所有参考表征映射到一个共同的子空间中,实现了文本和图片之间的一一配对。
S14-5:计算所述多个单模态数据的参考表征与其对应的不同模态的参考表征的相似度,得到不同模态数据之间的相似度矩阵。
本实施例中,将不同类型的单模态数据的参考表征对齐之后,需要进行跨模态的相似度计算,通过计算不同模态数据之间的相似度,得到不同模态数据之间的相似度矩阵。
示例地,假设输入的单模态数据为图像数据特征xi和文本数据特征yi,那么经过共同空间网络的计算,可以得到图像数据和文本数据之间的相似度矩阵,那么他们之间的相似度可用下式计算:
其中Sx,y(i,j)表示图像对象xi和文本对象yi之间的相似度,表示图像数据的参考表征,表示文本数据的参考表征。
S14-6:根据所述相似度矩阵,得到所述多组跨模态匹配的数据。
本实施例中,得到相似度矩阵之后,可以根据相似度,确定跨模态的数据之间是否匹配,取相似度最高,即距离最近的一组数据为跨模态匹配数据。
示例地,将文本数据的结构表征和图像数据的结构表征输入共同空间网络中,得到了一个相似度矩阵,从相似度矩阵中可知,图片1对应的结构表征与文本2对应的结构表征相似度最高,即距离最近,则将图片1与文本2作为一组跨模态匹配的数据进行输出。
基于上述实施例中提出的“抽象-关联”框架,以及对多模态数据的参考表征方法,如图7所示,图7是本申请一实施例提出的基于语义结构一致性的跨模态相似度计算方法示意图。
如图7所述,首先对不同模态的数据进行特征提取,得到不同模态数据的高层特征,进而得到不同模态数据的参考表征,将不同模态数据映射到共同空间之后,就实现了数据的对齐,之后再进行相似度计算。由于只采用了少量的训练样本对数共同空间网络进行训练,故不直接利用配对训练数据学习共同空间的构建,而是利用两个阶段中的不同的训练行数据保持模态内和模态间的相似关系。其中“抽象”阶段包括特征提取和基于参考点的语义空间结构表征两部分,主要利用文本和图像的单模态数据,在对单模态数据进行了结构表征的基础上,不停的模态数据的语义空间结构具有一致性,因此,只需要利用少量的配对样本,就可以将文本和图像的语义空间结构表征进行对齐。
提取不同模态的高层特征可以表示为:
其中,m为步骤,X为一种模态的数据的集合,Y为不同于X的模态的数据的集合,和为高层特征。
得到不同模态数据的参考表征可以表示为:
其中RX为数据集X的参考表征,RY为数据集Y的参考表征。
最后,对RX和RY的对齐可以表示为:
M5:RX→R←RY (8)
本申请实施例中,提出了语义空间结构一致性的概念,语义空间结构一致性是指:如果RX和RY的参考点具有一一对应的匹配关系,则二者对应维度的取值是正相关的。延展到一般情况下,任意匹配样本之间的语义空间结构都是正相关的。
示例地,一个模态(图像)对象xi和xj相似,则其对应的另一个模态(文本)对象yi和yj在一般情况下也是相似的,反之亦然。
在本申请的另一个实施例中,基于上述概念,提出了一种基于主动学习选择多模态参考点集的策略。
假设数据集X和数据集Y是两个包括不同模态的数据集,如果数据集中不同模态的两个对象xi和yi具有相似的语义,则他们具有近似的近邻结构,因此当xi被选择为X的参考点时,因为yi和xi具有相似的语义,则yi可以作为Y的参考点。基于该推论,可以执行如下步骤选择参考点:
S13-1-3:确定所述多个特征数据集中的一个特征数据集中的预设数量的参考点。
本实施例中,首先确定一个特征数据集中的预设数量的参考点,参考点数量的获取方法可以参考之前的实施例,得到了一个参考点数据集。
S13-1-4:查询所预设数量的参考点在剩余特征数据集中对应的多个跨模态相似对象。
S13-1-5:将所述多个跨模态相似对象设置为所述剩余特征数据集中的参考点。
本实施例中,可以通过“先知”(主动学习中可以提供标准回答的信息源,通常为业务专家),来查询该参考点集中每个参考点在剩余的特征数据集中的多个跨模态相似对象。再将这多个跨模态对象设置为剩余特征数据集中的参考点。
实际操作中,通常选择具有清晰簇结构的数据集,先确定该数据集中的参考点,再根据该数据集中的参考点,确定其余数据集中的参考点。
示例地,一个模态(图像)的数据集中xi和xj为参考点,则将其对应的另一个模态(文本)对象yi和yj设置为参考点。
在本申请另一个实施例中,结合本申请实施例提出的相似度计算方法,以及多模态参考点选择方法,提出一种基于主动学习的语义结构匹配方法。
具体算法可以表示为:
输入:数据集X,Y
输出:跨模态相似度矩阵Sx,y
1.R(x)=X类中心
2.for allxi xi∈R(x)do
3.从先知搜索到yi∈y使得xi≈yi,即R(y)
4.end for
5.通过参考表征算法搜索到的R(x)的参考表征RX
6.通过参考表征算法搜索到的R(y)的参考表征RY
7.for alldo
8.通跨模态相似度计算方法计算和的相似度Sx,y(i,j)
9.end for
上述算法中,首先通过聚类算法将特征数据集X划分为多个聚类簇,再将所有的簇中心作为参考点集。再筛选X每个参考点对应的跨模态对象,将他们作为数据集Y的参考点。利用不同模态上的参考点集,分别计算每个对象到相应参考点的相似度,得到X和Y的参考表征RX和RY,最后再计算跨模态对象之间的相似度。
基于同一发明构思,本申请一实施例提供一种多模态数据匹配装置。参考图8,图8是本申请一实施例提出的多模态数据匹配装置800的示意图。如图7所示,该装置包括:
数据分类模块801,用于将获取的多种单模态数据进行分类,得到多个数据集,其中,同一数据集中包括模态相同的多个单模态数据;
特征提取模块802,用于对所述多个数据集中每个数据集的单模态数据进行特征提取,得到该数据集中多个所述单模态数据的高层特征,并将该数据集中的多个高层特征放入该数据集对应的特征数据集中;
结构表征模块803,用于分别对每个所述特征数据集中的高层特征进行基于参考点的结构表征,得到所述特征数据集对应的参考表征;
跨模态匹配模块804,用于将多个特征数据集各自对应的参考表征输入预训练好的共同空间网络中,得到多组跨模态匹配的数据。
可选地,所述结构表征模块包括:
针对每个特征数据集执行以下步骤:
第一参考点确定子模块,用于确定该特征数据集中的参考点数量,并确定该特征数据集中的参考点;
第一相似度计算子模块,用于确定该特征数据集中的每个高层特征与该特征数据集中所有参考点的相似度;
参考表征子模块,用于将该特征数据集中的每个高层特征表示为该高层特征与对应参考点的相似度向量,得到多个高层特征分别对应的相似度向量,并将多个相似度向量的集合作为所述特征数据集的参考表征。
可选地,所述跨模态匹配模块包括:
特征对齐子模块,用于通过所述预训练好的共同空间网络,将所述多个单模态数据中的每个单模态数据的参考表征与其对应的不同模态的参考表征进行对齐;
第二相似度计算子模块,用于计算所述多个单模态数据的参考表征与其对应的不同模态的参考表征的相似度,得到不同模态数据之间的相似度矩阵;
跨模态匹配子模块,用于根据所述相似度矩阵,得到所述多组跨模态匹配的数据。
可选地,所述共同空间网络通过以下装置执行的步骤得到:
数据收集子模块,用于收集多种单模态数据;
样本配对子模块,用于对所述多种单模态数据进行配对,得到多组配对样本;
预训练子模块,用于将所述多组配对样本输入所述共同空间网络中,对所述共同空间网络进行训练,得到预训练好的共同空间网络。
可选地,所述参考点确定子模块包括:
特征聚类子模块,用于对所述特征数据集中的高层特征进行预聚类,得到与确定的所述参考点数量相等的聚类簇;
参考点选择子模块,用于选择所述聚类簇的聚类中心,将所述聚类中心作为所述特征数据集的参考点。
可选地,所述参考点确定子模块还包括:
第二参考点确定子模块,用于确定所述多个特征数据集中的一个特征数据集中的预设数量的参考点;
参考点查询子模块,用于查询所预设数量的参考点在剩余特征数据集中对应的多个跨模态相似对象;
参考点关联子模块,用于将所述多个跨模态相似对象设置为所述剩余特征数据集中的参考点。
基于同一发明构思,本申请另一实施例提供一种可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请上述任一实施例所述的多模态数据匹配方法中的步骤。
基于同一发明构思,本申请另一实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行时实现本申请上述任一实施例所述的多模态数据匹配方法中的步骤。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本申请实施例可提供为方法、装置、或计算机程序产品。因此,本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本申请所提供的一种多模态数据匹配方法、装置、设备及存储介质,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
- 上一篇:石墨接头机器人自动装卡簧、装栓机
- 下一篇:特征评估模型的训练方法及装置