基于ar的场景导览方法、ar眼镜、电子装置和存储介质
技术领域
本申请涉及AR
技术领域
,特别是涉及基于AR的场景导览方法、AR眼镜、电子装置和存储介质。背景技术
相关技术基于AR(Augmented Reality,增强现实)的场景导览方法包含以下几个关键步骤:
步骤1,用AR眼镜拍摄场景图像,提取图像的特征点。采用手工设计的特征来提取特征点。
步骤2,建立离线词袋模型。在给定的一组图像数据集上利用步骤1中提取的特征点,通过诸如BOW、VLAD的基于特征描述算子的特征编码算法,得到词袋模型。
步骤3,特征点匹配。采用随机抽样一致算法,获取最优化的匹配点对。
步骤4,计算位姿。根据步骤3中已获得的匹配点对,通过几何约束计算相应的变换矩阵,得到场景图像的位置。
步骤5,显示场景图像的位置以进行导览。
上述方案存在以下缺陷:
(1)即使是在同一场景下拍摄的图像,也会由于环境光照复杂、用户佩戴AR眼镜的角度各异的因素而导致场景图像各有不同,直接通过场景图像的特征点匹配来定位场景的位置会导致定位不准确,而且耗时长。
(2)手工设计的特征点是凭借人们对几何学以及数学上的一些认识,对图像中的某些局部特殊区域进行建模得到描述函数,此类特征点的缺点是只关注到图像的局部特征,对光照、视角变化敏感,泛化能力弱,且速度不稳定;建立离线词袋模型的过程是根据手工设计的局部特征点聚类得到的码本,因此无法描述图像的全局特征,特征表达能力也有较大局限性。
(3)AR眼镜是一种便携式设备,其算力较低,电池容量也受限,因此续航时间较短,相关技术基于AR的场景导览方法无法兼顾计算量和导览效果。
针对相关技术中基于AR的场景导览效果差且计算资源开销大的问题,目前还没有提出有效的解决方案。
发明内容
在本实施例中提供了一种基于AR的场景导览方法、AR眼镜、电子装置和存储介质,以解决相关技术中基于AR的场景导览效果差且计算资源开销大的问题。
第一个方面,在本实施例中提供了一种基于AR的场景导览方法,包括:
获取用户视野所及的空间区域的实时图像,对所述实时图像进行目标识别处理,得到所述实时图像中的展品图像;
对所述展品图像进行特征提取处理,得到所述展品图像的全局特征描述符和特征点描述符;
获取待检索图像的全局特征描述符,根据所述展品图像和所述待检索图像的全局特征描述符,从所述待检索图像中确定与所述展品图像匹配的至少一张相似图像;获取所述相似图像的特征点描述符,根据所述展品图像和所述待检索图像的特征点描述符,得到匹配特征点对,并从所述相似图像中确定匹配特征点对数目最多的第一相似图像;
获取所述匹配特征点对中的特征点在所述展品图像上的位置信息,根据所述位置信息,确定用户相对于所述展品图像的空间位姿;根据所述空间位姿获取对应于所述第一相似图像的虚拟信息,并将所述虚拟信息叠加显示于用户视野所及的空间区域。
在其中的一些实施例中,所述虚拟信息包括用户视野所及的当前展品在展厅中的坐标。
在其中的一些实施例中,所述虚拟信息包括从当前展品指向下一个展品的预设导览信息。
在其中的一些实施例中,对所述展品图像进行特征提取处理,得到所述展品图像的全局特征描述符和特征点描述符包括:
采用预训练的卷积神经网络对所述展品图像进行特征提取处理,其中,所述预训练的卷积神经网络包括第一网络和第二网络,所述第一网络的隐藏层与所述第二网络的输入端连接;
采用预训练的卷积神经网络对所述展品图像进行特征提取处理包括:
将所述展品图像输入至所述第一网络进行特征提取处理,输出浅层特征和所述全局特征描述符;
将所述浅层特征输入至所述第二网络进行特征提取处理,输出所述特征点描述符。
在其中的一些实施例中,将所述浅层特征输入至所述第二网络进行特征提取处理,输出所述特征点描述符包括:
将所述浅层特征输入至所述第二网络进行特征提取处理,得到所述第二网络中最后一个卷积层输出的特征图;
将所述特征图进行归一化处理,得到特征点响应得分图;
确定所述特征点响应得分图中大于预设阈值的特征点,并输出所述特征点的特征点描述符。
在其中的一些实施例中,所述浅层特征包括所述展品图像的线条信息和/或边缘信息;所述全局特征描述符包括所述展品图像的整体结构信息;所述特征点描述符包括所述展品图像的局部结构信息。
在其中的一些实施例中,训练所述卷积神经网络的方法包括:
训练所述第一网络,得到所述第一网络的网络权重;
根据所述第一网络的网络权重,训练所述第二网络。
第二个方面,在本实施例中提供了一种AR眼镜,包括:摄像头、显示屏和处理单元,所述处理单元与所述摄像头、所述显示屏连接;其中,
所述摄像头用于拍摄实时图像;
所述处理单元用于执行上述第一个方面所述的基于AR的场景导览方法;
所述显示屏用于播放所述处理单元生成的虚拟信息。
第三个方面,在本实施例中提供了一种电子装置,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一个方面所述的基于AR的场景导览方法。
第四个方面,在本实施例中提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述第一个方面所述的基于AR的场景导览方法。
与相关技术相比,在本实施例中提供的基于AR的场景导览方法、AR眼镜、电子装置和存储介质,解决了相关技术中基于AR的场景导览效果差且计算资源开销大的问题,提升了基于AR的场景导览效果且降低了计算资源开销。
本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是本实施例的基于AR的场景导览方法的终端的硬件结构框图;
图2是本实施例的基于AR的场景导览方法的流程图;
图3是本实施例的预训练的卷积神经网络的结构示意图;
图4是本优选实施例的预训练的卷积神经网络的结构示意图;
图5是本实施例的AR眼镜的结构示意图;
图6是本实施例的AR眼镜的运行流程图。
具体实施方式
为更清楚地理解本申请的目的、技术方案和优点,下面结合附图和实施例,对本申请进行了描述和说明。
除另作定义外,本申请所涉及的技术术语或者科学术语应具有本申请所属技术领域具备一般技能的人所理解的一般含义。在本申请中的“一”、“一个”、“一种”、“该”、“这些”等类似的词并不表示数量上的限制,它们可以是单数或者复数。在本申请中所涉及的术语“包括”、“包含”、“具有”及其任何变体,其目的是涵盖不排他的包含;例如,包含一系列步骤或模块(单元)的过程、方法和系统、产品或设备并未限定于列出的步骤或模块(单元),而可包括未列出的步骤或模块(单元),或者可包括这些过程、方法、产品或设备固有的其他步骤或模块(单元)。在本申请中所涉及的“连接”、“相连”、“耦接”等类似的词语并不限定于物理的或机械连接,而可以包括电气连接,无论是直接连接还是间接连接。在本申请中所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。通常情况下,字符“/”表示前后关联的对象是一种“或”的关系。在本申请中所涉及的术语“第一”、“第二”、“第三”等,只是对相似对象进行区分,并不代表针对对象的特定排序。
在本实施例中提供的方法实施例可以在终端、计算机或者类似的运算装置中执行。比如在终端上运行,图1是本实施例的基于AR的场景导览方法的终端的硬件结构框图。如图1所示,终端可以包括一个或多个(图1中仅示出一个)处理器102和用于存储数据的存储器104,其中,处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置。上述终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述终端的结构造成限制。例如,终端还可包括比图1中所示更多或者更少的组件,或者具有与图1所示出的不同配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如在本实施例中的基于AR的场景导览方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输设备106用于经由一个网络接收或者发送数据。上述的网络包括终端的通信供应商提供的无线网络。在一个实例中,传输设备106包括一个网络适配器(NetworkInterface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
在本实施例中提供了一种基于AR的场景导览方法,图2是本实施例的基于AR的场景导览方法的流程图,如图2所示,该流程包括如下步骤:
步骤S201,获取用户视野所及的空间区域的实时图像,对实时图像进行目标识别处理,得到实时图像中的展品图像。
本实施例的方法可应用于AR眼镜,用户佩戴上AR眼镜之后,可通过AR眼镜直接拍摄周边环境获取得到实时图像,并对实时图像进行预处理,在实时图像上选择一些候选区域,对这些候选区域进行特征提取,然后使用训练的分类器对提取的特征进行分类,根据分类结果确定实时图像中的目标。
其中,空间区域包括诸如博物馆、展览馆或者图书馆的公共场所。以博物馆为例,当用户使用AR眼镜拍摄某个场景时,得到的实时图像可能杂糅了展品、背景物、游客中的任意一者或者多者,本实施例通过该步骤,能够将展品从众多的其他事物中区分出来。
步骤S202,对展品图像进行特征提取处理,得到展品图像的全局特征描述符和特征点描述符。
如果直接采用实时图像进行特征点匹配,将会引入较多的干扰因素,导致匹配准确度低且耗时长。相对于其他事物而言,展品的特征是相对稳定的,因此提取展品的特征的速度也是相对稳定的,采用展品图像进行特征点匹配,能够去除较多的干扰因素,从而为后续对展品图像的特征提取和特征匹配节省计算资源。
步骤S203,获取待检索图像的全局特征描述符,根据展品图像和待检索图像的全局特征描述符,从待检索图像中确定与展品图像匹配的至少一张相似图像;获取相似图像的特征点描述符,根据展品图像和待检索图像的特征点描述符,得到匹配特征点对,并从相似图像中确定匹配特征点对数目最多的第一相似图像。
待检索图像是预先存储的展品图像,全局特征描述符用于表征展品图像的整体结构,全局特征描述符之间的匹配耗时会低于多个特征点之间的匹配耗时,因此,通过全局特征描述符对待检索图像和展品图像进行匹配,初步筛选出相似图像,起到了花较少的匹配时长来缩小匹配范围的作用。
在初步筛选出相似图像之后,缩小了匹配范围,因此,将相似图像和展品图像进行特征点描述符匹配时,既能够精确地筛选出最匹配的相似图像,又不需要耗费较长匹配时间。
步骤S204,获取匹配特征点对中的特征点在展品图像上的位置信息,根据位置信息,确定用户相对于展品图像的空间位姿;根据空间位姿获取对应于第一相似图像的虚拟信息,并将虚拟信息叠加显示于用户视野所及的空间区域。
在上述步骤S202提取特征过程中,除了提取到特征点描述符之外,还可以提取到每个特征点在图像中的位置。在本实施例中,可以根据对极几何理论计算出对应多个特征点的本质矩阵(Essential Matrix),并通过奇异值分解算法(SVD)分解本质矩阵得到AR眼镜的摄像头与目标展品之间的空间位姿关系,从而使AR眼镜随着观察角度的变化,呈现基于不同空间位姿的3D内容。例如,当展品为一陶罐时,从陶罐的左侧、正前方、右侧会观测到不同的陶罐纹理,在用户观测的角度移动未超过一定范围内,陶罐的大部分特征点是不变的,但是陶罐的特征点的本质矩阵会随观测的角度而变化,从而计算出用户相对于展品图像的空间位姿,并提供不同角度的关于陶罐的虚拟信息(例如陶罐在不同位置的放大图),从而增强场景导览效果和用户的体验。
在一些实施例中,虚拟信息是指可以显示在电子显示屏幕上的内容,虚拟信息包括但不限于:文字、图片、视频、音频。
上述步骤S201至S204,在实时图像预处理阶段,通过提取实时图像中的展品图像,根据展品图像进行特征匹配,以去除干扰因素,为后续对展品图像的特征提取和特征匹配节省计算资源。进一步地,先后通过全局特征描述符和特征点描述符的匹配,增强了特征对图像的表征能力,也避免了从所有待检索图像中直接匹配得到唯一的相似图像带来的时间复杂度,以及避免了将整个图像加载进内存带来的空间复杂度。在展示展品图像的虚拟信息时,跟随观察角度的变化,呈现基于不同空间位姿的3D内容,增强场景导览效果。通过上述步骤,解决了基于AR的场景导览效果差且计算资源开销大的问题,提升了基于AR的场景导览效果、减小了计算资源开销。
在其中一些实施例中,虚拟信息中可以标注用户视野所及的当前展品在展厅中的坐标;也可以标注从当前展品指向下一个展品的预设导览信息;还可以同时标注用户视野所及的当前展品在展厅中的坐标,以及从当前展品指向下一个展品的预设导览信息。
例如,第一相似图像在某个空间位姿的虚拟信息携带有表示某个展厅出口的位置,预设导览信息可以是从该展厅出口位置指向下一个展厅入口位置。
在一些实施例中,AR眼镜后台维护一张表,这张表表示的是不同展品的虚拟信息,虚拟信息可以随着展品位置的移动进行更新。
相关技术的特征点是采用手工设计的特征来提取的,对光照、视角变化敏感,泛化能力弱,速度不稳定,特征表达能力也有较大局限性。为解决这些问题,在其中一些实施例中,采用预训练的卷积神经网络对展品图像进行特征提取处理,使得处理得到的特征天然地具有极强的泛化能力和特征表征能力,克服基于手工设计的特征提取特征点的弊端,并提高特征匹配的精度。
考虑到AR眼镜算力较低、电池容量受限,为兼顾计算量和导览效果,为解决该问题,图3给出了本实施例的预训练的卷积神经网络的结构示意图,如图3所示,预训练的卷积神经网络包括第一网络和第二网络,第一网络的隐藏层与第二网络的输入端连接。
将展品图像输入至第一网络的输入端,经由第一网络进行特征提取处理,从第一网络的隐藏层输出浅层特征,以及从第一网络的输出层输出全局特征描述符。
将浅层特征输入至第二网络的输入端,经由第二网络进行特征提取处理,从第二网络的输出层输出特征点描述符。
本实施例通过将提取全局特征描述符的卷积神经网络与特征点描述符的卷积神经网络融合为一个网络,简化卷积神经网络在AR眼镜中实际部署时的复杂度,降低了卷积神经网络的计算量,显著提高特征匹配的速度。
在本实施例中,浅层特征包括展品图像的线条信息和/或边缘信息;全局特征描述符包括展品图像的整体结构信息;特征点描述符包括展品图像的局部结构信息。
进一步地,在其中一些实施例中,将浅层特征输入至第二网络进行特征提取处理,输出特征点描述符通过如下步骤实现:
将浅层特征输入至第二网络进行特征提取处理,得到第二网络中最后一个卷积层输出的特征图;将特征图进行归一化处理,得到特征点响应得分图;确定特征点响应得分图中大于预设阈值的特征点,并输出特征点的特征点描述符。
在本实施例中,特征点响应图分布有多个候选特征点,各候选特征点的像素值代表该像素位置是否为真实特征点的概率,其值域为0至1。特征点响应图可以通过如下方式生成:
在监督训练第二网络时,设置一张和展品图像的分辨率相同的预设特征点响应图作为标签,预设特征点响应图的特征点中心响应值为1,特征点中心附近像素点的响应值由一个预先设定方差的高斯分布决定。
在本实施例中,特征点标签采用heatmap(热图)方式生成标签信息。heatmap方式生成标签信息相比一般直接回归特征点的方式可以使得训练过程更好收敛,特征点位置更加稳定;起到滤除未达预设条件的特征点描述符,减少特征点描述符匹配时间的作用。
在其中一些实施例中,训练卷积神经网络的方法包括:训练第一网络,得到第一网络的网络权重;根据第一网络的网络权重,训练第二网络。
例如,在训练第一网络时,设置初始学习率为0.1,每10个训练周期学习率衰减为上一次的0.1倍,0.0001时结束训练。
第一网络训练完成后,冻结第一网络的网络权重,开始联合训练第二网络。在训练第二网络时,设置初始学习率设为0.01,每5个训练周期学习率衰减为上一次的0.1倍,0.0001时结束训练。其中,可以设置处理特征点描述符的隐藏层的网络权重比例为0.8,设置处理特征点响应图的隐藏层的网络权重比例为0.2。
图4是本优选实施例的预训练的卷积神经网络的结构示意图,如图4所示,该预训练的卷积神经网络包括:
第一网络和第二网络,第一网络的隐藏层和第二网络的输入端连接。
图中示出的标记代表卷积核的属性,其中,Conv和MBConv均代表卷积核,Conv代表深度可分离卷积核;Channels代表通道数;KernelSize代表卷积核大小,Stride代表卷积核的步长。例如,某一卷积核为“16,<3×3>,1”,其中,16代表通道数,<3×3>代表卷积核大小,1代表卷积核的步长。
在本优选实施例中,全局特征描述符是长度为512的一维向量。第一网络可以使用大规模地标数据集进行训练,例如Google Landmarks Dataset v2。第一网络采用的分类损失函数L1如下:
其中,N代表训练过程中的一批样本的数量(BatchSize)。
i代表当前样本批次的编号。
s代表特征尺度因子。
m1代表乘性角度距离因子,m2代表加性角度距离因子,m3代表加性余弦距离因子。
yi代表编号为i的样本的所属类别。
θ代表当前样本i的特征向量与该类边界权重的夹角。
j代表所有训练样本的编号。
该分类损失函数进行了特征归一化、权重归一化,通过m1,m2,m3约束特征边界,使得学习到的全局特征描述符具备更强的表达能力。
在第二网络中,用于输出特征点响应得分图采用的分类损失函数L2如下:
其中,G代表高斯分布。
i代表特征图上x方向坐标。
j代表特征图上的y方向坐标。
k代表特征点编号。
σ代表方差。
y代表图像中每个特征点的信息。
代表训练样本的真值。
‖‖代表对特征距离取二范数。
在第二网络中,用于输出特征点描述符采用的分类损失函数L3如下:
其中,N代表训练过程中的一批样本的数量(BatchSize)。
x代表第一张图采样点位置坐标,x′代表第二张图采样点位置坐标。
i代表采样编号。
S代表训练样本对,其中,S=1代表正训练样本对,S=0代表负训练样本对。
F代表x处的局部特征。
‖‖代表对特征距离取二范数。
在本实施例中还提供了一种AR眼镜,图5是本实施例的AR眼镜的结构示意图,如图5所示,AR眼镜包括:摄像头51、显示屏52和处理单元53,处理单元53与摄像头51、显示屏52连接;其中,摄像头51用于拍摄实时图像;处理单元53用于执行上述实施例的基于AR的场景导览方法;显示屏52用于播放处理单元53生成的虚拟信息。
下面通过优选实施例对本实施例进行描述和说明。
例如,对于博物馆的一个展品A,预先存储该展品A的10张照片,并采用本申请中预训练的卷积神经网络提取每张展品A照片的特征,得到每一张展品A照片的全局特征描述符、特征点描述符和特征点响应得分图,打包并加入待检索图像库中。
当用户佩戴AR眼镜在现场参观展品A的时候,AR眼镜通过如图6所示的流程实现基于AR的场景导览,如图6所示,该流程包括如下步骤:
步骤S61,拍摄展品A,得到展品A的实时图像。
步骤S62,提取实时图像中的展品A,得到展品图像。
步骤S63,采用预训练的卷积神经网络对展品图像进行特征提取处理,得到展品图像的全局特征描述符、特征点描述符和特征点响应得分图。
步骤S64,利用全局特征描述符进行初步匹配,从待检索图像库中查询得到和展品图像最匹配的6张相似图像。
步骤S65,设定阈值T,筛选出特征点响应得分图中响应得分达到阈值T的点作为特征点,并得到这些特征点的特征点描述符。
步骤S66,利用筛选出的特征点的特征点描述符进行精确匹配,从6张相似图像中选取匹配特征点对数量最多的第一相似图像。
步骤S67,获取匹配特征点对中的特征点在展品图像上的位置信息,根据位置信息,确定用户相对于展品图像的空间位姿;根据空间位姿获取对应于第一相似图像的虚拟信息,并将虚拟信息叠加显示于AR眼镜上。
在本实施例中还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,获取用户视野所及的空间区域的实时图像,对实时图像进行目标识别处理,得到实时图像中的展品图像。
S2,对展品图像进行特征提取处理,得到展品图像的全局特征描述符和特征点描述符。
S3,获取待检索图像的全局特征描述符,根据展品图像和待检索图像的全局特征描述符,从待检索图像中确定与展品图像匹配的至少一张相似图像;获取相似图像的特征点描述符,根据展品图像和待检索图像的特征点描述符,得到匹配特征点对,并从相似图像中确定匹配特征点对数目最多的第一相似图像。
S4,获取匹配特征点对中的特征点在展品图像上的位置信息,根据位置信息,确定用户相对于展品图像的空间位姿;根据空间位姿获取对应于第一相似图像的虚拟信息,并将虚拟信息叠加显示于用户视野所及的空间区域。
需要说明的是,在本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,在本实施例中不再赘述。
此外,结合上述实施例中提供的基于AR的场景导览方法,在本实施例中还可以提供一种存储介质来实现。该存储介质上存储有计算机程序;该计算机程序被处理器执行时实现上述实施例中的任意一种基于AR的场景导览方法。
应该明白的是,这里描述的具体实施例只是用来解释这个应用,而不是用来对它进行限定。根据本申请提供的实施例,本领域普通技术人员在不进行创造性劳动的情况下得到的所有其它实施例,均属本申请保护范围。
显然,附图只是本申请的一些例子或实施例,对本领域的普通技术人员来说,也可以根据这些附图将本申请适用于其他类似情况,但无需付出创造性劳动。另外,可以理解的是,尽管在此开发过程中所做的工作可能是复杂和漫长的,但是,对于本领域的普通技术人员来说,根据本申请披露的技术内容进行的某些设计、制造或生产等更改仅是常规的技术手段,不应被视为本申请公开的内容不足。
“实施例”一词在本申请中指的是结合实施例描述的具体特征、结构或特性可以包括在本申请的至少一个实施例中。该短语出现在说明书中的各个位置并不一定意味着相同的实施例,也不意味着与其它实施例相互排斥而具有独立性或可供选择。本领域的普通技术人员能够清楚或隐含地理解的是,本申请中描述的实施例在没有冲突的情况下,可以与其它实施例结合。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对专利保护范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
- 上一篇:石墨接头机器人自动装卡簧、装栓机
- 下一篇:一种基于虚拟现实的物流园展示方法