一种多全景图融合三维重建的方法
技术领域
本发明涉及室内三维重建领域以及全景图领域,具体的说涉及有关于通过多全景图融合的方式来进行室内三维场景重建的方法。
背景技术
随着AI技术的蓬勃发展以及新型设备的不断涌现,三维重建成为计算机图形学领域的热点研究课题,其主要任务是基于各种传感器釆集的数据,采用多视图几何、概率统计学和优化理论等数学工具,对现实物理世界进行三维建模,建立起现实世界和虚拟世界的桥梁。因此,三维重建在制造、医疗、影视制作、文物保护、增强现实、虚拟现实、定位导航等众多不同的领域有着广泛的应用。其中,有关于室内三维场景重建技术在增强现实中的应用和发展尤为迅速,包括室内的增强现实游戏、机器人导航、AR家具看房等等。
目前,有关于三维场景重建技术在增强现实中的应用和发展尤为迅速,尤其是有关室内重建领域的技术更迭更是快速,但一般的传统技术多数是通过单个RGB-D相机实现,同步使用多个RGB-D相机通过多全景图融合的方式来实现室内三维场景的重建目前仍较为新颖。
现代场景的理解和导航任务要求具有高识别3D场景的数据库,这大部分是通过手持扫描或全景扫描获得的。手持扫描技术将RGB-D视频流作为输入,并利用现代的密集重建系统或视觉SLAM算法用于跟踪和集成顺序帧。另一方面,全景扫描将扫描过程安排在多个原位旋转中,以构建3D全景图,以便在不同的视点进行渐进式整合。与手持扫描相比,手持扫描需要连续关注具有足够几何或光度特征的区域以进行可靠跟踪,而全景扫描则更容易跟踪原位旋转,现已成为工业或商业应用的实用替代方案。目前,已开发出多种技术通过使用全景扫描的方式来构建360度全景图,并且根据其输入和输出图像类型(即是否包含深度信息),可以将其分为三类,即2D到2D,2D到3D和3D到3D。虽然有可能通过使用2D RGB相机来恢复粗略的深度信息,以进行规范的缝合和VR/AR应用,但对于高清晰度3D重建而言,深度质量通常不能被接受。当前基于单个RGB-D相机的3D到3D技术限制了传感器运动时的自由度视野,因此无法涵盖大部分的球形全景图。可以通过利用多个RGB-D摄像机(例如垂直排列以进行水平旋转)来解决这个狭窄的视野问题,但是这又会带来新的摄像机校准和同步问题。
相关名词与符号的定义
1.等矩形投影(ERP投影)
等距柱状投影是目前应用最为广泛的一种VR视频投影方式,最初是公元前100年古希腊航海家o为了绘制地图而发明的。这种投影方式把地球的经线映射成间距相等的垂直线,把地球的纬线映射成间距相等的水平线,则可生成一幅横纵比为2:1的地图,如图1。在全景图像及视频中,等距柱状投影的实现思路是用相同数量的采样点保存每条纬线上的数据,从而得到对应的二维平面上的矩形视频,在归一化后的平面坐标系上,u、v的取值可以是[0,1]内的任意值。
2.BA模型优化(Bundle Adjustment)
所谓的BA图优化,简单地讲就是指从视觉图像中提炼出最优的3D模型和相机参数。考虑从任意特征点发射出来的几束光线,它们会在几个相机的成像平面上变成像素或是检测到的特征点。如果我们调整各相机姿态和各特征点的空间位置,使得这些光线最终收束到相机的光心,就称为BA。
3.因子图(Factor Graph)
因子图是概率图的一种,概率图有很多种,最常见的就是Bayesian Network(贝叶斯网络)和Markov Random Fields(马尔可夫随机场)。在概率图中,求某个变量的边缘分布是常见的问题。这问题有很多求解方法,其中之一就是可以把Bayesian Network和MarkovRandom Fields转换成Facor Graph,然后用sum-product算法求解。基于Factor Graph可以用sum-product算法可以高效的求各个变量的边缘分布。更详细的解释是将一个具有多变量的全局函数因子分解,得到几个局部函数的乘积,以此为基础得到的一个双向图叫做因子图。所谓因子图就是对函数因子分解的表示图,一般内含两种节点,变量节点和函数节点。我们知道,一个全局函数能够分解为多个局部函数的积,因式分解就行了,这些局部函数和对应的变量就能体现在因子图上。
发明内容
为了实现将构造3D全景图的方式与大型室内场景的三维重建相结合,以及有关于室内slam移动机器人的开发与利用,本发明解决了多个不同步相机在构造3D全景图时的未配准问题以及在重建时传感器固有噪声的问题,提供了一种多全景图融合三维重建的方法。
首先通过多个不同步相机构造出多幅3D全景图,然后融合所得的多张全景图将其拼接起来,以进行大型室内场景的抗噪重建。我们的方法需要将多个不同步RGB-D相机搭载在一个移动机器人平台上,通过移动机器人的旋转使得这些相机可以在场景中的不同位置执行原位旋转。这样多个不同步的相机在同一公共轴上旋转为应对不同步的相机提供了新的视角,而无需对其视野场进行足够的重叠。基于这一关键观察,我们提出了同步跟踪这些相机的新的方式,即通过移动平台硬件的搭建以及相应的正则化项约束来实现。本发明的关键观点是通过解决多个相机的不同步问题并融合多张3D全景图来进行大型室内场景的抗噪三维重建。
多摄像机全景扫描的首要问题就是如何恢复这些RGB-D帧的相对姿态,大多数的商品深度传感器(如Kinect和PrimeSense)是不支持快门同步这一功能的,强行按时间戳(timestamps)分组会因为忽略了快门间隔期间的运动而导致最终图像的错位。其次,还有一个问题是由于传感器的固有噪声,以前的工作是通过几种通用数据结构处理连续扫描帧积分期间的噪声,例如截断符号距离函数(TSDF)、概率符号距离函数(PSDF)和Surfels。但鲜少有人进一步考虑了在帧配准过程中噪声的影响。由于后续的全景间配准和图像融合步骤都会受到这些不确定测量的影响,因此对全景图构建后的深度测量噪声进行建模是非常重要的。
本发明实现功能:通过两步式的处理以完成大型室内场景的三维重建,主要分为两大步骤,首先是单张3D全景图的构建,第二步是多张全景图的融合,通过以上两步可以将整个室内场景三维重建出来。
一种多全景图融合三维重建的方法,步骤如下:
步骤1:通过扫描平台获取室内场景的数据图像:RGB图与深度图;
步骤2:相机运动定位,即姿态估计;
步骤3:通过对获取的室内场景的RGB图像以及对应的深度图进行预处理,以构建单张3D全景图;
步骤4:多张全景图的数据获取及构建;
步骤5:多全景图融合,即多张全景图之间的一致对齐与配准缝合;
步骤6:通过融合后的多全景图实现室内场景的抗噪三维重建完成。
步骤(1)所述的扫描平台采用底盘为两轮的轮式平衡机器人,通过桁架在轮式平衡机器人的平台基础上架高搭建一个稳定的新云台,并在新搭建的云台上固定放置了三台不同步RGB-D深度相机,并且这三个RGB-D深度相机之间成120°以能涵盖整个视野,通过扫描平台的旋转使得三个RGB-D深度相机能够在场景中原地旋转。
步骤(2)具体操作如下:
根据所获取的RGB图与深度图计算得出相机的位姿,估计相机运动:即通过对应帧之间特征点的匹配,根据点对来估计相机的运动,再经过ICP的求解来得出最终的全局优化值,从而估计相机的位姿。
步骤(3)具体操作如下:
通过等矩形图像投影进行全景图的构造,将原始颜色和深度测量值变形为所需全景图的等矩形表示形式,以对传感器噪声进行统计建模,并通过滤波或者补全的方法来对初步获取的全景图进行优化,以保持其几何质量。在全景图域中进行处理时,不选择使用常规数据结构来生成点云或者面片网格,而是产生有组织的图像。
通过固定安装有多个不同步相机的扫描平台解决相机的未配准问题;根据相机运动的同轴度,在不依赖于同步性或显著地标共现的情况下,共同得出其状态;通过在因子图优化框架下的正则化约束实现。所述的正则化项包括三项:地标观测因子项、姿态正则化因子项以及平滑度因子项。由于所有相机和轴都构成一个固定的物体并在扫描过程中一起移动,因此能够使用统一的物理模型和外部模型来描述它们的运动。通过利用同轴旋转的特点,将所有的相机与轴变为了一个混合体,在扫描过程中会一起移动。尤其是对于原地旋转,能够将原先需要考虑的相机的多个姿态,即六轴,三维度的平移以及三维度的旋转只通过一个自由度来体现出来,即旋转器的方位角。
步骤(4)具体方法如下:
通过控制扫描平台的运动获取到不同定位点的数据图像。在扫描期间,需要移动装置在多个定位点执行原位旋转,由于扫描平台采用的是两轮的轮式平衡机器人,通过在两个驱动轮的不同方向上设置相同的速度即能实现在多个定位点执行原位旋转。所述的定位点的数量和位置根据室内场景大小和结构进行设置。
然后根据获得的不同定位点的数据图像通过步骤(3)的方法构建不同定位点对应的全景图;
步骤(5)具体方法如下:
对于两个全景图之间的配准,构造其像素之间的密集对应关系以迭代方式制定和最小化几何距离,采用ICP算法估算两个全景图之间的相对变换,最终实现多张全景图的融合。
本发明有益效果如下:
本发明所述的方法结合全景图的构建与融合基于室内场景提出了一个灵活的两步式三维重建框架,结合了传统slam优质算法和基于3D全景图的优势,可以得到更为准确的室内场景重建效果,实现更高质量的重建,并且本发明需要依靠移动机器人的搭载来实现,这也为后续大型室内场景服务机器人等的定位与导航的开发提供了新的可能。
本发明方通过限定其运动一致性来共同跟踪未同步的相机,而无需依赖于明显的视差或快门同步,使得重建结果更加准确。
附图说明
图1为本发明实施例的流程图。
具体实施方式
下面结合附图详细说明本发明,本发明的目的和效果将变得更加明显。
为了实现室内场景的三维重建,本发明所述的方法结合全景图的构建与融合基于室内场景提出了一个灵活的两步式三维重建框架,结合了传统slam优质算法和基于3D全景图的优势,可以得到更为准确的室内场景重建效果,本发明解决了多个不同步相机在构造3D全景图时的未配准问题以及在重建时传感器固有噪声的问题,提供了一种多全景图融合三维重建的方法,实施流程图如图1所示。具体实施步骤如下:
步骤(1),通过扫描平台上安装的RGB-D深度相机扫描来获取室内场景的数据图像,即RGB图与对应的深度图。所述的扫描平台采用底盘为两轮的轮式平衡机器人,通过桁架在轮式平衡机器人的平台基础上架高搭建一个稳定的新云台,并在新搭建的云台上固定放置了三台不同步RGB-D深度相机,并且这三个RGB-D深度相机之间成120°以能涵盖整个视野(从天花板到地板),通过扫描平台的旋转使得三个RGB-D深度相机能够在场景中原地旋转。
步骤(2),相机的位姿估计。
根据所获取的RGB图与深度图计算得出相机的位姿,估计相机运动:即通过对应帧之间特征点的匹配,根据点对来估计相机的运动,再经过ICP的求解来得出最终的全局优化值,从而估计相机的位姿。
步骤(3),通过对获取的室内场景的RGB图像以及对应的深度图进行预处理,以构建单张3D全景图。
通过等矩形图像投影将原始RGB-D像素均匀地重新投影到目标域并保持其相邻关系,将原始颜色和深度测量值变形为所需全景图的等矩形表示形式,以对传感器噪声进行统计建模,并进行优化(通过滤波或者补全的方法来对初步获取的全景图进行优化,如GC滤波器等)以保持其几何质量。在全景图域中进行处理时,不选择使用常规数据结构来生成点云或者面片网格,而是产生有组织的图像,这将更有利于原始深度测量的统计和优化。由于要集成的每个原始帧对构造的全景图只有很小的视差,因此几乎所有原始图像区域都可以在几乎没有遮挡的情况下融合到全景图中,因此这种全景图能够传达大多数有效测量值。对于全景图的构造,存在几种可选结构,例如立方体图,立体投影图像和等矩形图像投影。其中,等矩形图像投影是将原始RGB-D像素均匀地重新投影到目标域并保持其相邻关系的最佳方法。
通过固定安装有多个不同步相机的扫描平台解决相机的未配准问题;根据相机运动的同轴度,在不依赖于同步性或显著地标共现的情况下,共同得出其状态。通过在因子图优化框架下的正则化约束实现。所述的正则化项包括三项:即地标观测因子项(建立了框架姿态与标志点之间的关系)、姿态正则化因子项(调整相机运动使其与水平旋转一致,并且估计旋转轴的姿势)、平滑度因子项(限制连续帧间角速度一致,使得角速度保持匀速)。由于所有相机和轴都构成一个固定的物体并在扫描过程中一起移动,因此能够使用统一的物理模型和外部模型来描述它们的运动。特别是对于这种原地旋转,一旦解决了轴与多个摄像机之间的这些外部问题,就可以仅通过1-DoF将摄像机的状态参数化为旋转器(移动平台)的方位角。通过利用同轴旋转的特点,将所有的相机与轴变为了一个混合体,在扫描过程中会一起移动。尤其是对于原地旋转,可以将原先需要考虑的相机的多个姿态,即六轴,三维度的平移以及三维度的旋转只通过一个自由度来体现出来,即旋转器的方位角。
步骤(4),多张全景图的数据获取及构建。
要想实现整个大型室内场景的三维重建,光是一个定位点的数据获取是难以覆盖到整个室内场景的,需要至少2-3个定位点的数据采集才能覆盖到整个室内场景。这时,就可通过控制扫描平台的运动获取到不同定位点的数据图像。在扫描期间,需要移动装置在多个定位点执行原位旋转,由于扫描平台采用的是两轮的轮式平衡机器人,通过在两个驱动轮的不同方向上设置相同的速度即能实现在多个定位点执行原位旋转。所述的定位点的数量和位置根据室内场景大小和结构进行设置。
然后根据获得的不同定位点的数据图像通过步骤(3)的方法构建不同定位点对应的全景图;
步骤(5),多全景图的融合,即多张全景图之间的一致对齐与配准缝合。
对于两个全景图之间的配准,构造其像素之间的密集对应关系以迭代方式制定和最小化几何距离,采用ICP算法估算两个全景图之间的相对变换,最终实现多张全景图的融合。
步骤(6),通过多全景图的融合实现室内场景的抗噪三维重建完成。