- 主题技术
- 以原创技术系统为根基,SenseCore东升国际官网AI大装置为主题基座,布局多领域、多方向前沿钻研,
急剧买通AI在各个垂直场景中的利用,向行业赋能。
ISMAR 2021|东升国际官网和浙江大学结合提出移动端高质量在线三维扫描仪Mobile3DScanner
Mobile3DScanner: An Online 3D Scanner for High-quality Object Reconstruction with a Mobile Device
Part 1 有关工作
目前重要的静态物体沉建步骤能够分为两类:基于RGBD相机的三维扫描沉建与基于图像的多视图沉建。
1.1 基于RGBD相机的三维扫描沉建
此类步骤以KinectFusion[3]为代表,对输入的深度牟利用ICP求解相机位姿,并将深度图融合成一个全局的TSDF模型,类似的工作还有InfiniTAM[2]以及BundleFusion[1],但由于推算复杂度以及内存占用的原因,它们只能在PC端运行。此表,还有[8][9][10]等结合用户手操作的交互式扫描沉建步骤以及基于非刚性注册的物体扫描沉建[11],这类步骤大多合用于幼物体沉建。
1.2 基于图像的多视图沉建
此类步骤致力于在移动设备上实现基于单目RGB视频的物体扫描沉建,他们利用多视图立体匹配的步骤复原出单帧的深度并将深度融合成TSDF模型[12][13]或者Surfel模型[14][15]。总体而言,这类步骤沉建出的模型在模型精度以及齐全度上与基于RGBD相机的沉建步骤相比还有肯定差距。
Part 2 步骤描述
2.1 系统概述
如图1所示,东升国际官网沉建系统要求用户建设一个带有RGBD摄像头的移动推算设备,并将待扫描的物体搁置在一个水平面上。用户起头扫描后,系统将自动宰割出物体区域并实时求解相机位姿,深度传感器获取到的深度数据将被融合成TSDF模型并渲染供用户作实时预览。扫描实现后,系统将对所有的关键帧进行全局BA并结合多视图立体匹配步骤来优化关键帧的深度,最终融合出的TSDF模型经由泊松沉建[16]、Shape-from-Shading以及纹理贴图后,得到最终带纹理的沉建模型。

我们用 Semantic Field 来实现对人脸特点陆续且高细粒度可控的编纂。对话职能则由 Language Encoder和Talk?槔词迪。接下来我们诠释各个?榈墓ぷ鞯览砗统尚。
2.2 ICP与IMU松耦合
移动平台算力有限,我们提出将ICP与IMU进行松耦合来提升相机位姿求解的鲁棒性与精度。我们首先利用初始两帧的ICP了局对IMU?榻谐跏蓟,IMU初始化实现后即可凭据输入的IMU数据为当前帧提供位姿预测,我们再将IMU的预测值参与ICP能量项来求解当前帧的相机位姿,当前帧位姿求解实现后,其了局将作为约束来进一步优化IMU的状态量[17]。正本的ICP能量项[4]思考了两帧之间的色彩差和深度差:

![]()
在此基础上我们参与了IMU的旋转约束以及沉力约束:

![]()
构建最终的能量方程

图2展示了我们步骤的有效性。

图2.(a)Open3D[4] ICP. (b)引入IMU. (c)(d)参与LBA以及Loop Closure.
2.3 自适应调节体素的TSDF
移动平台上内存有限,必须约束TSDF模型的大幼,我们提出一种自适应调节体素的TSDF步骤,当其内存占用量达到阈值时,系统将自动创建一个新的TSDF,其体素大幼为旧体素的1.5倍,新体素的符号距离以及权沉无需沉新推算,可通过旧体素三线性插值高效获取。这个战术可保障TSDF模型的内存占用不会超过用户设定的阈值,从而在移动设备上能支持大物体的扫描沉建。
2.4 结合深度先验的多视图立体匹配
消费级的深度传感器例如dToF,其获取的深度存在分歧水平的谬误以及过滑润问题,我们提出一种结合深度先验的SGM步骤,利用视觉信息来提升深度图的精度,其成效如图3所示。

图3.(a)关键帧. (b)dToF单帧深度以及融合后的模型. (c)SGM[6]单帧深度. (d)结合深度先验的SGM及其模型.
2.5 高效的Shape-from-Shading
Shape-from-Shading能够提升沉建模型的几何细节,但目前已有的实现规划无论是推算复杂度还是内存占用都远无法在移动平台上执行。分歧于现有规划,我们直接在沉建好的模型上优化三角面片的法向量,再结合步骤[5]更新模型顶点。以图4中的“David”为例,东升国际官网步骤在iPad Pro2020 CPU上耗时3.24秒,优化后模型精度RMSE/MAE为3.12mm/2.473mm。而Intrinsic3D[7]在PC端Intel Core i7 7700K CPU上耗时81分钟得到略优的了局,RMSE/MAE为2.89mm与2.16mm。

图4.(a)初始模型. (b)SFS优化后的模型
Part 3 尝试了局
3.1 模型精度对比
我们用iPad Pro2020录造了四组测试数据来对比东升国际官网规划与现有的规划在模型精度上的差距,ground truth由贸易扫描仪获取。表格1以及图5显示东升国际官网步骤在模型精度以及齐全度上都获得了最优了局。

表格1.模型精度对比(RMSE/MAE)

图5.与现有SOTA步骤的模型对比.
(b)Open3D[4].(c)KinectFusion[3].(d)InfiniTAM[2].(e)BundleFusion[1].(f)3D Scanner App.(g)东升国际官网步骤.(h)GT.
3.2 耗时统计
表格2统计了算法各个步骤在iPad Pro2020上的耗时,东升国际官网步骤在大物体“worker”上也达到了实时。

表格2:算法?楹氖蓖臣
3.3 更多了局

Reference:
[1] Dai, M. Nie?ner, M. Zollho ?fer, S. Izadi, and C. Theobalt. BundleFusion: Real-time globally consistent 3D reconstruction using on-the-fly surface re-integration. ACM Transactions on Graphics, 36(4):1, 2017.
[2] O. Kahler, V. Prisacariu, C. Ren, X. Sun, P. Torr, and D. Murray. Very high frame rate volumetric integration of depth images on mobile devices. IEEE Transactions on Visualization and Computer Graphics, 21(11):1–1, 2015.
[3] R. A. Newcombe, S. Izadi, O. Hilliges, D. Molyneaux, and A. W. Fitzgibbon. KinectFusion: Real-time dense surface mapping and tracking. In IEEE International Symposium on Mixed and Augmented Reality, 2011.
[4] Q. Zhou, J. Park, and V. Koltun. Open3D: A modern library for 3D data processing. arXiv:1801.09847, 2018.
[5] H. Zhao, K. Su, C. Li, B. Zhang, L. Yang, N. Lei, X. Wang, S. J. Gortler, and X. Gu. Mesh parametrization driven by unit normal flow. Computer Graphics Forum, 39(1):34–49, 2020.
[6] H. Hirschmu ?ller. Accurate and efficient stereo processing by semi-global matching and mutual information. In IEEE Computer Society Conference on Computer Vision and Pattern Recognition, vol. 2, pp. 807–814, 2005.
[7] R. Maier, K. Kim, D. Cremers, J. Kautz, and M. Nie?ner. Intrinsic3D: High-quality 3D reconstruction by joint appearance and geometry optimization with spatially-varying lighting. In IEEE International Conference on Computer Vision, 2017.
[8] S. Rusinkiewicz, O. Hall-Holt, and M. Levoy. Real-time 3D model acquisition. ACM Transactions on Graphics, 21(3):438–446, 2002.
[9] D. Tzionas and J. Gall. 3D object reconstruction from hand-object interactions. In IEEE International Conference on Computer Vision, pp. 729–737, 2015.
[10] T. Weise, B. Leibe, and L. Van Gool. Accurate and robust registration for in-hand modeling. In IEEE Conference on Computer Vision and Pattern Recognition, pp. 1–8, 2008.
[11] J. Xu, W. Xu, Y. Yang, Z. Deng, and H. Bao. Online global non-rigid registration for 3D object reconstruction using consumer-level depth cameras. 37(7):1–12, 2018.
[12] P. Ondru ?sˇka, P. Kohli, and S. Izadi. MobileFusion: Real-time volumetric surface reconstruction and dense tracking on mobile phones. IEEE Trans- actions on Visualization and Computer Graphics, 21(11):1251–1258, 2015.
[13] V. Pradeep, C. Rhemann, S. Izadi, C. Zach, M. Bleyer, and S. Bathiche. MonoFusion: Real-time 3D reconstruction of small scenes with a single web camera. In IEEE International Symposium on Mixed and Augmented Reality, 2013.
[14] P. Tanskanen, K. Kolev, L. Meier, F. Camposeco, O. Saurer, and M. Polle- feys. Live metric 3D reconstruction on mobile phones. In IEEE Interna- tional Conference on Computer Vision, pp. 65–72, 2013.
[15] K. Kolev, P. Tanskanen, P. Speciale, and M. Pollefeys. Turning mobile phones into 3D scanners. In IEEE Conference on Computer Vision and Pattern Recognition, 2014.
[16] M. Kazhdan. Poisson surface reconstruction. In Eurographics Symposium on Geometry Processing, 2006.
[17] T. Qin, P. Li, and S. Shen. Vins-mono: A robust and versatile monocular visual-inertial state estimator.





返回