[泛]Building Fusion：语义感知结构化建筑规模的三维重建

Zheng T, Zhang G, Han L, et al. Building Fusion: Semantic-aware Structural Building-scale 3D Reconstruction [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020

清华-伯克利深圳学院，清华大学

针对什么问题

如何实现在线的建筑规模的协同三维重建，为室内场景提供详细的几何、语义和结构化信息
如何解决场景中相似房间导致的回环检测出错

采用什么方法

提出了一个中心化架构的语义感知结构化建筑规模的三维重建系统Building Fusion：

采用分层场景结构实现全局连续的在线重建
- 协同进行密集重建，每个agent的重建都采用基于关键帧的重建方法(组合时间连续帧)
- 采用子图策略组合空间连续帧，该方法提高了位姿图优化和深度融合的效率
采用[8]提出的三维语义-实例分割网络实现在线语义和实例预测，用来检测房间
提出的房间规模的语义感知结构化回环检测方法 (LCD) 实现了对不同agent间匹配关系的寻找，从而形成全局连续的地图
- 输入实例分割标签，预测实例级embedding，该网络对物体形状信息进行编码
- 基于第一步求出的实例形状embedding计算当前房间和数据库中所有房间的相似度
- 采用图匹配方法和ICP进行几何验证，检查这些房间是否能很好地对齐，并剔除误判。该方法受[45]所提出的基于物体的图匹配方法的启发，并将其扩展到大规模场景

达到什么效果

和基于实例分割的其他方法比Recall@N（语义标签直方图和PointNet[23]）
- PointNet泛化能力差，无法生成好的形状embedding
- Semantic Label Histogram在Recall@N上表现较好，但不能区分来自相同种类的不同物体
- 本文提出的方法成功将相似几何外形的物体进行分类
和不用实例分割的方法相比（PointNetVLAD和FPFH）
和二维回环检测相比（BoBW）
- BoBW表现不好的可能原因：1)BoBW所用数据集太大了，从而降低了命中率 2) BoBW不擅长从新的位姿进行定位（not good at relocalizing from novel poses）
建筑规模重建（和Golodetz[4]相比，后者不能得到理想的结果）
消融实验表明：
- Room-level LCD：通过房间级的几何与语义信息进行对齐，不再受二维相似图像影响
- Submap-based reconstruction：大大降低了系统处理所需的时间和内存
- Submap reintegration：实现无缝重建，重建结果更加平滑

存在什么不足

几何重建方面
- 视觉跟踪器(visual tracker)导致的漂移误差(drift error)，缺乏足够视觉特征时会跟丢(tracking loss) <= 增加惯性传感器提高跟踪准确率和鲁棒性
- 对齐房间的时候ICP无法稳定生成最佳结果 <= 用学习的三维特征代替[60]
- 重建结果可能会因为扫描密度不够而不完整 <= 使用数据驱动的方法[61], [62]
对场景的语义和结构化理解方面
- 在训练集中未出现的物体/不完整重建的物体，分割结果较差 <= 根据场景微调模型或采用更好的数据增强方法或采用当前更好的实例/语义分割方法
- 当前只建模了房间，未来可以增加其他结构类型
- 当前只考虑了静态场景，还没有考虑动态场景

[4] S. Golodetz, T. Cavallari, N. A. Lord, V. A. Prisacariu, D. W. Murray, and P. H. Torr, “Collaborative large-scale dense 3d reconstruction with online inter-agent pose optimisation,” IEEE transactions on visualization and computer graphics, vol. 24, no. 11, pp. 2895–2905, 2018.

对比文献，建筑规模重建

[8] L. Han, T. Zheng, L. Xu, and L. Fang, “Occuseg: Occupancy-aware 3d instance segmentation,” arXiv preprint arXiv:2003.06537, 2020.

参考工作，实现房间检测的三维语义-实例分割网络

[23] C. R. Qi, H. Su, K. Mo, and L. J. Guibas, “Pointnet: Deep learning on point sets for 3d classification and segmentation,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2017, pp. 652–660.

对比文献，PointNet，基于实例分割，泛化能力差

[45] R. Finman, L. Paull, and J. J. Leonard, “Toward object-based place recognition in dense rgb-d maps,” in ICRA Workshop Visual

参考工作，基于物体的图匹配方法，本文将其拓展到大规模场景

[53] A. Dai, A. X. Chang, M. Savva, M. Halber, T. Funkhouser, and M. Nießner, “Scannet: Richly-annotated 3d reconstructions of indoor scenes,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017, pp. 5828–5839.

RGBD视频数据集，包括了在707个不同地点的1513段扫描、重建的三维模型和三维语义/实例分割GT标签，广泛应用于三维语义和实例分割

[60] C. Choy, J. Park, and V. Koltun, “Fully convolutional geometric features,” in ICCV, 2019.

未来工作参考，基于学习的三维特征

[61] A. Dai, D. Ritchie, M. Bokeloh, S. Reed, J. Sturm, and M. Nießner, “Scancomplete: Large-scale scene completion and semantic segmentation for 3d scans,” in Proc. Computer Vision and Pattern Recognition (CVPR), IEEE, 2018.

未来工作参考，数据驱动

[62] A. Dai, C. Diller, and M. Nießner, “Sg-nn: Sparse generative neural networks for self-supervised scene completion of rgb-d scans,” in Proc. Computer Vision and Pattern Recognition (CVPR), IEEE, 2020.

未来工作参考，数据驱动