征询者假想了 O²-Recon 措施神秘顾客系统

你的位置：广州第三方调查公司 > 神秘顾客调查 > 征询者假想了 O²-Recon 措施神秘顾客系统

征询者假想了 O²-Recon 措施神秘顾客系统

时间：2023-12-30 01:47:17 点击：75 次

机器之心专栏神秘顾客系统

机器之心剪辑部

在贪图机视觉中，物体级别的三维名义重建时刻靠近诸多挑战。与场景级别的重建时刻不同，物体级别的三维重建需要为场景中的每个物体给出孤独的三维暗示，以相沿细粒度的场景建模和相识。这对 AR/VR/MR 以及机器东说念主揣测的应器用有紧要意旨。

许多现存措施诈骗三维生成模子的隐空间来完成物体级别的三维重建，这些措施用隐空间的编码向量来暗示物体阵势，并将重建任务建模成对物体位姿和阵势编码的聚拢揣摸。收获于生成模子隐空间的优秀性质，这些措施可以重建出齐备的物体阵势，但仅限于特定类别物体的三维重建，如桌子或椅子。即使在这些类别中，这类措施优化获取的阵势编码也往往难以准确匹配现什物体的三维阵势。另外一些措施则从数据库中检索得当的 CAD 模子，并辅以物体位姿揣摸来完成三维重建，这类措施也靠近着访佛的问题，其可扩张性比较有限，重建准确性低，很难贴合物体果然的三维名义结构。

跟着 NeRF 和 NeuS 等时刻的发展，imap 和 vMap 等时刻未必诈骗可微渲染来优化物体的几何结构，这些措施未必重建出愈加贴合果然物体名义的网格模子，也未必重建多个类别的物体，冲破单一物体类别的戒指。可是，由于场景里面拍摄角度的敛迹，好多物体都是被逃匿的，比如围聚墙壁的物体，或者互相逃匿的物体。在物体被逃匿的情况下，这些措施重建出的物体往往是不齐备的，如下图所示。这些不齐备的三维模子无法相沿大角度的旋转和大范围平移，就很难被多样卑鄙任务诈骗。

神秘顾客_赛优市场调研

逃匿下的重建拆伙

清华大学刘永进解说团队提议物体三维重建的新措施 O²-Recon，诈骗已有的 2D 扩散模子补全物体图像中被逃匿的区域，继而用神经隐式名义场从补全后的图像中重建齐备的三维物体。该论文诈骗重投影机制保捏填充区域的三维一致性，而况在隐式重建流程中加入 CLIP 耗损函数监督不见识角度的语义信息，最终重建出齐备且合理的三维物体模子，相沿大角度的旋转和平移，可以用于多样卑鄙任务。现在，该论文已被东说念主工智能顶会之一 AAAI 2024 经受。

论文流通：https://arxiv.org/abs/2308.09591

O²-Recon 简介

措施先容

受到 2D 扩散模子在图像补全任务中出色推崇的启发，征询者假想了 O²-Recon 措施，旨在诈骗预考验的扩散模子来补全图像中物体被逃匿的区域。固然现存的扩散模子在图像补全中推崇出刚烈的性能，但若是莫得准确的遮罩（Mask）来指出物体应当被补全的区域，扩散模子就很有可能生成诞妄的图像内容，比如超出正确区域的结构或者诞妄的阵势。在 O²-Recon 措施中，征询者引入了极少的东说念主工操作来构建准确的 Mask，从而保证 2D 补全和 3D 重建的质料。

给定一段带有物体 Mask 的 RGB-D 视频序列，需要用户选拔 1-3 帧图像，并推测这 1-3 帧图像中物体被逃匿的区域，神秘顾客资讯绘画被逃匿区域的 Mask。市欢扩散模子补全出的深度信息，征询者将这些视角下的 Mask 投影到总共其他视角，获取其他视角下的逃匿区域 Mask。通过加入极少的东说念主机交互，征询者保证了 Mask 的质料，同期由于这些 Mask 是重投影获取的，它们在不同视角下具有的几何一致性，从而未必教悔 2D 扩散模子为逃匿区域填充出合理且一致的图像内容。

在三维重建阶段，征询者诈骗访佛于 NeuS 的神经隐式名义场来完成名义重建，并诈骗体渲染构建耗损函数进行优化。磋议到补全的图像仍然可能存在不一致性，这种隐式暗示能在多视角优化的流程中缓缓学习出合理的三维结构。另一方面，征询者从两个角度来升幸驾备不见识区域的重建遵循：最初，征询者诈骗 CLIP 特征监督新视角下渲染拆伙与和物体类别文本的一致性；其次，征询者假想了一个级联网罗结构来编码隐式名义场，其中包括一个浅层的 MLP+低频位置编码来确保名义的举座平滑性，以及一个更深的 MLP 分支+高频 PE 位置编码来预计 SDF 的残差。这种结构既保证可见区域名义的生动性，又确保了物体不见识区域的平滑性。

实验遵循

2月21日，在机器的轰鸣声中，坐落于广州市黄埔区沙步大路沿线两侧的21号地块、14号地块、44号地块等3大地块同时破土动工，挥下沙步社区城中村改造项目的牛年第一铲。

物体的三维重建遵循

主要实验拆伙展示

与其他物体级别的三维重建措施比较，O²-Recon 能重建出更准确，更齐备的三维结构，如上图所示。其中 FroDO 是基于隐空间阵势编码的措施，Scan2CAD 是基于数据库检索的措施，vMap 是诈骗 NeRF 作念名义重建的措施，MonoSDF 是场景级别的三维重建措施。

动图对比

重建后物体的位置剪辑

由于 O²-Recon 重建出的物体较为齐备，咱们可以对这些物体作念大幅度的旋转或平移，在剪辑位置之后，从新的角度不雅察这些物体，其名义质料仍然可以，如下图所示。

在剪辑之前，这些物体在原场景中的位置下：

多物体动图对比

在剪辑之后，这些物体在新的位置下：

多物体动图对比

纪念

本文提议了 O²-Recon 措施，来诈骗预考验的 2D 扩散模子重建场景中被逃匿物体的齐备 3D 几何阵势。征询者诈骗扩散模子对多视角 2D 图像中的逃匿部分进行补全，并从补全后的图像诈骗神经隐式名义重建 3D 物体。为了留神 Mask 的不一致性，征询者汲取了一种东说念主机协同政策，通过极少东说念主机交互生成高质料的多角度 Mask，有用地教悔 2D 图像补全流程。在神经隐式名义的优化流程中，征询者假想了一个级联的网罗架构来保证 SDF 的平滑性，并诈骗预考验的 CLIP 模子通过语义一致性耗损监督新视角。征询者在 ScanNet 数据集上的实考据明，O²-Recon 未必为随性类别的被逃匿物体重建出精准齐备的 3D 名义。这些重建出的齐备 3D 物体相沿进一步的剪辑操作，如大范围旋转和平移。

神秘顾客研究专家！

24小时咨询热线：13760686746