3D视觉相关论文42篇
发布日期:2026/4/12 9:27:02 浏览量:
3D视觉相关论文42篇
[1] tttLRM: Test-Time Training for Long Context and Autoregressive 3D ReconstructiontttLRM:用于长上下文和自回归3D重建的测试时训练
摘要:我们提出了tttLRM,这是一种新颖的大型3D重建模型,它利用测试时训练(Test-Time Training,TTT)层,以线性计算复杂度实现长上下文、自回归3D重建,进一步扩展了模型的能力。我们的框架将多个图像观测值高效地压缩到TTT层的快速权重中,在潜在空间中形成一种隐式3D表示,该表示可以解码为各种显式格式,例如用于下游应用的高斯 splat(Gaussian Splats,GS)。我们模型的在线学习变体支持从流式观测值进行渐进式3D重建和细化。我们证明了在新颖视图合成任务上的预训练可以有效地迁移到显式3D建模,从而提高重建质量并加快收敛速度。大量实验表明,在对象和场景的前馈3D高斯重建方面,我们的方法比现有最先进的方法表现更优。
[2] Flow3r: Factored Flow Prediction for Scalable Visual Geometry LearningFlow3r:用于可扩展视觉几何学习的因式分解光流预测
摘要:当前的前馈3D/4D重建系统依赖于密集的几何和位姿监督,而获取这些监督在大规模场景下成本高昂,并且在动态现实场景中尤其稀缺。我们提出了Flow3r框架,该框架以密集的2D对应关系(“光流”)作为监督来增强视觉几何学习,从而能够从无标签的单目视频中进行可扩展的训练。我们的关键见解是,光流预测模块应该进行因式分解:利用一张图像的几何潜变量和另一张图像的位姿潜变量来预测两张图像之间的光流。这种因式分解直接引导场景几何和相机运动的学习,并且自然地扩展到动态场景。在可控实验中,我们表明因式分解光流预测优于其他设计,并且性能随着无标签数据的增加而持续提升。将因式分解光流集成到现有的视觉几何架构中,并使用约80万个无标签视频进行训练,Flow3r在涵盖静态和动态场景的八个基准测试中取得了最先进的结果,在野外动态视频上的提升最大,因为在这些场景中标签数据最为稀缺。
[3] SEAL-pose: Enhancing 3D Human Pose Estimation via a Learned Loss for Structural ConsistencySEAL-pose:通过学习结构一致性损失提升3D人体姿态估计
摘要:3D人体姿态估计(HPE)的特点是关节之间存在复杂的局部和全局依赖关系。传统的监督损失在捕捉这些相关性方面存在局限性,因为它们独立处理每个关节。此前的研究曾尝试通过手动设计的先验或基于规则的约束来促进结构一致性;然而,这些方法通常需要手动指定,并且往往不可微,限制了它们作为端到端训练目标的使用。我们提出了SEAL-pose,这是一个数据驱动的框架,其中一个可学习的损失网络(loss-net)通过评估结构合理性来训练姿态网络(pose-net)。我们基于关节图的设计无需依赖手工制作的先验,使损失网络能够直接从数据中学习复杂的结构依赖关系。在三个3D HPE基准测试和八个骨干网络上进行的大量实验表明,与所有设置下的相应骨干网络相比,SEAL-pose降低了每个关节的误差并提高了姿态的合理性。除了改进每个骨干网络之外,尽管没有实施任何明确的结构约束,SEAL-pose也优于具有显式结构约束的模型。最后,我们分析了损失网络与结构一致性之间的关系,并在跨数据集和野外设置中评估了SEAL-pose。
[4] Token-UNet: A New Case for Transformers Integration in Efficient and Interpretable 3D UNets for Brain Imaging SegmentationToken-UNet:将Transformer集成到高效且可解释的3D UNet中用于脑成像分割的新案例
摘要:我们提出了Token-UNet,采用TokenLearner和TokenFuser模块将Transformer融入UNet。虽然Transformer在医学成像中实现了输入元素之间的全局交互,但当前的计算挑战阻碍了它们在普通硬件上的部署。像(Swin)UNETR这样的模型通过整合(Swin)Transformer编码器来调整UNet架构,这些编码器处理每个代表输入小体素块($8^3$体素)的令牌。Transformer注意力机制的计算复杂度与令牌数量呈二次方关系,而令牌数量与3D输入分辨率的立方成正比。这项工作重新审视了卷积和注意力的作用,引入了Token-UNet,这是一系列可以在受限计算环境和时间框架内运行的3D分割模型。为了减轻计算需求,我们的方法保留了类UNet模型的卷积编码器,并将TokenLearner应用于3D特征图。该模块从局部和全局结构中汇集预设数量的令牌。我们的结果表明,这种令牌化有效地编码了与任务相关的信息,产生了自然可解释的注意力图。我们最重的模型的内存占用、推理计算时间和参数数量分别降至SwinUNETR的33%、10%和35%,并且平均性能更好(SwinUNETR的Dice分数为86.75% $\pm$ 0.19%,而我们的为87.21% $\pm$ 0.35%)。这项工作为在计算资源有限的环境(如3D医学成像)中进行更高效的训练开辟了道路。在有限的硬件环境中简化模型优化、微调以及迁移学习可以加速和多样化方法的发展,造福研究界。
[5] Learning Positive-Incentive Point Sampling in Neural Implicit Fields for Object Pose Estimation用于目标姿态估计的神经隐式场正激励点采样学习
摘要:学习3D形状的神经隐式场是一个迅速发展的领域,它能够以任意分辨率进行形状表示。由于其灵活性,神经隐式场已在许多研究领域取得成功,包括形状重建、新颖视角图像合成,以及最近的目标姿态估计。神经隐式场能够学习相机空间和物体规范空间之间的密集对应关系,包括相机空间中未观察到的区域,这在诸如高度遮挡物体和新颖形状等具有挑战性的场景中显著提高了目标姿态估计的性能。尽管取得了进展,但由于缺乏直接的观测信号,为相机空间中未观察到的区域预测规范坐标仍然具有挑战性。这就需要高度依赖模型的泛化能力,从而导致高不确定性。因此,在整个相机空间中密集采样点可能会产生不准确的估计,这会阻碍学习过程并降低性能。为缓解这一问题,我们提出了一种将SO(3)等变卷积隐式网络与正激励点采样(PIPS)策略相结合的方法。SO(3)等变卷积隐式网络在任意查询位置以SO(3)等变性估计点级属性,与大多数现有基线相比表现出更优的性能。PIPS策略根据输入动态确定采样位置,从而提高了网络的准确性和训练效率。我们的方法在三个姿态估计数据集上优于现有最先进的方法。值得注意的是,它在具有挑战性的场景中表现出显著的改进,例如以未见姿态捕获的物体、高度遮挡、新颖几何形状和严重噪声等情况。
[6] Augmented Radiance Field: A General Framework for Enhanced Gaussian Splatting增强辐射场:用于增强高斯 splatting 的通用框架
摘要:由于实时渲染性能,3D 高斯 splatting(3DGS)已成为辐射场重建的领先方法。然而,它依赖球谐函数进行颜色编码,这从本质上限制了其分离漫反射和镜面反射分量的能力,使得准确表示复杂反射变得具有挑战性。为了解决这个问题,我们提出了一种新颖的增强高斯核,该核通过与视角相关的不透明度显式建模镜面反射效果。同时,我们引入了一种基于误差驱动的补偿策略,以提高现有 3DGS 场景的渲染质量。我们的方法从 2D 高斯初始化开始,然后自适应地插入和优化增强高斯核,最终生成一个增强辐射场。实验表明,我们的方法不仅在渲染性能上超越了现有最先进的 NeRF 方法,还实现了更高的参数效率。项目页面:https://xiaoxinyyx.github.io/augs.
[7] Monocular Mesh Recovery and Body Measurement of Female Saanen Goats雌性萨能山羊的单目网格恢复与身体测量
摘要:以高产奶量著称的萨能奶山羊的泌乳性能与其体型密切相关,因此准确的3D身体测量对于评估其产奶潜力至关重要。然而,现有的重建方法缺乏针对山羊的真实3D数据。为解决这一局限性,我们建立了FemaleSaanenGoat数据集,该数据集包含55只6 - 18个月大的雌性萨能山羊的同步八视图RGBD视频。我们使用多视图DynamicFusion将嘈杂、非刚性的点云序列融合成高保真的3D扫描,克服了不规则表面和快速运动带来的挑战。基于这些扫描,我们开发了专门为雌性萨能山羊设计的参数化3D形状模型SaanenGoat。该模型具有一个包含41个骨骼关节的精细模板,并增强了乳房表示,与我们的扫描数据进行了配准。由48只山羊构建的综合形状空间能够精确表示各种个体差异。借助SaanenGoat模型,我们可以从单视图RGBD输入中实现高精度的3D重建,并实现对六个关键身体尺寸的自动测量:体长、体高、胸宽、胸围、臀宽和臀高。实验结果表明,我们的方法在3D重建和身体测量方面具有卓越的准确性,为精准畜牧养殖中的大规模3D视觉应用提供了一种新范式。
[8] BigMaQ: A Big Macaque Motion and Animation Dataset Bridging Image and 3D Pose RepresentationsBigMaQ:一个连接图像和3D姿态表示的大型猕猴运动与动画数据集
摘要:动物动态和社交行为的识别对于推动动物行为学、生态学、医学和神经科学的发展至关重要。深度学习的最新进展使得从视频中实现自动化行为识别成为可能,但三维(3D)姿态和形状的精确重建尚未融入这一过程。特别是对于非人类灵长类动物,基于网格的跟踪工作落后于其他物种,使得姿态描述仅限于稀疏的关键点,无法完全捕捉动作动态的丰富性。为了弥补这一差距,我们引入了大猕猴3D运动与动画数据集(BigMaQ),这是一个大规模数据集,包含超过750个相互交互的恒河猴场景,并配有详细的3D姿态描述。我们扩展了先前基于表面的动物跟踪方法,通过将高质量的猕猴模板网格适配到每只个体猴子,构建了特定个体的纹理化化身。这使得我们能够提供比先前最先进的基于表面的动物跟踪方法更精确的姿态描述。从原始数据集中,我们衍生出BigMaQ500,这是一个动作识别基准,它将基于表面的姿态向量与多只个体猴子的单帧图像相关联。通过将从已有的图像和视频编码器中提取的特征与我们的姿态描述符(有或没有)进行配对,我们证明了在包含姿态信息时,平均精度均值(mAP)有显著提升。通过这些贡献,BigMaQ建立了第一个将动态3D姿态 - 形状表示融入动物动作识别学习任务的数据集,并为推进非人类灵长类动物的视觉外观、姿势和社交互动研究提供了丰富的资源。代码和数据可在https://martinivis.github.io/BigMaQ/ 上公开获取。
[9] Open-vocabulary 3D scene perception in industrial environments工业环境中的开放词汇3D场景感知
摘要:生产、厂内物流或制造环境中的自主视觉应用需要具备超越一小部分固定类别的感知能力。最近的开放词汇方法利用2D视觉语言基础模型(VLFMs)来解决这一任务,但这些方法通常依赖于在非工业数据集(如家庭场景)上预训练的无类别分割模型。在这项工作中,我们首先证明了此类模型无法泛化,在常见工业对象上表现不佳。因此,我们提出了一种无需训练的开放词汇3D感知管道,克服了这一局限性。我们的方法不是使用预训练模型来生成实例提议,而是根据预计算的超点的语义特征将它们合并以生成掩码。随后,我们在一个具有代表性的3D工业车间场景上评估了经过领域适配的VLFM “IndustrialCLIP” 以进行开放词汇查询。我们的定性结果展示了对工业对象的成功分割。
[10] One2Scene: Geometric Consistent Explorable 3D Scene Generation from a Single ImageOne2Scene:从单张图像生成几何一致的可探索3D场景
摘要:从单张图像生成可探索的3D场景是3D视觉领域极具挑战性的问题。现有方法难以支持自由探索,当视角远离原始视角时,往往会产生严重的几何畸变和噪声伪影。我们提出了One2Scene,这是一个有效的框架,它将这个不适定问题分解为三个易于处理的子任务,以实现沉浸式可探索场景的生成。我们首先使用全景图生成器从单张输入图像生成锚点视图作为初始化。然后,通过一个可泛化的前馈高斯模糊网络(Gaussian Splatting network)将这些2D锚点提升为显式的3D几何支架。我们没有将全景图作为单张图像进行重建,而是将其投影到多个稀疏锚点视图中,并将重建任务重新表述为多视图立体匹配,这使我们能够利用从大规模多视图数据集中学习到的强大几何先验。使用双向特征融合模块来确保跨视图一致性,从而得到一个高效且几何可靠的支架。最后,该支架作为一个强大的先验,用于一个新颖视图生成器,以在任意相机位置生成逼真且几何准确的视图。通过明确地基于3D一致的支架进行重建,One2Scene在大相机运动下能够稳定工作,支持沉浸式场景探索。大量实验表明,One2Scene在全景深度估计、前馈360°重建和可探索3D场景生成方面显著优于现有最先进的方法。代码和模型将被发布。
[11] Training Deep Stereo Matching Networks on Tree Branch Imagery: A Benchmark Study for Real-Time UAV Forestry Applications基于树枝图像训练深度立体匹配网络:实时无人机林业应用的基准研究
摘要:基于自主无人机的树木修剪需要通过立体相机进行准确、实时的深度估计。深度是使用公式 $Z = f B/d$ 从视差图计算得出的,因此即使是很小的视差误差,在工作距离下也会导致明显的深度错误。基于我们早期的研究(该研究确定DEFOM-Stereo是植被场景中最佳的参考视差生成器),我们首次开展了在真实树枝图像上训练和测试十种深度立体匹配网络的研究。我们使用了坎特伯雷树枝数据集(Canterbury Tree Branches dataset),该数据集包含来自ZED Mini相机的5313对1080P和720P立体图像对,并以DEFOM生成的视差图作为训练目标。这十种方法涵盖了逐步细化、3D卷积、边缘感知注意力和轻量级设计。使用感知指标(SSIM、LPIPS、ViTScore)和结构指标(SIFT/ORB特征匹配),我们发现BANet - 3D产生的整体质量最佳(SSIM = 0.883,LPIPS = 0.157),而RAFT - Stereo在场景级理解方面得分最高(ViTScore = 0.799)。在安装在我们无人机上的NVIDIA Jetson Orin Super(16 GB,独立供电)上进行测试表明,AnyNet在1080P分辨率下达到6.99 FPS,是唯一接近实时的选项,而BANet - 2D在1.21 FPS时实现了最佳的质量 - 速度平衡。我们还比较了720P和1080P的处理时间,以指导林业无人机系统的分辨率选择。
[12] RAP: Fast Feedforward Rendering-Free Attribute-Guided Primitive Importance Score Prediction for Efficient 3D Gaussian Splatting ProcessingRAP: 用于高效3D高斯 splatting 处理的快速前馈无渲染属性引导的基元重要性分数预测
摘要:3D高斯 splatting (3DGS) 已成为高质量3D场景重建的领先技术。然而,迭代细化和致密化过程会生成大量基元,每个基元对重建的贡献程度有很大差异。因此,估计基元的重要性至关重要,这既有助于在重建过程中去除冗余,也能实现高效的压缩和传输。现有方法通常依赖基于渲染的分析,即通过每个基元在多个相机视角下的贡献来评估。然而,这些方法对视角的数量和选择很敏感,依赖专门的可微光栅化器,并且计算时间会随视角数量线性增长,这使得它们难以作为即插即用的模块集成,限制了可扩展性和泛化性。为解决这些问题,我们提出了 RAP,这是一种用于3DGS中高效重要性分数预测的快速前馈无渲染属性引导方法。RAP 直接从高斯的固有属性和局部邻域统计信息推断基元的重要性,避免了基于渲染或依赖可见性的计算。一个紧凑的多层感知器 (MLP) 使用渲染损失、剪枝感知损失和重要性分布正则化来预测每个基元的重要性分数。在少量场景上进行训练后,RAP 能有效地泛化到未见数据,并且可以无缝集成到重建、压缩和传输管道中。我们的代码可在 https://github.com/yyyykf/RAP 上公开获取。
[13] VGGT-MPR: VGGT-Enhanced Multimodal Place Recognition in Autonomous Driving EnvironmentsVGGT-MPR:自动驾驶环境中基于VGGT增强的多模态场景识别
摘要:在自动驾驶中,可靠的场景识别对于全局定位和闭环检测至关重要。虽然多模态场景识别(MPR)中相机和激光雷达数据的跨模态融合在克服单模态方法的局限性方面显示出了潜力,但现有的MPR方法主要依赖手工设计的融合策略和参数众多的骨干网络,需要进行代价高昂的重新训练。为了解决这一问题,我们提出了VGGT-MPR,这是一个多模态场景识别框架,它采用视觉几何基础Transformer(VGGT)作为统一的几何引擎,用于全局检索和重排序。在全局检索阶段,VGGT通过先验深度感知和点云地图监督提取富含几何信息的视觉嵌入,并利用预测的深度图对稀疏的激光雷达点云进行致密化处理,以提高结构表示能力。这增强了融合后的多模态特征的判别能力,并生成用于快速检索的全局描述符。除了全局检索,我们还设计了一种无需训练的重排序机制,该机制利用了VGGT的跨视图关键点跟踪能力。通过将掩码引导的关键点提取与置信度感知的对应评分相结合,我们提出的重排序机制无需额外的参数优化即可有效细化检索结果。在大规模自动驾驶基准数据集和我们自行采集的数据上进行的大量实验表明,VGGT-MPR达到了当前最优性能,对严重的环境变化、视角变化和遮挡具有很强的鲁棒性。我们的代码和数据将公开提供。
[14] Generative 6D Pose Estimation via Conditional Flow Matching通过条件流匹配进行生成式6D姿态估计
摘要:现有的实例级6D姿态估计方法通常依赖于神经网络,这些网络要么直接在SE(3)中回归姿态,要么通过局部特征匹配间接估计姿态。前者在处理物体对称性方面存在困难,而后者在缺乏独特局部特征的情况下会失效。为克服这些局限性,我们提出了一种将6D姿态估计作为R³中的条件流匹配问题的新公式。我们引入了Flose,这是一种生成式方法,通过基于局部特征的去噪过程来推断物体姿态。虽然之前基于条件流匹配的方法仅基于几何引导进行去噪,但Flose集成了基于外观的语义特征,以减轻物体对称性造成的歧义。我们进一步结合基于RANSAC的配准来处理离群点。我们在BOP基准的五个数据集上验证了Flose。Flose以平均4.5的平均召回率提升优于先前的方法。项目网站:https://tev-fbk.github.io/Flose/
[15] BayesFusion-SDF: Probabilistic Signed Distance Fusion with View Planning on CPUBayesFusion-SDF:基于CPU的概率符号距离融合与视图规划
摘要:从深度观测进行密集3D重建是机器人技术、增强现实和数字检测的关键部分。传统的体素融合技术,包括截断符号距离函数(TSDF),能够实现高效且确定性的几何重建;然而,它们依赖于启发式加权,并且无法以系统的方式透明地传达不确定性。另一方面,最近的神经隐式方法虽然能获得非常高的保真度,但通常需要大量的GPU算力进行优化,并且对于后续决策来说不太容易理解。本文提出了BayesFusion-SDF,这是一个以CPU为中心的概率符号距离融合框架,该框架将几何概念化为一个稀疏高斯随机场,在体素距离上具有定义好的后验分布。首先,使用粗略的TSDF重建来创建一个自适应窄带域。然后,使用异方差贝叶斯公式结合深度观测,该公式通过稀疏线性代数和预条件共轭梯度法求解。随机对角估计器是一种快速获取后验不确定性估计的方法。这使得能够在考虑不确定性的情况下提取表面并规划下一个最佳视图。在受控消融场景和CO3D对象序列上的测试表明,新方法在几何上比TSDF基线更准确,并为主动感知提供了有用的不确定性估计。所提出的公式为依赖GPU的神经重建方法提供了一种清晰且易于使用的替代方案,同时仍能以概率方式理解并可预测地行动。GitHub:https://mazumdarsoumya.github.io/BayesFusionSDF
[16] TeHOR: Text-Guided 3D Human and Object Reconstruction with TexturesTeHOR:基于纹理的文本引导3D人体与物体重建
摘要:从单张图像中联合重建3D人体和物体是一个活跃的研究领域,在机器人技术和数字内容创作中有着关键应用。尽管近期取得了进展,但现有方法存在两个基本局限性。首先,它们的重建严重依赖物理接触信息,本质上无法捕捉非接触式的人体 - 物体交互,例如凝视或指向物体。其次,重建过程主要由局部几何接近度驱动,忽略了人体和物体外观所提供的对于理解整体交互至关重要的全局上下文。为解决这些问题,我们引入了TeHOR,这是一个基于两个核心设计构建的框架。首先,除了接触信息之外,我们的框架利用人体 - 物体交互的文本描述来强制3D重建与其文本线索之间的语义对齐,从而能够对更广泛的交互进行推理,包括非接触情况。其次,我们将3D人体和物体的外观线索纳入对齐过程,以捕捉整体上下文信息,从而确保视觉上合理的重建。因此,我们的框架能够产生准确且语义连贯的重建结果,达到了当前的最优性能。
[17] DICArt: Advancing Category-level Articulated Object Pose Estimation in Discrete State-SpacesDICArt:推进离散状态空间中的类别级可铰接物体姿态估计
摘要:可铰接物体姿态估计是具身人工智能中的一项核心任务。现有方法通常在连续空间中回归姿态,但往往难以应对以下两个问题:1) 探索庞大复杂的搜索空间;2) 未能纳入内在运动学约束。在这项工作中,我们引入了DICArt(用于铰接姿态估计的离散扩散模型),这是一个将姿态估计表述为条件离散扩散过程的新颖框架。DICArt并非在连续域中操作,而是通过学习到的反向扩散过程逐步对有噪声的姿态表示进行去噪,以恢复真实姿态。为了提高建模精度,我们提出了一种灵活的流决策器,它能动态确定每个令牌是应该去噪还是重置,从而在扩散过程中有效平衡真实分布和噪声分布。此外,我们还采用了一种分层运动学耦合策略,按层次估计每个刚体部件的姿态,以遵循物体的运动学结构。我们在合成数据集和真实世界数据集上对DICArt进行了验证。实验结果证明了其卓越的性能和鲁棒性。通过将离散生成建模与结构先验相结合,DICArt为复杂环境中可靠的类别级6D姿态估计提供了一种新范式。
[18] Vinedresser3D: Agentic Text-guided 3D EditingVinedresser3D:基于智能体的文本引导3D编辑
摘要:文本引导的3D编辑旨在使用自然语言指令修改现有的3D资产。当前方法难以同时理解复杂提示、在3D中自动定位编辑位置以及保留未编辑内容。我们引入了Vinedresser3D,这是一个直接在原生3D生成模型的潜在空间中运行的高质量文本引导3D编辑的智能体框架。给定一个3D资产和一个编辑提示,Vinedresser3D使用多模态大语言模型(multimodal large language model)推断原始资产的丰富描述,识别编辑区域和编辑类型(添加、修改、删除),并生成分解后的结构和外观级文本引导。然后,智能体选择一个信息丰富的视图,并应用图像编辑模型以获得视觉引导。最后,一个基于反演的整流流修复管道(inversion-based rectified-flow inpainting pipeline)与交错采样模块在3D潜在空间中执行编辑,在保持3D连贯性和未编辑区域的同时实现提示对齐。在各种3D编辑上的实验表明,Vinedresser3D在自动指标和人类偏好研究中均优于先前的基线,同时实现了精确、连贯且无需掩码的3D编辑。
[19] Fore-Mamba3D: Mamba-based Foreground-Enhanced Encoding for 3D Object DetectionFore-Mamba3D:用于3D目标检测的基于Mamba的前景增强编码
摘要:像Mamba这样的线性建模方法已被融合作为3D目标检测任务的有效骨干网络。然而,之前基于Mamba的方法对整个非空体素序列进行双向编码,而场景中包含大量无用的背景信息。虽然直接编码前景体素似乎是一个可行的解决方案,但这往往会降低检测性能。我们将此归因于仅前景序列线性建模中的响应衰减和受限的上下文表示。为了解决这个问题,我们提出了一种新颖的骨干网络,称为Fore-Mamba3D,通过修改基于Mamba的编码器来专注于前景增强。首先根据预测分数对前景体素进行采样。考虑到不同实例的前景体素相互作用中存在的响应衰减,我们设计了一个区域到全局滑动窗口(RGSW),将信息从区域分割传播到整个序列。此外,提出了一种语义辅助和状态空间融合模块(SASFMamba),通过增强Mamba模型内的语义和几何感知来丰富上下文表示。我们的方法强调仅前景编码,并缓解了线性自回归模型中基于距离和因果的依赖关系。在各种基准测试中的卓越性能证明了Fore-Mamba3D在3D目标检测任务中的有效性。
[20] Physics-informed Active Polarimetric 3D Imaging for Specular Surfaces用于镜面表面的物理信息驱动主动偏振3D成像
摘要:在现实场景中,如在线检测或手持扫描,镜面表面的3D成像仍然具有挑战性,需要快速准确地测量复杂几何形状。像偏折术这样的光学计量技术能实现高精度,但通常依赖多帧采集,使其不适用于动态环境。基于傅里叶的单帧方法缓解了这一限制,然而在测量具有高空间频率结构或大曲率的表面时,其性能会下降。另外,计算机视觉中的偏振3D成像以单帧方式运行,并且对几何复杂性表现出鲁棒性。然而,其准确性从根本上受到正交成像假设的限制。在本文中,我们提出了一个用于复杂镜面表面单帧3D成像的物理信息驱动深度学习框架。偏振线索提供方向先验,有助于解释由结构光照明编码的几何信息。这些互补线索通过具有相互特征调制的双编码器架构进行处理,使网络能够解决它们的非线性耦合问题并直接推断表面法线。所提出的方法能够在单帧中实现准确且鲁棒的法线估计,推理速度快,从而实现复杂镜面表面的实用3D成像。
[21] UP-Fuse: Uncertainty-guided LiDAR-Camera Fusion for 3D Panoptic SegmentationUP-Fuse:用于3D全景分割的不确定性引导的LiDAR-相机融合方法
摘要:LiDAR-相机融合通过利用相机图像来补充稀疏的LiDAR扫描,从而增强了3D全景分割效果,但它也引入了一个关键的故障模式。在不利条件下,相机传感器的性能下降或故障会显著损害感知系统的可靠性。为解决这一问题,我们提出了UP-Fuse,这是一种在2D距离视图下的新型不确定性感知融合框架,它在相机传感器性能下降、校准漂移和传感器故障的情况下仍能保持鲁棒性。原始LiDAR数据首先被投影到距离视图中,并由LiDAR编码器进行编码,同时提取相机特征并将其投影到相同的共享空间。UP-Fuse的核心是采用了一个不确定性引导的融合模块,该模块使用预测的不确定性图来动态调节跨模态交互。这些不确定性图是通过量化不同视觉退化情况下的表征差异来学习得到的,以确保只有可靠的视觉线索影响融合后的表征。融合后的距离视图特征由一个新颖的混合2D - 3D变压器进行解码,该变压器可缓解2D投影中固有的空间歧义,并直接预测3D全景分割掩码。在Panoptic nuScenes、SemanticKITTI和我们引入的Panoptic Waymo基准上进行的大量实验证明了UP-Fuse的有效性和鲁棒性,即使在严重的视觉损坏或不对准情况下,它也能保持良好的性能,使其非常适合安全关键环境中的机器人感知。
[22] DefenseSplat: Enhancing the Robustness of 3D Gaussian Splatting via Frequency-Aware FilteringDefenseSplat:通过频率感知滤波增强3D高斯 splatting 的鲁棒性
摘要:3D高斯 splatting(3DGS)已成为一种强大的范式,可用于从带姿态的图像中进行实时、高保真的3D重建。然而,最近的研究表明,它在输入视图中容易受到对抗性干扰,其中难以察觉但一致的扰动会大幅降低渲染质量、增加训练和渲染时间并膨胀内存使用,甚至导致服务器拒绝服务。在我们的工作中,为了缓解这一问题,我们首先使用小波变换分析输入图像的低频和高频分量中对抗性扰动的不同行为。基于这一观察,我们设计了一种简单而有效的频率感知防御策略,通过过滤高频噪声同时保留低频内容来重建训练视图。这种方法在保持原始场景真实性的同时,有效抑制了对抗性伪影。值得注意的是,它不会显著影响在干净数据上的训练,在鲁棒性和干净输入上的性能之间实现了理想的权衡。通过在多个基准上的广泛攻击强度实验,我们证明了我们的方法在无需访问干净真实监督的情况下,显著增强了3DGS的鲁棒性。通过突出并解决3D高斯 splatting 被忽视的脆弱性,我们的工作为更鲁棒和安全的3D重建铺平了道路。
[23] GS-CLIP: Zero-shot 3D Anomaly Detection by Geometry-Aware Prompt and Synergistic View Representation LearningGS-CLIP:基于几何感知提示和协同视图表示学习的零样本3D异常检测
摘要:零样本3D异常检测是一项新兴任务,旨在无需任何目标训练数据的情况下检测目标数据集中的异常,这在受样本稀缺和数据隐私问题限制的场景中尤为重要。虽然当前方法通过将3D点云投影到2D表示来适配CLIP,但它们面临挑战。这种投影本质上会丢失一些几何细节,并且依赖单一的2D模态提供的视觉理解不完整,限制了它们检测各种异常类型的能力。为解决这些局限性,我们提出了几何感知提示和协同视图表示学习(GS-CLIP)框架,该框架使模型能够通过两阶段学习过程识别几何异常。在阶段1,我们动态生成嵌入3D几何先验的文本提示。这些提示包含由我们的几何缺陷蒸馏模块(GDDM)提炼的全局形状上下文和局部缺陷信息。在阶段2,我们引入协同视图表示学习架构,该架构并行处理渲染图像和深度图像。随后,协同精炼模块(SRM)融合两个流的特征,利用它们的互补优势。在四个大规模公共数据集上的综合实验结果表明,GS-CLIP在检测方面取得了卓越的性能。代码可在https://github.com/zhushengxinyue/GS-CLIP获取。
[24] VLM-Guided Group Preference Alignment for Diffusion-based Human Mesh Recovery基于扩散的人体网格恢复的视觉语言模型引导的群体偏好对齐
摘要:从单张RGB图像进行人体网格恢复(HMR)本质上具有歧义性,因为多个3D姿态可能对应于同一2D观测结果。最近基于扩散的方法通过生成各种假设来解决这个问题,但往往牺牲了准确性。它们产生的预测要么在物理上不可行,要么偏离输入图像,特别是在遮挡或杂乱的自然场景中。为了解决这个问题,我们引入了一个具有自我反思能力的双记忆增强HMR评判代理,为预测的网格生成上下文感知的质量分数。这些分数提炼了关于3D人体运动结构、物理可行性以及与输入图像对齐的细粒度线索。我们使用这些分数构建了一个群体级HMR偏好数据集。利用这个数据集,我们提出了一个群体偏好对齐框架,用于微调基于扩散的HMR模型。这一过程将丰富的偏好信号注入模型,引导其生成更符合物理规律且与图像一致的人体网格。大量实验表明,我们的方法与现有最先进的方法相比取得了更优的性能。
[25] Universal 3D Shape Matching via Coarse-to-Fine Language Guidance通过粗到细的语言引导实现通用3D形状匹配
摘要:在计算机视觉和图形学中,建立形状之间的密集对应关系是一项至关重要的任务。然而,先前的方法依赖于近似等距假设和同类主题类型(即仅适用于人体形状)。然而,为跨类别对象建立语义对应关系仍然具有挑战性,并且相对较少受到关注。为了实现这一目标,我们提出了UniMatch,这是一个语义感知的、粗到细的框架,用于在不限制对象类别的情况下,在强非等距形状之间构建密集的语义对应关系。关键的见解是将“粗”语义线索提升为“细”对应关系,这通过两个阶段实现。在“粗”阶段,我们执行与类别无关的3D分割,以获得不重叠的语义部分,并提示多模态大语言模型(MLLMs)识别部分名称。然后,我们使用预训练的视觉语言模型(VLMs)提取文本嵌入,从而能够构建匹配的语义部分。在“细”阶段,我们利用这些粗对应关系,通过专门的基于排名的对比方案来引导密集对应关系的学习。由于采用了与类别无关的分割、语言引导和基于排名的对比学习,我们的方法适用于通用对象类别,并且不需要预定义的部分提案,从而能够实现跨类别和非等距形状的通用匹配。大量实验表明,UniMatch在各种具有挑战性的场景中始终优于其他竞争方法。
[26] Ani3DHuman: Photorealistic 3D Human Animation with Self-guided Stochastic SamplingAni3DHuman:基于自引导随机采样的逼真3D人体动画
摘要:当前的3D人体动画方法难以实现逼真效果:基于运动学的方法缺乏非刚性动力学(如服装动力学),而利用视频扩散先验的方法虽然可以合成非刚性运动,但存在质量瑕疵和身份丢失的问题。为克服这些局限性,我们提出了Ani3DHuman框架,该框架将基于运动学的动画与视频扩散先验相结合。我们首先引入了一种分层运动表示,将刚性运动与残余非刚性运动分离。刚性运动由运动学方法生成,然后生成粗渲染结果,以引导视频扩散模型生成恢复残余非刚性运动的视频序列。然而,基于扩散采样的这种恢复任务极具挑战性,因为初始渲染结果属于分布外数据,导致标准的确定性ODE采样器失效。因此,我们提出了一种新颖的自引导随机采样方法,该方法通过将随机采样(用于实现逼真质量)与自引导(用于保证身份保真度)相结合,有效解决了分布外问题。这些恢复后的视频提供了高质量的监督信息,从而能够对残余非刚性运动场进行优化。大量实验表明,Ani3DHuman能够生成逼真的3D人体动画,优于现有方法。代码可在https://github.com/qiisun/ani3dhuman获取。
[27] L3DR: 3D-aware LiDAR Diffusion and RectificationL3DR:3D感知的激光雷达扩散与校正
摘要:基于距离视图(Range-view,RV)的激光雷达扩散技术最近在2D照片级真实感方面取得了巨大进展。然而,它忽略了3D几何的真实感,并且常常会产生各种RV伪影,如深度渗色和波浪状表面。我们设计了L3DR,这是一个3D感知的激光雷达扩散与校正框架,它可以在3D空间中回归并消除RV伪影,准确恢复局部几何结构。我们的理论和实证分析表明,3D模型在生成清晰、真实的边界方面本质上优于2D模型。基于这样的分析,我们设计了一个3D残差回归网络,通过预测3D空间中的点级偏移来校正RV伪影,并实现卓越的几何真实感。此外,我们设计了一种韦尔什损失(Welsch Loss),它有助于聚焦局部几何结构,并有效忽略异常区域。在包括KITTI、KITTI360、nuScenes和Waymo在内的多个基准数据集上进行的大量实验表明,所提出的L3DR在生成效果和几何真实感方面始终达到了最先进水平。此外,L3DR通常适用于不同的激光雷达扩散模型,且计算开销很小。
[28] Direction-aware 3D Large Multimodal Models方向感知的3D大多模态模型
摘要:3D大多模态模型(3D LMMs)严重依赖自我姿态(ego poses)来实现定向问答和空间推理。然而,大多数现有的点云基准测试包含丰富的定向查询,但缺乏相应的自我姿态,这使得它们在3D大多模态建模中本质上是不适定的。在这项工作中,我们重新定义了一个新的严格范式,通过识别自我姿态并将其补充到点云基准测试中,并根据识别出的自我姿态转换相应的点云数据,从而实现方向感知的3D LMMs。我们通过两种新颖的设计实现了方向感知的3D LMMs。第一种是PoseRecover,这是一个全自动的姿态恢复管道,它通过对象 - 视锥体相交和使用Z缓冲器进行可见性检查,将问题与RGB - D视频外参中的自我姿态相匹配。第二种是PoseAlign,它将点云数据进行转换以与识别出的自我姿态对齐,而不是将自我姿态注入文本提示或在投影层中引入姿态编码特征。大量实验表明,我们的设计在多个3D LMM骨干网络(如LL3DA、LL3DA - SONATA、Chat - Scene和3D - LLAVA)上都产生了一致的改进,将ScanRefer的平均交并比(mIoU)提高了30.0%,将Scan2Cap的大语言模型评判准确率提高了11.7%。此外,我们的方法简单、通用且训练效率高,只需要进行指令微调,同时为方向感知的3D - LMMs建立了一个强大的基线。
[29] TeFlow: Enabling Multi-frame Supervision for Self-Supervised Feed-forward Scene Flow EstimationTeFlow:为自监督前馈场景流估计启用多帧监督
摘要:用于场景流估计的自监督前馈方法具有实时效率,但它们基于两帧点对应关系的监督不可靠,并且在遮挡情况下往往会失效。多帧监督有可能通过整合过去帧的运动线索来提供更稳定的指导,然而,简单地扩展两帧目标是无效的,因为点对应关系在各帧之间会突然变化,产生不一致的信号。在本文中,我们提出了TeFlow,通过挖掘时间上一致的监督来为前馈模型启用多帧监督。TeFlow引入了一种时间集成策略,通过从跨多帧构建的候选池中聚合时间上最一致的运动线索来形成可靠的监督信号。大量评估表明,TeFlow为自监督前馈方法树立了新的技术水平,在具有挑战性的Argoverse 2和nuScenes数据集上实现了高达33%的性能提升。我们的方法与领先的基于优化的方法表现相当,但速度提高了150倍。代码与训练好的模型权重一起在https://github.com/KTH-RPL/OpenSceneFlow上开源。
[30] OpenVO: Open-World Visual Odometry with Temporal Dynamics AwarenessOpenVO:具有时间动态感知的开放世界视觉里程计
摘要:我们提出了OpenVO,这是一个在有限输入条件下具有时间感知的开放世界视觉里程计(VO)的新颖框架。OpenVO能够从具有不同观测速率和未校准相机的单目行车记录仪视频中有效地估计真实世界尺度的自我运动,从而能够从行车记录仪记录的罕见驾驶事件中构建稳健的轨迹数据集。现有的VO方法是在固定的观测频率(例如10Hz或12Hz)上进行训练的,完全忽略了时间动态信息。许多先前的方法还需要具有已知内参的校准相机。因此,当(1)在未见过的观测频率下部署时,或者(2)应用于未校准的相机时,它们的性能会下降。这些显著限制了它们在许多下游任务中的通用性,例如从行车记录仪视频中提取轨迹。为了解决这些挑战,OpenVO(1)在两帧位姿回归框架中显式地编码时间动态信息,并且(2)利用从基础模型中导出的3D几何先验。我们在三个主要的自动驾驶基准测试——KITTI、nuScenes和Argoverse 2上验证了我们的方法,比最先进的方法实现了超过20%的性能提升。在不同的观测速率设置下,我们的方法显著更稳健,在所有指标上的误差降低了46% - 92%。这些结果证明了OpenVO在现实世界3D重建和各种下游应用中的通用性。
[31] Marginalized Bundle Adjustment: Multi-View Camera Pose from Monocular Depth Estimates边缘化束调整:基于单目深度估计的多视图相机位姿
摘要:运动恢复结构(Structure-from-Motion, SfM)是一项基础的3D视觉任务,用于从多视图图像中恢复相机参数和场景几何信息。尽管近期深度学习的进展使得无需依赖相机运动就能从单张图像中进行准确的单目深度估计(Monocular Depth Estimation, MDE),但将MDE集成到SfM中仍然是一个挑战。与传统的三角测量稀疏点云不同,MDE生成的密集深度图具有显著更高的误差方差。受现代随机抽样一致性(RANSAC)估计器的启发,我们提出了边缘化束调整(Marginalized Bundle Adjustment, MBA)方法,以利用其密度来降低MDE的误差方差。通过MBA,我们证明了MDE深度图足够准确,能够在SfM和相机重定位任务中取得最先进(SoTA)或具有竞争力的结果。通过广泛的评估,我们展示了该方法在不同规模下的一致鲁棒性能,从少帧设置到包含数千张图像的大型多视图系统。我们的方法凸显了MDE在多视图3D视觉中的巨大潜力。
[32] PhysConvex: Physics-Informed 3D Dynamic Convex Radiance Fields for Reconstruction and SimulationPhysConvex:用于重建和模拟的物理感知3D动态凸辐射场
摘要:以视觉真实感和物理一致性对动态3D场景进行重建和模拟仍然是一个根本性的挑战。现有的神经表示方法,如NeRF和3DGS,在外观重建方面表现出色,但在捕捉复杂的材料变形和动力学方面存在困难。我们提出了PhysConvex,一种物理感知的3D动态凸辐射场,它将视觉渲染和物理模拟统一起来。PhysConvex使用由连续介质力学支配的基于物理的凸基元来表示可变形辐射场。我们引入了一种边界驱动的动态凸表示,通过顶点和表面动力学对变形进行建模,捕捉空间自适应、非均匀变形和不断演变的边界。为了有效地模拟复杂的几何形状和异质材料,我们进一步开发了一种降阶凸模拟方法,该方法使用神经蒙皮特征模式作为形状和材料感知的变形基,在牛顿动力学下以随时间变化的降阶自由度对动态凸场进行平流。凸动力学还提供了紧凑、无间隙的体积覆盖,提高了几何效率和模拟保真度。实验表明,PhysConvex能够从视频中实现对几何形状、外观和物理属性的高保真重建,优于现有方法。
[33] SceneTok: A Compressed, Diffusable Token Space for 3D ScenesSceneTok:用于3D场景的压缩、可扩散令牌空间
摘要:我们提出了SceneTok,这是一种新颖的分词器,用于将场景的视图集编码为一组压缩且可扩散的非结构化令牌。现有的3D场景表示和生成方法通常使用3D数据结构或视图对齐的场。相比之下,我们引入了第一种将场景信息编码为一组小的、与空间网格解耦的排列不变令牌的方法。场景令牌由多视图分词器根据许多上下文视图进行预测,并通过使用轻量级整流流解码器渲染成新视图。我们表明,与其他表示相比,这种压缩强度高出1 - 3个数量级,同时仍能达到最先进的重建质量。此外,我们的表示可以从新的轨迹(包括偏离输入轨迹的轨迹)进行渲染,并且我们证明解码器能够很好地处理不确定性。最后,高度压缩的非结构化潜在场景令牌集能够在5秒内实现简单高效的场景生成,比以前的范式实现了更好的质量 - 速度权衡。
[34] BiMotion: B-spline Motion for Text-guided Dynamic 3D Character GenerationBiMotion:用于文本引导的动态3D角色生成的B样条运动
摘要:文本引导的动态3D角色生成取得了快速进展,但生成能够忠实反映丰富文本描述的高质量运动仍然具有挑战性。现有方法由于固定长度的时间输入和离散的逐帧表示无法捕捉丰富的运动语义,往往会生成有限的子动作或不连贯的运动。我们通过使用连续可微的B样条曲线来表示运动,在不修改底层生成模型能力的情况下,实现更有效的运动生成,从而解决了这些局限性。具体而言,我们的闭式拉普拉斯正则化B样条求解器能够将可变长度的运动序列高效压缩为具有固定数量控制点的紧凑表示。此外,我们引入了一种法线融合策略以确保输入形状的贴合,并使用对应感知和局部刚性损失来提高运动恢复质量。为了训练我们的模型,我们整理了BIMO,这是一个新的数据集,包含多样化的可变长度3D运动序列以及丰富、高质量的文本注释。大量评估表明,我们的前馈框架BiMotion比现有的最先进方法生成更具表现力、更高质量且更符合提示的运动,同时实现更快的生成速度。我们的项目页面地址为:https://wangmiaowei.github.io/BiMotion.github.io/。
[35] Enhancing 3D LiDAR Segmentation by Shaping Dense and Accurate 2D Semantic Predictions通过塑造密集且准确的二维语义预测来增强三维激光雷达分割
摘要:三维激光雷达点云的语义分割在城市遥感中对于理解现实世界的街道环境至关重要。通过将激光雷达点云和三维语义标签投影为稀疏地图,这项任务可以重新表述为一个二维问题。然而,投影后的激光雷达和标签地图的固有稀疏性可能导致中间二维语义预测稀疏且不准确,进而限制了最终的三维精度。为了解决这个问题,我们通过塑造密集且准确的二维预测来增强这项任务。具体而言,我们开发了一个多模态分割模型MM2D3D。通过利用相机图像作为辅助数据,我们引入了跨模态引导滤波,通过用从相机图像中导出的密集语义关系来约束中间二维语义预测,以克服标签地图的稀疏性;并且我们引入了动态交叉伪监督,通过鼓励二维预测模仿相机图像的语义预测的密集分布,来克服激光雷达地图的稀疏性。实验表明,我们的技术使我们的模型能够实现具有密集分布和更高精度的中间二维语义预测,从而有效地提高了最终的三维精度。与先前方法的比较表明,我们在二维和三维空间中都具有更优越的性能。
[36] LaS-Comp: Zero-shot 3D Completion with Latent-Spatial ConsistencyLaS-Comp:基于潜在空间一致性的零样本3D补全
摘要:本文介绍了LaS-Comp,这是一种零样本且与类别无关的方法,它利用3D基础模型丰富的几何先验知识,实现跨多种类型部分观测的3D形状补全。我们的贡献主要有三点:首先,LaS-Comp通过互补的两阶段设计利用这些强大的生成先验进行补全:(i)显式替换阶段,保留部分观测的几何形状,以确保补全的准确性;(ii)隐式细化阶段,确保观测区域和合成区域之间的边界无缝衔接。其次,我们的框架无需训练,并且与不同的3D基础模型兼容。第三,我们引入了Omni-Comp,这是一个综合基准,结合了真实世界和合成数据,具有多样且具有挑战性的部分模式,能够进行更全面、更真实的评估。定量和定性实验均表明,我们的方法优于先前的最先进方法。我们的代码和数据将在[LaS-Comp](https://github.com/DavidYan2001/LaS-Comp)上公开。
[37] WiCompass: Oracle-driven Data Scaling for mmWave Human Pose EstimationWiCompass:用于毫米波人体姿态估计的神谕驱动数据扩展方法
摘要:毫米波人体姿态估计(mmWave HPE)在保护隐私方面具有优势,但在分布偏移情况下泛化能力较差。我们证明,简单粗暴的数据扩展方法对于分布外(OOD)鲁棒性而言效果不佳;效率和覆盖范围才是真正的瓶颈。为解决这一问题,我们引入了WiCompass,这是一个具有覆盖感知能力的数据收集框架。WiCompass利用大规模的动作捕捉语料库构建了一个通用的姿态空间“神谕”,该神谕可以量化数据集的冗余度并识别出代表性不足的动作。在这个神谕的引导下,WiCompass采用闭环策略来优先收集有信息价值的缺失样本。实验表明,在相同的预算下,WiCompass能够持续提高OOD准确率,并且与传统的收集策略相比,表现出更优的扩展性能。通过将关注点从简单的数据扩展转移到具有覆盖感知能力的数据采集上,这项工作为实现稳健的毫米波传感提供了一条切实可行的途径。
[38] Depth from Defocus via Direct Optimization通过直接优化实现散焦测距
摘要:尽管基于光学物理存在合理的模糊正向模型,但从一组散焦图像中恢复深度仍然是一个计算上具有挑战性的优化问题。在本文中,我们表明,利用当代优化方法和合理的计算资源,散焦测距的全局优化方法是可行的。我们的方法基于交替最小化。当固定深度图时,正向模型相对于全聚焦图像是线性的。当固定全聚焦图像时,每个像素的深度可以独立计算,从而实现高度并行计算。我们表明,在凸优化和并行网格搜索之间交替进行,可以比当前的深度学习方法更有效地解决更高分辨率下的散焦测距问题。我们在具有合成和真实散焦模糊的基准数据集上展示了我们的方法,并与先前的方法相比取得了有前景的结果。我们的代码可在http://github.com/hollyjackson/dfd获取。
[39] Scaling Ultrasound Volumetric Reconstruction via Mobile Augmented Reality通过移动增强现实扩展超声容积重建
摘要:病变的准确容积表征对于肿瘤诊断、风险分层和治疗规划至关重要。虽然计算机断层扫描(Computed Tomography)等成像方式可提供高质量的3D数据,但由于成本、便携性和安全性等因素,二维超声(2D-US)仍然是乳腺和甲状腺成像的首选一线检查方式。然而,即使是经验丰富的临床医生,通过2D-US得出的体积估计也存在较高的用户间差异。现有的三维超声(3D-US)解决方案使用专门的探头或外部跟踪硬件,但这种配置增加了成本并降低了便携性,限制了其在临床上的广泛应用。为解决这些局限性,我们提出了移动增强现实容积超声(Mobile Augmented Reality Volumetric Ultrasound,MARVUS),这是一个资源高效的系统,旨在提高准确且可重复的容积评估的可及性。MARVUS可与传统超声(US)系统互操作,使用基础模型来增强跨专业的泛化能力,同时相对于当前的3D-US解决方案,将硬件要求降至最低。在一项由经验丰富的临床医生对乳腺模型进行测量的用户研究中,MARVUS在体积估计准确性方面有显著提高(平均差异:0.469 cm³),并降低了用户间差异(平均差异:0.417 cm³)。此外,我们证明了增强现实(AR)可视化可提高客观性能指标和临床医生报告的易用性。总体而言,我们的研究结果表明,MARVUS可以以可扩展、经济且资源高效的方式改善基于超声的癌症筛查、诊断流程和治疗规划。使用视频演示可在(https://youtu.be/m4llYcZpqmM)查看。
[40] Simulation-Ready Cluttered Scene Estimation via Physics-aware Joint Shape and Pose Optimization通过物理感知的联合形状和姿态优化实现适用于仿真的杂乱场景估计
摘要:从现实世界的观测中估计适用于仿真的场景对于下游的规划和策略学习任务至关重要。遗憾的是,现有方法在杂乱环境中表现不佳,通常存在计算成本过高、鲁棒性差以及在扩展到多个相互作用对象时通用性受限等问题。我们提出了一种基于统一优化的真实到仿真场景估计公式,该公式在物理约束下联合恢复多个刚体的形状和姿态。我们的方法基于两项关键技术创新。首先,我们利用最近引入的形状可微接触模型,其全局可微性允许在建模对象间接触的同时对对象几何形状和姿态进行联合优化。其次,我们利用增广拉格朗日 Hessian 矩阵的结构稀疏性,推导出一种高效的线性系统求解器,其计算成本随场景复杂度的增加而有良好的扩展性。基于此公式,我们开发了一个端到端的真实到仿真场景估计管道,该管道集成了基于学习的对象初始化、受物理约束的联合形状 - 姿态优化以及可微纹理细化。在包含多达 5 个对象和 22 个凸包的杂乱场景上进行的实验表明,我们的方法能够稳健地重建出符合物理规律、适用于仿真的对象形状和姿态。
[41] Structured Bitmap-to-Mesh Triangulation for Geometry-Aware Discretization of Image-Derived Domains用于图像派生域几何感知离散化的结构化位图到网格三角剖分
摘要:我们提出了一种模板驱动的三角剖分框架,该框架将光栅或分割派生的边界嵌入到规则三角网格中,以便在图像派生域上进行稳定的偏微分方程(PDE)离散化。与可能触发全局连通性更新的约束Delaunay三角剖分(CDT)不同,我们的方法仅对与边界相交的三角形进行重新三角剖分,保留基础网格,并支持无同步的并行执行。为确保确定性和可扩展性,我们根据离散等价性和三角形对称性对所有局部边界相交配置进行分类,得到一个有限的符号查找表,该表将每种情况映射到一个无冲突的重新三角剖分模板。我们证明了所得网格是封闭的,具有有界角度,并且与基于余切的离散化和标准有限元方法兼容。在椭圆和抛物型PDE、信号插值和结构度量方面的实验表明,在复杂边界附近,该方法产生的狭长元素更少,三角形更规则,并且几何保真度更高。该框架非常适合在图像派生域上进行实时几何分析和基于物理的模拟。
[42] Compact Hadamard Latent Codes for Efficient Spectral Rendering用于高效光谱渲染的紧凑哈达玛潜在代码
摘要:光谱渲染能够准确再现与波长相关的外观,但计算成本高昂,因为必须在许多波长样本上进行着色评估,并且计算量大致与样本数量呈线性关系。此外,整个渲染流程都需要光谱纹理和光源。我们提出了哈达玛光谱代码,这是一种紧凑的潜在表示,它允许使用标准的RGB渲染操作进行光谱渲染。光谱图像通过少量的RGB渲染通道进行近似,随后进行解码步骤。我们的关键要求是潜在线性:光谱空间中的缩放和加法对应于代码的缩放和加法,并且光谱的逐元素乘积(例如反射率乘以光照)可以通过它们潜在代码的逐元素乘积来近似。我们表明,当潜在维度k小于光谱样本数量n时,对于任意光谱,不存在精确的低维代数保持表示。因此,我们引入了一种学习到的非负线性编码器和解码器架构,该架构能精确保持缩放和加法,同时鼓励在哈达玛积下实现近似乘法性。当k = 6时,我们使用未修改的RGB渲染器每帧渲染k/3 = 2张RGB图像,重建潜在图像,并解码为高分辨率光谱或XYZ或RGB。对3D场景的实验表明,与RGB基线相比,k = 6显著降低了颜色误差,同时比朴素的n样本光谱渲染快得多。使用k = 9可提供更高质量的参考结果。我们进一步引入了一种轻量级的神经上采样网络,它可以将RGB资产直接映射到潜在代码,从而使传统RGB内容能够集成到光谱流程中,同时在渲染图像中保持感知上准确的颜色。
马上咨询: 如果您有业务方面的问题或者需求,欢迎您咨询!我们带来的不仅仅是技术,还有行业经验积累。
QQ: 39764417/308460098 Phone: 13 9800 1 9844 / 135 6887 9550 联系人:石先生/雷先生