NeRF提出的Magic Loss,即S3IM随机结构相似性损失函数,用于优化模型表现。
本文将介绍我们团队在ICCV2023上发表的论文S3IM: 随机结构相似性及其在神经场中的非凡有效性。该研究提出了一种新的方法,通过随机结构相似性度量,显著提升了神经场的相关性能表现,为领域内技术发展提供了新思路。
S3IM工作的想法其实很简单,从构思到提交ICCV2023仅用时两个月。
总结这项工作的核心:我们设计了一种名为S3IM(随机结构相似性)的即插即用损失函数,能够以极低的成本大幅提升现有NeRF类方法的表现。例如,在多个场景中,该方法可将TensoRF和DVGO等经典模型的Test MSE Loss降低99%,同时改进NeuS的几何重建效果(如Chamfer L1 Distance)超过60%。这一创新为神经辐射场技术带来了显著性能优化,展现了广泛的应用潜力。
先来看几组RGB与几何重建的可视化效果。

此外,还能增强图像对噪声的鲁棒性。所示,S3IM渲染结果有效去除了图像中的灰蒙噪声干扰。

S3IM显著提升了现有NeRF类方法的效果,这是毋庸置疑的。
S3IM的核心是将两个像素集合的相似性用作训练损失。每个集合通常包含数千个像素,共同提供相互关联的全局结构信息。
传统NeRF采用MSE作为训练损失,聚焦于两个独立像素间的点误差。这种损失函数仅反映像素的孤立信息,缺乏远距离和全局关联的考量。
这两段话正是S3IM的驱动力所在。
为什么有结构的信息更优?
这个问题非常出色。
在探讨NeRF性能指标前,先解答一个相关问题:为何其评价标准包含PSNR、SSIM和LPIPS这三个指标?
PSNR是像素间的点对点度量,早已被发现其值高并不代表实际效果好。
2004年,结构相似性(SSIM)在图像评估领域诞生,它更符合人类视觉感知特性。
LPIPS是基于预训练神经网络提取特征,计算特征距离的感知指标,用于评估图像质量。
SSIM和LPIPS都能衡量两组像素的相似性,且比PSNR更贴近人类视觉感知。
了解NeRF的读者明白,传统NeRF训练采用MSE Loss,PSNR与MSE只是简单的对数关系。
MSE和PSNR等逐点指标存在不足。它们与人类视觉感知相关性低,且难以捕捉像素集合的整体信息,仅反映局部特征,无法全面衡量图像质量。
SSIM和LPIPS能否直接用作NeRF的损失函数进行训练?
虽然可行,但仍未达到理想效果。
SSIM和LPIPS作为基于卷积核的相似性度量,仅能获取相近像素的局部特征,难以捕捉远处像素的结构信息。
我们在ICCV的研究中,将经典的图像质量评估指标SSIM(结构相似性)进行了升级,提出了S3IM(随机结构相似性),以实现更精准的评估效果。
这种升级方法很简单,SSIM仅能在图像局部块使用卷积核进行操作。
在训练NeRF时,可将每个minibatch的像素随机组成一个patch(称为随机补丁),接着运用SSIM对这些随机补丁进行处理即可。这样操作简单有效,有助于提升模型性能。
有时,真相就是如此简单明了……
知名的3D几何重建开源框架SDFStudio已将S3IM方法整合其中。
最后展示一个量化的实验结果,表格中Multiplex代表我们的S3IM方法。

S3IM是Machine Learning for Fields系列研究的一部分,我们从机器学习角度探索场的相关问题。
无论是神经辐射场还是其他类似的概念,广义上看都是与坐标相关的物理量。NeRF merely将空间中含有发光气体这一物理先验知识融入到采样过程中。这种表示方法虽非完美,但极其有用,也因此引发了广泛关注和研究热潮。
想了解技术细节的读者,请直接阅读我们的论文和代码。
论文:S3IM:随机结构相似性及其对神经场的非凡有效性
该论文引入了S3IM,一种基于随机结构相似性的方法,探索其在神经场中的显著效果。此方法通过衡量结构间的相似度,为神经场的优化与生成提供了新思路,展现出意想不到的高效性能。
项目代码已开源,位于GitHub平台,有兴趣者可访问以下链接查看详细信息:https://github.com/Madaoer/S3IM-Neural-Fields