NeRF必读:Mip-NeRF总结与公式推导

前言

NeRF从2020年发展至今,仅仅三年时间,而Follow的工作已呈井喷之势,相信在不久的将来,NeRF会一举重塑三维重建这个业界,甚至重建我们的四维世界(开头先吹一波)。NeRF的发展时间虽短,有几篇工作却在我研究的领域开始呈现万精油趋势:
* PixelNeRF—-泛化法宝
* MipNeRF—-近远景重建
* NeRF in the wild—-光线变换下的背景重建
* Neus—-用NeRF重建Surface
* Instant-NGP—-多尺度Hash编码实现高效渲染

图片[1] - NeRF必读:Mip-NeRF总结与公式推导 - MaxSSL

Abstract

由于远景近景的分辨率不同,导致经典NeRF对于多尺度场景的表达存在明显瑕疵:NeRF对于近景的重建比较模糊而对于远景的重建出现锯齿。简单粗暴的策略是supersampling,但是费时费力。相较于NeRF使用的位置编码(PE)方式,Mip-NeRF提出了积分位置编码的方式(IPE).这种编码方式可以多尺度地描述空间中的信息分布,make sense.

NeRF

Positional Encoding:

图片[2] - NeRF必读:Mip-NeRF总结与公式推导 - MaxSSL

MLP:

图片[3] - NeRF必读:Mip-NeRF总结与公式推导 - MaxSSL

Final Predicted Color of the Pixel:

图片[3] - NeRF必读:Mip-NeRF总结与公式推导 - MaxSSL

Loss Function:

图片[3] - NeRF必读:Mip-NeRF总结与公式推导 - MaxSSL

其中图片[3] - NeRF必读:Mip-NeRF总结与公式推导 - MaxSSL是根据coarse modelinferene出的图片[3] - NeRF必读:Mip-NeRF总结与公式推导 - MaxSSL经过inverse transform sampling求解出的。

Mip-NeRF

图片[8] - NeRF必读:Mip-NeRF总结与公式推导 - MaxSSL

NeRF通过point-sampling的方式对每个像素–>所对应的射线进行位置编码,而忽略了每个采样点所包含的Shape, Volume等信息。

这导致了图中所示交汇处的黄点与蓝点会inference出相似的point-sampled feature. Mip-NeRF企图对Shape, Volume进行编码解决NeRF这一困境。

MipNeRF对一段ray所代表的锥台区域的定义如下:

图片[9] - NeRF必读:Mip-NeRF总结与公式推导 - MaxSSL

红框部分图示如下:

图片[10] - NeRF必读:Mip-NeRF总结与公式推导 - MaxSSL

OB即为红框中间部分求解结果,在图片[2] - NeRF必读:Mip-NeRF总结与公式推导 - MaxSSL之间

图片[12] - NeRF必读:Mip-NeRF总结与公式推导 - MaxSSL

图片[2] - NeRF必读:Mip-NeRF总结与公式推导 - MaxSSL分别代表蓝框右式和左式。

期望位置编码为:

图片[14] - NeRF必读:Mip-NeRF总结与公式推导 - MaxSSL

但这个公式没有闭式解,作者转而利用多元高斯求近似值,那就是求解图片[2] - NeRF必读:Mip-NeRF总结与公式推导 - MaxSSL.因为锥台是关于ray对称的,因此期望值应该在ray上,关于期望position,只需要求解ray上的期望distance,令其为图片[3] - NeRF必读:Mip-NeRF总结与公式推导 - MaxSSL. 以及沿ray线的图片[3] - NeRF必读:Mip-NeRF总结与公式推导 - MaxSSL,以及垂直于ray的圆面所对应的图片[3] - NeRF必读:Mip-NeRF总结与公式推导 - MaxSSL.

先给结论,公式推导见公式推导章节:

图片[19] - NeRF必读:Mip-NeRF总结与公式推导 - MaxSSL

将均值与方差从锥台坐标系转换到世界坐标系下:

图片[20] - NeRF必读:Mip-NeRF总结与公式推导 - MaxSSL

进行Positional Encoding, 令:

图片[21] - NeRF必读:Mip-NeRF总结与公式推导 - MaxSSL

and

图片[22] - NeRF必读:Mip-NeRF总结与公式推导 - MaxSSL

根据下式可求解IPE闭式解:

图片[23] - NeRF必读:Mip-NeRF总结与公式推导 - MaxSSL

最后得到的IPE编码为:

图片[24] - NeRF必读:Mip-NeRF总结与公式推导 - MaxSSL

公式推导:

下面来说(图片[2] - NeRF必读:Mip-NeRF总结与公式推导 - MaxSSL,图片[3] - NeRF必读:Mip-NeRF总结与公式推导 - MaxSSL,图片[3] - NeRF必读:Mip-NeRF总结与公式推导 - MaxSSL)分别是怎么求解的

作者在supplement里面给出了推导过程,以下结合推导过程进行一些说明

图片[3] - NeRF必读:Mip-NeRF总结与公式推导 - MaxSSL

此公式中需注意的是,图片[3] - NeRF必读:Mip-NeRF总结与公式推导 - MaxSSL是一个关于原点到成像平面像素中心的距离图片[3] - NeRF必读:Mip-NeRF总结与公式推导 - MaxSSL的比例系数(这句话有点绕,见下图)

图片[31] - NeRF必读:Mip-NeRF总结与公式推导 - MaxSSL

所以说,当图片[2] - NeRF必读:Mip-NeRF总结与公式推导 - MaxSSL时,x和y就在刻画该像素的红色圆圈上。同理,当图片[3] - NeRF必读:Mip-NeRF总结与公式推导 - MaxSSL时,该区域就是描述像素平面上该红色圆圈以内区域。为了求解锥台的三维积分,我们需要求解出描述三维空间的微分,如下所示:

图片[34] - NeRF必读:Mip-NeRF总结与公式推导 - MaxSSL

因此,锥台内的体积

图片[35] - NeRF必读:Mip-NeRF总结与公式推导 - MaxSSL

图片[2] - NeRF必读:Mip-NeRF总结与公式推导 - MaxSSL的期望为:

图片[37] - NeRF必读:Mip-NeRF总结与公式推导 - MaxSSL

图片[2] - NeRF必读:Mip-NeRF总结与公式推导 - MaxSSL的期望为:

图片[39] - NeRF必读:Mip-NeRF总结与公式推导 - MaxSSL

图片[2] - NeRF必读:Mip-NeRF总结与公式推导 - MaxSSL的期望为:

图片[41] - NeRF必读:Mip-NeRF总结与公式推导 - MaxSSL

图片[2] - NeRF必读:Mip-NeRF总结与公式推导 - MaxSSL:

图片[43] - NeRF必读:Mip-NeRF总结与公式推导 - MaxSSL

图片[2] - NeRF必读:Mip-NeRF总结与公式推导 - MaxSSL

图片[45] - NeRF必读:Mip-NeRF总结与公式推导 - MaxSSL

文章中说r的方差可以用x的或者y的来代替,这个是为啥我还需要再研究下,欢迎大佬们留言。

图片[46] - NeRF必读:Mip-NeRF总结与公式推导 - MaxSSL

为了计算的稳定性,令图片[2] - NeRF必读:Mip-NeRF总结与公式推导 - MaxSSL, 将上式经过等式变换后得到:

图片[48] - NeRF必读:Mip-NeRF总结与公式推导 - MaxSSL

参考文献:

Barron, Jonathan T., et al. “Mip-nerf: A multiscale representation for anti-aliasing neural radiance fields.”Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021.

Barron, Jonathan T., et al. “Mip-NeRF: A Multiscale Representation for Anti-Aliasing Neural Radiance Fields Supplemental Material.”

© 版权声明
THE END
喜欢就支持一下吧
点赞0 分享