目录

  • 1 引言
  • 2 什么是正态分布
  • 2 正态分布的叠加性
  • 3 正态分布的标准化
  • 4 参考文献

1 引言

  正态分布又称为高斯分布,它在机器学习和深度学习中非常常用。如正态分布的叠加性和正态分布的标准化等,在VAE模型中重参技巧就用到了正态分布知识,特别是在高维数据中高维的正态分布更是常用。因此,准备梳理一下相应的知识,其中内容多有参考其他博客,一并在参考文献中给出链接。

2 什么是正态分布

  正态分布(Normal distribution),又名高斯分布(Gaussian distribution)。若随机变量 XXX服从一个数学期望(均值)为 μμμ、方差为 σ2 σ^2σ2的正态分布,记为 N ( μ , σ2)N(μ, σ^2)N(μ,σ2)。其概率密度函数为正态分布的期望值 μμμ决定了其位置,其标准差 σσσ决定了分布的幅度。当 μ = 0μ = 0μ=0, σ = 1σ = 1σ=1时的正态分布是标准正态分布。
一维正态分布的概率密度函数为:
f(x)= 12π σ exp⁡ (− ( x − μ )22 σ2 )f(x)=\frac{1}{\sqrt{2 \pi} \sigma} \exp \left(\frac{-(x-\mu)^{2}}{2 \sigma^{2}}\right) f(x)=2π σ1exp(2σ2(xμ)2)
高维正态分布后面再补坑…

2 正态分布的叠加性

  理论:相互独立的正态分布的线性组合仍然服从正态分布。

给定两个独立的正态分布 X1∼ N ( μ 1, σ 1 2) X_{1} \sim N\left(\mu_{1}, \sigma_{1}^{2}\right)X1N(μ1,σ12) X2∼ N ( μ 2, σ 2 2) X_{2} \sim N \left( \mu_{2}, \sigma_{2}^{2}\right)X2N(μ2,σ22),且 aaa bbb均为实数


a X+ b Y∼N ( a μ1+ b μ2, a2σ12+ b2σ22)\mathrm{aX}+\mathrm{bY} \sim {N}\left(\mathrm{a} \mu_1+b \mu_2,\mathrm{a}^{2} \sigma_1^2+b^2\sigma_2^2\right) aX+bYN(aμ1+bμ2,a2σ12+b2σ22)

a X+b∼N ( a μ1+ b , a2σ12)\mathrm{aX}+\mathrm{b} \sim {N}\left(\mathrm{a} \mu_1+b ,\mathrm{a}^{2} \sigma_1^2 \right) aX+bN(aμ1+b,a2σ12)

3 正态分布的标准化

  正态分布是由两个参数 μ\muμμ与 σ\sigmaσ确定的。对于任意一个服从 N ( μ , σ 2 )N ( μ , σ 2 )N(μ,σ2) 分布的随机变量 XXX,经过下面的变换以后都可以转化为 μ = 0\mu=0μ=0 σ = 1\sigma=1σ=1的标准正态分布。转换公式为:
z= X−μσ\mathrm{z}=\frac{\mathrm{X}-\mu}{\sigma} z=σXμ
举个例子:
假设公共汽车门的高度按成年男性碰头机会小于 11%1来设计。又假设成年男性的身高服从正态分布 X ∼ N ( 170 , 62 )X ∼ N ( 170 , 6 2 )XN(170,62),求问车门的高度h hh为多少?

假设身高这一随机变量为 XXX,那么要求的问题为:
P ( x > h ) = 0.01P(x > h)= 0.01P(x>h)=0.01

1 − P ( x ≤ h ) = 0.011 − P ( x ≤ h ) = 0.011P(xh)=0.01

P ( x ≤ h ) = 0.99P ( x ≤ h ) = 0.99P(xh)=0.99

因为 X ∼ N ( 170 , 62 )X ∼ N ( 170 , 6 2 )XN(170,62), 所以 h − 1706∼ N ( 0 , 1 )\frac{h – 170}{6} \sim N(0, 1)6h170N(0,1)

通过查标准正态分布表可知, P ( z ≤ 2.33 ) = 0.99P ( z ≤ 2.33 ) = 0.99P(z2.33)=0.99
因此 h = 170 + 6 ∗ 2.33 = 183.98 c mh = 170 + 6 * 2.33 = 183.98cmh=170+62.33=183.98cm

4 参考文献

[1]均匀分布叠加与正态分布叠加
[2]正态分布,正态分布如何变换为标准正态分布
[3]普通正态分布如何转换到标准正态分布
[4]PRML笔记 第二章 (多维)高斯分布