机器学习的数学基础（下）

矩阵的特征值和特征向量

**1.矩阵的特征值和特征向量的概念及性质 **

(1) 设 $\lambda$ 是 $A$ 的一个特征值，则
$\text{kA},\text{aA} + \text{bE},A^{2},A^{m},f(A),A^{T},A^{- 1},A^{\ast}$ 有一个特征值分别为
$\text{kλ},\text{aλ} + b,\lambda^{2},\lambda^{m},f(\lambda),\lambda,\lambda^{- 1},\frac{|A|}{\lambda},$ 且对应特征向量相同（ $A^{T}$
例外）。

(2)
若 $\lambda_{1},\lambda_{2},\cdots,\lambda_{n}$ 为 $A$ 的 $n$ 个特征值，则 $\sum_{i = 1}^{n}\lambda_{i} = \sum_{i = 1}^{n}a_{\text{ii}},\prod_{i = 1}^{n}\lambda_{i} = |A|$
,从而 $\neq 0 \Leftrightarrow A$ 没有特征值。

(3)
设 $\lambda_{1},\lambda_{2},\cdots,\lambda_{s}$ 为 $A$ 的 $s$ 个特征值，对应特征向量为
$\alpha_{1},\alpha_{2},\cdots,\alpha_{s}$ ，

若:
$\alpha = k_{1}\alpha_{1} + k_{2}\alpha_{2} + \cdots + k_{s}\alpha_{s}$
,

则:
$A^{n}\alpha = k_{1}A^{n}\alpha_{1} + k_{2}A^{n}\alpha_{2} + \cdots + k_{s}A^{n}\alpha_{s} = k_{1}\lambda_{1}^{n}\alpha_{1} + k_{2}\lambda_{2}^{n}\alpha_{2} + \cdots k_{s}\lambda_{s}^{n}\alpha_{s}$
。

**2.相似变换、相似矩阵的概念及性质 **

(1) 若 $\sim B$ ，则

1) $A^{T} \sim B^{T},A^{- 1} \sim B^{- 1},,A^{\ast} \sim B^{\ast}$

$|B|,\sum_{i = 1}^{n}A_{\text{ii}} = \sum_{i = 1}^{n}b_{\text{ii}},r(A) = r(B)$

3) $|\lambda E – A| = |\lambda E – B|$ ，对 $\forall\lambda$ 成立

**3.矩阵可相似对角化的充分必要条件 **

(1)
设 $A$ 为 $n$ 阶方阵，则 $A$ 可对角化 $\Leftrightarrow$ 对每个 $k_{i}$ 重根特征值 $\lambda_{i}$ ，有 $r(\lambda_{i}E – A) = k_{i}$

(2)
设 $A$ 可对角化，则由 $P^{- 1}\text{AP} = \Lambda,$ 有 $\text{PΛ}P^{- 1}$ ，从而 $A^{n} = P\Lambda^{n}P^{- 1}$

(3) 重要结论

1) 若 $\sim B,C \sim D$ ，则 $\begin{bmatrix} & A\quad O \\ & O\quad C \\ \end{bmatrix} \sim \begin{bmatrix} & B\quad O \\ & O\quad D \\ \end{bmatrix}$ .

若 $\sim B$ ，则 $\sim f(B),\left| f(A) \right| \sim \left| f(B) \right|$ ，其中 $f (A)$ 为关于 $n$ 阶方阵 $A$ 的多项式。

3) 若 $A$ 为可对角化矩阵，则其非零特征值的个数(重根重复计算)＝秩( $A$ )

4.实对称矩阵的特征值、特征向量及相似对角阵

(1)相似矩阵：设 $A, B$ 为两个 $n$ 阶方阵，如果存在一个可逆矩阵 $P$ ，使得 $P^{- 1}\text{AP}$ 成立，则称矩阵 $A$ 与 $B$ 相似，记为 $\sim B$ 。

(2)相似矩阵的性质：如果 $\sim B$ 则有：

1) $A^{T} \sim B^{T}$

2) $A^{- 1} \sim B^{- 1}$ （若 $A$ ， $B$ 均可逆）

3) $A^{k} \sim B^{k}$ （ $k$ 为正整数）

$\left| \text{λE} – A \right| = \left| \text{λE} – B \right|$ ，从而 $A, B$
有相同的特征值

5) $\left| A \right| = \left| B \right|$ ，从而 $A, B$ 同时可逆或者不可逆

秩 $\left( A \right) =$ 秩 $\left( B \right),\left| \text{λE} – A \right| = \left| \text{λE} – B \right|$ ， $A, B$ 不一定相似

二次型

1. $\mathbf{n}$ 个变量 $\mathbf{x}_{\mathbf{1}}\mathbf{,}\mathbf{x}_{\mathbf{2}}\mathbf{,\cdots,}\mathbf{x}_{\mathbf{n}}$ 的二次齐次函数

$f(x_{1},x_{2},\cdots,x_{n}) = \sum_{i = 1}^{n}{\sum_{j = 1}^{n}{a_{\text{ij}}x_{i}y_{j}}}$ ，其中 $a_{\text{ij}} = a_{\text{ji}}(i,j = 1,2,\cdots,n)$ ，称为 $n$ 元二次型，简称二次型.
若令 $\ \begin{bmatrix} x_{1} \\ x_{1} \\ \vdots \\ x_{n} \\ \end{bmatrix},A = \begin{bmatrix} & a_{11}\quad a_{12}\quad\cdots\quad a_{1n} \\ & a_{21}\quad a_{22}\quad\cdots\quad a_{2n} \\ & \quad\cdots\cdots\cdots\cdots\cdots \\ & a_{n1}\quad a_{n2}\quad\cdots\quad a_{\text{nn}} \\ \end{bmatrix}$ ,这二次型 $f$ 可改写成矩阵向量形式 $x^{T}\text{Ax}$ 。其中 $A$ 称为二次型矩阵，因为 $a_{\text{ij}} = a_{\text{ji}}(i,j = 1,2,\cdots,n)$ ，所以二次型矩阵均为对称矩阵，且二次型与对称矩阵一一对应，并把矩阵 $A$ 的秩称为二次型的秩。

**2.惯性定理，二次型的标准形和规范形 **

(1) 惯性定理

对于任一二次型，不论选取怎样的合同变换使它化为仅含平方项的标准型，其正负惯性指数与所选变换无关，这就是所谓的惯性定理。

(2) 标准形

二次型 $\left( x_{1},x_{2},\cdots,x_{n} \right) = x^{T}\text{Ax}$ 经过合同变换 $\text{Cy}$ 化为 $x^{T}\text{Ax} = y^{T}C^{T}\text{AC}$

$\sum_{i = 1}^{r}{d_{i}y_{i}^{2}}$ 称为
$\leq n)$ 的标准形。在一般的数域内，二次型的标准形不是唯一的，与所作的合同变换有关，但系数不为零的平方项的个数由 $r (A)$ 唯一确定。

(3) 规范形

任一实二次型 $f$ 都可经过合同变换化为规范形 $z_{1}^{2} + z_{2}^{2} + \cdots + z_{p}^{2} – z_{p + 1}^{2} – \cdots – z_{r}^{2}$ ，其中 $r$ 为 $A$ 的秩， $p$ 为正惯性指数， $r - p$ 为负惯性指数，且规范型唯一。

**3.用正交变换和配方法化二次型为标准形，二次型及其矩阵的正定性 **

设 $A$ 正定 $\Rightarrow \text{kA}(k > 0),A^{T},A^{- 1},A^{\ast}$ 正定； $∣ A ∣ > 0$ , $A$ 可逆； $a_{\text{ii}} > 0$ ，且 $|A_{\text{ii}}| > 0$

$A$ ， $B$ 正定 $\Rightarrow A + B$ 正定，但 $\text{AB}$ ， $\text{BA}$ 不一定正定

$A$ 正定 $\Leftrightarrow f(x) = x^{T}\text{Ax} > 0,\forall x \neq 0$

$\Leftrightarrow A$ 的各阶顺序主子式全大于零

$\Leftrightarrow A$ 的所有特征值大于零

$\Leftrightarrow A$ 的正惯性指数为 $n$

$\Leftrightarrow$ 存在可逆阵 $P$ 使 $A = P^{T}P$

$\Leftrightarrow$ 存在正交矩阵 $Q$ ，使 $Q^{T}\text{AQ} = Q^{- 1}\text{AQ} = \begin{pmatrix} \lambda_{1} & & \\ \begin{matrix} & \\ & \\ \end{matrix} & \ddots & \\ & & \lambda_{n} \\ \end{pmatrix},$

其中 $\lambda_{i} > 0,i = 1,2,\cdots,n.$ 正定 $\Rightarrow \text{kA}(k > 0),A^{T},A^{- 1},A^{\ast}$ 正定；
$∣ A ∣ > 0, A$ 可逆； $a_{\text{ii}} > 0$ ，且 $|A_{\text{ii}}| > 0$ 。

概率论和数理统计

随机事件和概率

1.事件的关系与运算

(1) 子事件： $\subset B$ ，若 $A$ 发生，则 $B$ 发生。

(2) 相等事件： $A = B$ ，即 $\subset B$ ，且 $\subset A$ 。

(3) 和事件： $A\bigcup B$ （或 $A + B$ ）， $A$ 与 $B$ 中至少有一个发生。

(4) 差事件： $A - B$ ， $A$ 发生但 $B$ 不发生。

(5) 积事件： $A\bigcap B$ （或 $\text{AB}$ ）， $A$ 与 $B$ 同时发生。

(6) 互斥事件（互不相容）： $A\bigcap B$ = $\varnothing$ 。

(7) 互逆事件（对立事件）：
$A\bigcap B = \varnothing,A\bigcup B = \Omega,A = \overline{B},B = \overline{A}$
。

2.运算律

(1) 交换律： $A\bigcup B = B\bigcup A,A\bigcap B = B\bigcap A$

(2) 结合律： $(A\bigcup B)\bigcup C = A\bigcup(B\bigcup C)$ ；
$(A\bigcap B)\bigcap C = A\bigcap(B\bigcap C)$

(3) 分配律： $(A\bigcup B)\bigcap C = (A\bigcap C)\bigcup(B\bigcap C)$

3.德 $\mathbf{.}$ 摩根律

$\overline{A\bigcup B} = \overline{A}\bigcap\overline{B}$
$\overline{A\bigcap B} = \overline{A}\bigcup\overline{B}$

4.完全事件组

$A_{1}A_{2}\cdots A_{n}$ 两两互斥，且和事件为必然事件，即 $A_{i}\bigcap A_{j} = \varnothing,i \neq j,\underset{i = 1}{\bigcup^{n}}\, = \Omega$

5.概率的基本概念

(1) 概率：事件发生的可能性大小的度量，其严格定义如下：

概率 $P (g)$ 为定义在事件集合上的满足下面3个条件的函数：

1)对任何事件 $A$ ， $\geq 0$

2)对必然事件 $\Omega$ ， $P(\Omega) = 1$

3)对 $A_{1}A_{2}\cdots A_{n},\cdots$
,若 $A_{i}A_{j} = \varnothing(i \neq j)$ ，则： $P(\underset{i = 1}{\bigcup^{\infty}}\, A_{i}) = \sum_{i = 1}^{\infty}{P(A).}$

(2) 概率的基本性质

1) $P(\overline{A}) = 1 – P(A)$ ;

2) $P (A - B) = P (A) - P (A B);$

3) $P(A\bigcup B) = P(A) + P(B) – P(AB)$
特别，当 $\subset A$ 时， $P (A - B) = P (A) - P (B)$ 且 $\leq P(A)$ ；
$P(A\bigcup B\bigcup C) = P(A) + P(B) + P(C) – P(AB) – P(BC) – P(AC) + P(ABC)$
4)
若 $A_{1},A_{2},\cdots,A_{n}$ 两两互斥，则 $P(\underset{i = 1}{\bigcup^{n}}\, A_{i}) = \sum_{i = 1}^{n}{(P(A_{i})}$

(3) 古典型概率: 实验的所有结果只有有限个，
且每个结果发生的可能性相同，其概率计算公式： $\frac{A}{}$

(4) 几何型概率: 样本空间 $\Omega$ 为欧氏空间中的一个区域，
且每个样本点的出现具有等可能性，其概率计算公式： $\frac{A()}{\Omega()}$

6.概率的基本公式

(1) 条件概率: $\frac{P(AB)}{P(A)}$
,表示 $A$ 发生的条件下， $B$ 发生的概率

(2) 全概率公式：
$\sum_{i = 1}^{n}{P(A|B_{i})P(B_{i}),B_{i}B_{j}} = \varnothing,i \neq j,\underset{i = 1}{\bigcup^{n}}\, B_{i} = \Omega.$

(3) Bayes公式：

$P(B_{j}|A) = \frac{P(A|B_{j})P(B_{j})}{\sum_{i = 1}^{n}{P(A|B_{i})P(B_{i})}},j = 1,2,\cdots,n$

注：上述公式中事件 $B_{i}$ 的个数可为可列个.

(4)乘法公式：
$P(A_{1}A_{2}) = P(A_{1})P(A_{2}|A_{1}) = P(A_{2})P(A_{1}|A_{2})$
$P(A_{1}A_{2}\cdots A_{n}) = P(A_{1})P(A_{2}|A_{1})P(A_{3}|A_{1}A_{2})\cdots P(A_{n}|A_{1}A_{2}\cdots A_{n – 1})$

7.事件的独立性

(1)
A与B相互独立 $\Leftrightarrow P\left( \text{AB} \right) = P\left( A \right)P\left( B \right)$

(2) A，B，C两两独立
$\Leftrightarrow P(\text{AB}) = P(A)P(B);P(\text{BC}) = P(B)P(C);$
$P(\text{AC}) = P(A)P(C);$

(3) A，B，C相互独立 $\Leftrightarrow P(\text{AB}) = P(A)P(B);$
$P(\text{BC}) = P(B)P(C);$ $P(\text{AC}) = P(A)P(C);$
$P(\text{ABC}) = P(A)P(B)P(C).$

8.独立重复试验

将某试验独立重复n次，若每次实验中事件A发生的概率为p，则n次试验中A发生k次的概率为：
$P\left( X = k \right) = C_{n}^{k}p{k}\left( 1 – p \right)^{n – k}\ $。

9.重要公式与结论

(1) $P\left( \overline{A} \right) = 1 – P\left( A \right)$

(2) $P(A\bigcup B) = P(A) + P(B) – P(\text{AB})$

$P(A\bigcup B\bigcup C) = P(A) + P(B) + P(C) – P(\text{AB}) – P(\text{BC}) – P(\text{AC}) + P(\text{ABC})$

(3)
$P\left( A – B \right) = P\left( A \right) – P\left( \text{AB} \right)$

(4)
$P(A\overline{B}) = P(A) – P(\text{AB}),P(A) = P(\text{AB}) + P(A\overline{B}),$
$P(A\bigcup B) = P(A) + P(\overline{A}B) = P(\text{AB}) + P(A\overline{B}) + P(\overline{A}B)$

(5) 条件概率 $P (∣ B)$ 满足概率的所有性质，

例如：. $P({\overline{A}}_{1}|B) = 1 – P(A_{1}|B)$
$P(A_{1}\bigcup A_{2}|B) = P(A_{1}|B) + P(A_{2}|B) – P(A_{1}A_{2}|B)$
$P(A_{1}A_{2}|B) = P(A_{1}|B)P(A_{2}|A_{1}B)$

(6)
若 $A_{1},A_{2},\cdots,A_{n}$ 相互独立，则 $P(\bigcap_{i = 1}^{n}A_{i}) = \prod_{i = 1}^{n}{P(A_{i})},$
$P(\bigcup_{i = 1}^{n}A_{i}) = \prod_{i = 1}^{n}{(1 – P(A_{i}))}$

(7) 互斥、互逆与独立性之间的关系：
A与B互逆 $\Rightarrow$ A与B互斥，但反之不成立，A与B互
斥（或互逆）且均非零概率事件 $\Rightarrow$ A与B不独立.

(8)
若 $A_{1},A_{2},\cdots,A_{m},B_{1},B_{2},\cdots,B_{n}$ 相互独立，则 $f(A_{1},A_{2},\cdots,A_{m})$ 与
$g(B_{1},B_{2},\cdots,B_{n})$ 也相互独立，其中 $f (), g ()$ 分别表示对相应事件做任意事件运算后所得的事件，另外，概率为1（或0）的事件与任何事件相互独立.

随机变量及其概率分布

1.随机变量及概率分布

取值带有随机性的变量，严格地说是定义在样本空间上，取值于实数的函数称为随机变量，概率分布通常指分布函数或分布律

2.分布函数的概念与性质

定义： $\leq x), – \infty < x < + \infty$

性质：(1) $\leq F(x) \leq 1$ (2) $F (x)$ 单调不减

(3)右连续 $F (x + 0) = F (x)$ (4) $\infty) = 0,F( + \infty) = 1$

3.离散型随机变量的概率分布

$x_{i}) = p_{i},i = 1,2,\cdots,n,\cdots\quad\quad p_{i} \geq 0,\sum_{i = 1}^{\infty}p_{i} = 1$

4.连续型随机变量的概率密度

概率密度 $f (x);$ 非负可积，且:(1) $\geq 0,$
(2) $\int_{- \infty}^{+ \infty}{f(x)\text{dx} = 1}$
(3) $x$ 为 $f (x)$ 的连续点，则:

$f (x) = F^{'} (x)$ 分布函数 $\int_{- \infty}^{x}{f(t)\text{dt}}$

5.常见分布

(1) 0-1分布: $P(X = k) = p^{k}{(1 – p)}^{1 – k},k = 0,1$

(2) 二项分布: $B (n, p)$ ：
$C_{n}^{k}p^{k}{(1 – p)}^{n – k},k = 0,1,\cdots,n$

(3) Poisson分布: $p(\lambda)$ ：
$\frac{\lambda^{k}}{k!}e^{- \lambda},\lambda > 0,k = 0,1,2\cdots$

(4) 均匀分布 $U (a, b)$ ：$f(x) = \left{ \begin{matrix}
& \frac{1}{b – a},a < x < b \
& 0, \
\end{matrix} \right.\ $

(5) 正态分布: $N(\mu,\sigma^{2}):$
$\varphi(x) = \frac{1}{\sqrt{2\pi}\sigma}e^{- \frac{{(x – \mu)}^{2}}{2\sigma^{2}}},\sigma > 0, – \infty < x < + \infty$

(6)指数分布:$E(\lambda):f(x) = \left{ \begin{matrix}
& \lambda e^{- \text{λx}},x > 0,\lambda > 0 \
& 0, \
\end{matrix} \right.\ $

(7)几何分布: $p)}^{k – 1}p,0 < p < 1,k = 1,2,\cdots.$

(8)超几何分布:
$\frac{C_{M}^{k}C_{N – M}^{n – k}}{C_{N}^{n}},k = 0,1,\cdots,min(n,M)$

6.随机变量函数的概率分布

(1)离散型： $P(X = x_{1}) = p_{i},Y = g(X)$

则: $y_{j}) = \sum_{g(x_{i}) = y_{i}}^{}{P(X = x_{i})}$

(2)连续型： $X\tilde{\ }f_{X}(x),Y = g(x)$

则: $F_{y}(y) = P(Y \leq y) = P(g(X) \leq y) = \int_{g(x) \leq y}^{}{f_{x}(x)dx}$ ，
$f_{Y}(y) = F’_{Y}(y)$

7.重要公式与结论

(1)
$X\sim N(0,1) \Rightarrow \varphi(0) = \frac{1}{\sqrt{2\pi}},\Phi(0) = \frac{1}{2},$
$\Phi( – a) = P(X \leq – a) = 1 – \Phi(a)$

(2)
$X\sim N\left( \mu,\sigma^{2} \right) \Rightarrow \frac{X – \mu}{\sigma}\sim N\left( 0,1 \right),P(X \leq a) = \Phi(\frac{a – \mu}{\sigma})$

(3) $X\sim E(\lambda) \Rightarrow P(X > s + t|X > s) = P(X > t)$

(4) $X\sim G(p) \Rightarrow P(X = m + k|X > m) = P(X = k)$

(5)
离散型随机变量的分布函数为阶梯间断函数；连续型随机变量的分布函数为连续函数，但不一定为处处可导函数。

(6) 存在既非离散也非连续型随机变量。

多维随机变量及其分布

**1.二维随机变量及其联合分布 **

由两个随机变量构成的随机向量 $(X, Y)$ ，
联合分布为 $\leq x,Y \leq y)$

2.二维离散型随机变量的分布

(1) 联合概率分布律
$P\{ X = x_{i},Y = y_{j}\} = p_{\text{ij}};i,j = 1,2,\cdots$

(2) 边缘分布律
$p_{i \cdot} = \sum_{j = 1}^{\infty}p_{\text{ij}},i = 1,2,\cdots$
$p_{\cdot j} = \sum_{i}^{\infty}p_{\text{ij}},j = 1,2,\cdots$

(3) 条件分布律
$P\{ X = x_{i}|Y = y_{j}\} = \frac{p_{\text{ij}}}{p_{\cdot j}}$
$P\{ Y = y_{j}|X = x_{i}\} = \frac{p_{\text{ij}}}{p_{i \cdot}}$

**3. 二维连续性随机变量的密度 **

(1) 联合概率密度 $f (x, y) :$

1) $\geq 0$ 2)
$\int_{- \infty}^{+ \infty}{\int_{- \infty}^{+ \infty}{f(x,y)dxdy}} = 1$

(2)
分布函数： $\int_{- \infty}^{x}{\int_{- \infty}^{y}{f(u,v)dudv}}$

(3) 边缘概率密度：
$f_{X}\left( x \right) = \int_{- \infty}^{+ \infty}{f\left( x,y \right)\text{dy}}$
$f_{Y}(y) = \int_{- \infty}^{+ \infty}{f(x,y)dx}$

(4)
条件概率密度： $f_{X|Y}\left( x \middle| y \right) = \frac{f\left( x,y \right)}{f_{Y}\left( y \right)}$
$f_{Y|X}(y|x) = \frac{f(x,y)}{f_{X}(x)}$

4.常见二维随机变量的联合分布

(1) 二维均匀分布： $\sim U(D)$ ,$f(x,y) = \left{ \begin{matrix}
& \frac{1}{S(D)},(x,y) \in D \
& 0,\ \ \
\end{matrix} \right.\ $

(2)
二维正态分布：( $X,Y)\sim N(\mu_{1},\mu_{2},\sigma_{1}^{2},\sigma_{2}^{2},\rho)$

$\frac{1}{2\pi\sigma_{1}\sigma_{2}\sqrt{1 – \rho^{2}}}.\exp\left\{ \frac{- 1}{2(1 – \rho^{2})}\lbrack\frac{{(x – \mu_{1})}^{2}}{\sigma_{1}^{2}} – 2\rho\frac{(x – \mu_{1})(y – \mu_{2})}{\sigma_{1}\sigma_{2}} + \frac{{(y – \mu_{2})}^{2}}{\sigma_{2}^{2}}\rbrack \right\}$

**5.随机变量的独立性和相关性 **

$X$ 和 $Y$ 的相互独立: $\Leftrightarrow F\left( x,y \right) = F_{X}\left( x \right)F_{Y}\left( y \right)$ :

$\Leftrightarrow p_{\text{ij}} = p_{i \cdot} \cdot p_{\cdot j}$ （离散型）
$\Leftrightarrow f\left( x,y \right) = f_{X}\left( x \right)f_{Y}\left( y \right)$ （连续型）

$X$ 和 $Y$ 的相关性：

相关系数 $\rho_{\text{XY}} = 0$ 时，称 $X$ 和 $Y$ 不相关，否则称 $X$ 和 $Y$ 相关

6.两个随机变量简单函数的概率分布

离散型：
$P\left( X = x_{i},Y = y_{i} \right) = p_{\text{ij}},Z = g\left( X,Y \right)$
则：

$z_{k}) = P\left\{ g\left( X,Y \right) = z_{k} \right\} = \sum_{g\left( x_{i},y_{i} \right) = z_{k}}^{}{P\left( X = x_{i},Y = y_{j} \right)}$

连续型：
$\left( X,Y \right) \sim f\left( x,y \right),Z = g\left( X,Y \right)$
则：

$F_{z}\left( z \right) = P\left\{ g\left( X,Y \right) \leq z \right\} = \iint_{g(x,y) \leq z}^{}{f(x,y)dxdy}$ ， $f_{z}(z) = F’_{z}(z)$

**7.重要公式与结论 **

(1) 边缘密度公式： $f_{X}(x) = \int_{- \infty}^{+ \infty}{f(x,y)dy,}$
$f_{Y}(y) = \int_{- \infty}^{+ \infty}{f(x,y)dx}$

(2)
$P\left\{ \left( X,Y \right) \in D \right\} = \iint_{D}^{}{f\left( x,y \right)\text{dxdy}}$

(3)
若 $(X, Y)$ 服从二维正态分布 $N(\mu_{1},\mu_{2},\sigma_{1}^{2},\sigma_{2}^{2},\rho)$
则有：

$X\sim N\left( \mu_{1},\sigma_{1}^{2} \right),Y\sim N(\mu_{2},\sigma_{2}^{2}).$

2) $X$ 与 $Y$ 相互独立 $\Leftrightarrow \rho = 0$ ，即 $X$ 与 $Y$ 不相关。

$C_{1}X + C_{2}Y\sim N(C_{1}\mu_{1} + C_{2}\mu_{2},C_{1}^{2}\sigma_{1}^{2} + C_{2}^{2}\sigma_{2}^{2} + 2C_{1}C_{2}\sigma_{1}\sigma_{2}\rho)$

4) $\text{\ X}$ 关于Y=y的条件分布为：
$N(\mu_{1} + \rho\frac{\sigma_{1}}{\sigma_{2}}(y – \mu_{2}),\sigma_{1}^{2}(1 – \rho^{2}))$

5) $Y$ 关于 $X = x$ 的条件分布为：
$N(\mu_{2} + \rho\frac{\sigma_{2}}{\sigma_{1}}(x – \mu_{1}),\sigma_{2}^{2}(1 – \rho^{2}))$

(4)
若 $X$ 与 $Y$ 独立，且分别服从 $N(\mu_{1},\sigma_{1}^{2}),N(\mu_{1},\sigma_{2}^{2}),$
则：

$\left( X,Y \right)\sim N(\mu_{1},\mu_{2},\sigma_{1}^{2},\sigma_{2}^{2},0),$
$C_{1}X + C_{2}Y\tilde{\ }N(C_{1}\mu_{1} + C_{2}\mu_{2},C_{1}^{2}\sigma_{1}^{2} + C_{2}^{2}\sigma_{2}^{2}).$

(5)
若 $X$ 与 $Y$ 相互独立， $f\left( x \right)$ 和 $g\left( x \right)$ 为连续函数，
则 $f\left( X \right)$ 和 $g (Y)$ 也相互独立。

随机变量的数字特征

**1.数学期望 **

离散型： $P\left\{ X = x_{i} \right\} = p_{i},E(X) = \sum_{i}^{}{x_{i}p_{i}}$ ；

连续型： $X\sim f(x),E(X) = \int_{- \infty}^{+ \infty}{xf(x)dx}$

性质：

(1) $C,E\lbrack E(X)\rbrack = E(X)$

(2) $E(C_{1}X + C_{2}Y) = C_{1}E(X) + C_{2}E(Y)$

(3) 若X和Y独立，则 $E (X Y) = E (X) E (Y)$
(4) $\left\lbrack E(XY) \right\rbrack^{2} \leq E(X^{2})E(Y^{2})$

2.方差： $E\left\lbrack X – E(X) \right\rbrack^{2} = E(X^{2}) – \left\lbrack E(X) \right\rbrack^{2}$

3.标准差： $\sqrt{D(X)}$ ，

4.离散型： $\sum_{i}^{}{\left\lbrack x_{i} – E(X) \right\rbrack^{2}p_{i}}$

5.连续型： ${\int_{- \infty}^{+ \infty}\left\lbrack x – E(X) \right\rbrack}^{2}f(x)dx$

性质：

(1) $\ D(C) = 0,D\lbrack E(X)\rbrack = 0,D\lbrack D(X)\rbrack = 0$

(2) $\ X$ 与 $Y$ 相互独立，则 $\pm Y) = D(X) + D(Y)$

(3) $\ D\left( C_{1}X + C_{2} \right) = C_{1}^{2}D\left( X \right)$

(4) 一般有
$\pm Y) = D(X) + D(Y) \pm 2Cov(X,Y) = D(X) + D(Y) \pm 2\rho\sqrt{D(X)}\sqrt{D(Y)}$

(5) $\ D\left( X \right) < E\left( X – C \right)^{2},C \neq E\left( X \right)$

(6) $\ D(X) = 0 \Leftrightarrow P\left\{ X = C \right\} = 1$

**6.随机变量函数的数学期望 **

(1) 对于函数 $Y = g (x)$

$X$ 为离散型： $P\{ X = x_{i}\} = p_{i},E(Y) = \sum_{i}^{}{g(x_{i})p_{i}}$ ；

$X$ 为连续型： $X\sim f(x),E(Y) = \int_{- \infty}^{+ \infty}{g(x)f(x)dx}$

(2)
$Z = g (X, Y)$ ; $\left( X,Y \right)\sim P\{ X = x_{i},Y = y_{j}\} = p_{\text{ij}}$ ;
$\sum_{i}^{}{\sum_{j}^{}{g(x_{i},y_{j})p_{\text{ij}}}}$
$\left( X,Y \right)\sim f(x,y)$ ; $\int_{- \infty}^{+ \infty}{\int_{- \infty}^{+ \infty}{g(x,y)f(x,y)dxdy}}$

7.协方差
$E\left\lbrack (X – E(X)(Y – E(Y)) \right\rbrack$

8.相关系数
$\rho_{\text{XY}} = \frac{Cov(X,Y)}{\sqrt{D(X)}\sqrt{D(Y)}}$ , $k$ 阶原点矩
$E(X^{k})$ ; $k$ 阶中心矩
$E\left\{ {\lbrack X – E(X)\rbrack}^{k} \right\}$

性质：

(1) $\ Cov(X,Y) = Cov(Y,X)$

(2) $\ Cov(aX,bY) = abCov(Y,X)$

(3) $Cov(X_{1} + X_{2},Y) = Cov(X_{1},Y) + Cov(X_{2},Y)$

(4) $\ \left| \rho\left( X,Y \right) \right| \leq 1$

(5) $\ \rho\left( X,Y \right) = 1 \Leftrightarrow P\left( Y = aX + b \right) = 1$
，其中 $a > 0$

$\rho\left( X,Y \right) = – 1 \Leftrightarrow P\left( Y = aX + b \right) = 1$
，其中 $a < 0$

9.重要公式与结论

(1) $D(X) = E(X^{2}) – E^{2}(X)$

(2) $\ Cov(X,Y) = E(XY) – E(X)E(Y)$

(3) $\left| \rho\left( X,Y \right) \right| \leq 1,$ 且
$\rho\left( X,Y \right) = 1 \Leftrightarrow P\left( Y = aX + b \right) = 1$ ，其中 $a > 0$

$\rho\left( X,Y \right) = – 1 \Leftrightarrow P\left( Y = aX + b \right) = 1$ ，其中 $a < 0$

(4) 下面5个条件互为充要条件：

$\rho(X,Y) = 0$ $\Leftrightarrow Cov(X,Y) = 0$
$\Leftrightarrow E(X,Y) = E(X)E(Y)$
$\Leftrightarrow D(X + Y) = D(X) + D(Y)$
$\Leftrightarrow D(X – Y) = D(X) + D(Y)$

注： $X$ 与 $Y$ 独立为上述5个条件中任何一个成立的充分条件，但非必要条件。

数理统计的基本概念

1.基本概念

总体：研究对象的全体，它是一个随机变量，用 $X$ 表示。

个体：组成总体的每个基本元素。

简单随机样本：来自总体 $X$ 的 $n$ 个相互独立且与总体同分布的随机变量 $X_{1},X_{2}\cdots,X_{n}$ ，称为容量为 $n$ 的简单随机样本，简称样本。

统计量：设 $X_{1},X_{2}\cdots,X_{n},$ 是来自总体 $X$ 的一个样本， $g(X_{1},X_{2}\cdots,X_{n})$ ）是样本的连续函数，且 $g ()$ 中不含任何未知参数，则称 $g(X_{1},X_{2}\cdots,X_{n})$ 为统计量

样本均值： $\overline{X} = \frac{1}{n}\sum_{i = 1}^{n}X_{i}$

样本方差： $S^{2} = \frac{1}{n – 1}\sum_{i = 1}^{n}{(X_{i} – \overline{X})}^{2}$

样本矩：样本 $k$ 阶原点矩： $A_{k} = \frac{1}{n}\sum_{i = 1}^{n}X_{i}^{k},k = 1,2,\cdots$

样本 $k$ 阶中心矩： $B_{k} = \frac{1}{n}\sum_{i = 1}^{n}{(X_{i} – \overline{X})}^{k},k = 1,2,\cdots$

2.分布

$\chi^{2}$ 分布： $\chi^{2} = X_{1}^{2} + X_{2}^{2} + \cdots + X_{n}^{2}\sim\chi^{2}(n)$ ，其中 $X_{1},X_{2}\cdots,X_{n},$ 相互独立，且同服从 $N (0, 1)$

$t$ 分布： $\frac{X}{\sqrt{Y/n}}\sim t(n)$
，其中 $X\sim N\left( 0,1 \right),Y\sim\chi^{2}(n),$ 且 $X$ ， $Y$ 相互独立。

F分布： $\frac{X/n_{1}}{Y/n_{2}}\sim F(n_{1},n_{2})$ ，其中 $X\sim\chi^{2}\left( n_{1} \right),Y\sim\chi^{2}(n_{2}),$ 且 $X$ ， $Y$ 相互独立。

分位数：若 $\leq x_{\alpha}) = \alpha,$ 则称 $x_{\alpha}$ 为 $X$ 的 $\alpha$ 分位数

**3.正态总体的常用样本分布 **

(1) 设 $X_{1},X_{2}\cdots,X_{n}$ 为来自正态总体 $N(\mu,\sigma^{2})$ 的样本，

$\overline{X} = \frac{1}{n}\sum_{i = 1}^{n}X_{i},S^{2} = \frac{1}{n – 1}\sum_{i = 1}^{n}{{(X_{i} – \overline{X})}^{2},}$ 则：

$\overline{X}\sim N\left( \mu,\frac{\sigma^{2}}{n} \right)\text{\ \ }$ 或者 $\frac{\overline{X} – \mu}{\frac{\sigma}{\sqrt{n}}}\sim N(0,1)$

$\frac{(n – 1)S^{2}}{\sigma^{2}} = \frac{1}{\sigma^{2}}\sum_{i = 1}^{n}{{(X_{i} – \overline{X})}^{2}\sim\chi^{2}(n – 1)}$

$\frac{1}{\sigma^{2}}\sum_{i = 1}^{n}{{(X_{i} – \mu)}^{2}\sim\chi^{2}(n)}$

4) $\text{\ \ }\frac{\overline{X} – \mu}{S/\sqrt{n}}\sim t(n – 1)$

**4.重要公式与结论 **

(1)
对于 $\chi^{2}\sim\chi^{2}(n)$ ，有 $E(\chi^{2}(n)) = n,D(\chi^{2}(n)) = 2n;$

(2) 对于 $T\sim t(n)$ ，有 $\frac{n}{n – 2}(n > 2)$ ；

(3) 对于 $F\tilde{\ }F(m,n)$ ，有
$\frac{1}{F}\sim F(n,m),F_{a/2}(m,n) = \frac{1}{F_{1 – a/2}(n,m)};$

(4) 对于任意总体 $X$ ，有
$E(\overline{X}) = E(X),E(S^{2}) = D(X),D(\overline{X}) = \frac{D(X)}{n}$

文章版权归作者所有，未经允许请勿转载。

THE END

文章

机器学习的数学基础（下）

矩阵的特征值和特征向量

二次型

概率论和数理统计

随机事件和概率

随机变量及其概率分布

多维随机变量及其分布

随机变量的数字特征

数理统计的基本概念

（超详细）win11换国内源并下载安装pytorch

【深度探讨】如何利用区块链改善公共服务

逆置整数（非数组）

【郑州大学C语言实验报告册答案2023】

平衡效率与安全-谋定论道·经信研究-谢雯：区块链效率安全性

【C语言初阶篇】for语句的基本语法和使用规则！