《概率论与数理统计》定义/性质速通

杂项概念

分布函数的三个性质：若 $a\geq b$，则 $F(a)\geq F(b); \mathop{\lim}\limits_{x\rightarrow -\infty} F(x)=0,\mathop{\lim}\limits_{x\rightarrow +\infty} F(x)=1;\mathop{\lim}\limits_{x\rightarrow a^+} F(x)=F(a)$
二项分布最可能取值：$(n+1)p\in N\rightarrow (n+1)p,(n+1)p-1; (n+1)p\notin N\rightarrow [(n+1)p]$
已知 $f_x(x) ,Y=g(X)$ 求 $f_y(y)$
- 对$x$积分后对 $y$ 求导
- 反函数：$h(Y)=X$
- 单调段：$f_Y(y)=f_x(h(y))|h'(y)|$
- 不单调段：$f_Y(y)=f_x(h_1(y))|h_1'(y)|+f_x(h_2(y))|h_2'(y)|$
$F(x,y)=\int_{-\infty}^x\int_{-\infty}^yf(x,y)\mathrm{d}x\mathrm{d}y,F_x(x)=\int_{-\infty}^xf_x(x)\mathrm{d}x,f_x(x)=\int_{-\infty}^{+\infty}f(x,y)\mathrm{d}x$
若 $F(x,y)=F_x(x)\cdot F_y(y)$ 或 $f(x,y)=f_x(x)\cdot f_y(y)$ ，则 $x,y$ 相互独立
条件密度函数
- $f_{Y|X}(y|x)=\frac{f(x,y)}{f_x(x)},F_{Y|X}(y|x)=\int_{-\infty}^{y}f_{Y|X}(y|x)\mathrm{d}y$
二维正态分布：五个参数确定，不能由两个一维正态分布确定
切比雪夫不等式：
- $P(|X-E(X)|\geq \varepsilon)\leq \frac{D(X)}{\varepsilon ^2}$
- $P(|X-E(X)|\leq \varepsilon)\geq 1-\frac{D(X)}{\varepsilon ^2}$

期望与方差

$\mathrm{Var}[X]=E[X^2]-E[X]^2$
若 $X,Y$ 相互独立（且都存在数学期望），则 $E[aX+bY]=aE[X]+bE[Y],E[XY]=E[X]\cdot E[Y]$
$\mathrm{Var}[aX+bY]=a^2\mathrm{Var}[X]+b^2\mathrm{Var}[Y]$

偏度和峰度

称

\[\frac{E[(X-E[X])^3]}{\mathrm{(Var}[X])^{\frac{3}{2}}}\]

为 $X$ 的偏度，而称

\[\frac{E[(X-E[X])^4]}{(\mathrm{Var}[X])^2}\]

为 $X$ 的峰度.

协方差和相关系数

称

\[\mathrm{Cov}(X,Y)=E[(X-E[X])(Y-E[Y])]\]

为 $X$ , $Y$ 的协方差. 可以证明:

\[\mathrm{Cov}(X,Y)=E[XY]-E[X]\cdot E[Y]\]

称

\[r(X,Y)=\frac{\mathrm{Cov}(X,Y)}{\sqrt{\mathrm{Var}[X]\cdot \mathrm{Var}[Y]}}\]

为 $X$ , $Y$ 的相关系数，有：

若 $r(X,Y)=0$，则 $X,Y$ 不相关
若 $X$ 与 $Y$ 独立，则 $\mathrm{Cov}(X,Y)=r(X,Y)=0$
若 $r=\pm1$ ，则存在 $a,b (a>0)$ 使得 $Y=\pm ax+b$
$ [X,Y]=(Y,X)$
独立则一定不相关，但不相关不一定独立
$\mathrm{Var}[aX+bY]=a^2\mathrm{Var}[X]+b^2\mathrm{Var}]Y]+2ab\mathrm{Cov}(X,Y)$ （若 $X,Y$ 相互独立，显然没有协方差一项.）
$\mathrm{Cov}(aX+bY,Z)=a\mathrm{Cov(X,Z)}+b\mathrm{Cov}(y,z)$

分布

0-1 分布

$P(X=1)=p,P(x=0)=1-p$

几何分布

$P(X=k)=p(1-p)^{k-1}$，取第 $k$ 次第一次取到的概率。

$\overline X=(\frac{1}{p}),D(X)=\frac{1-p}{p^2}$

二项分布

$n$ 重的 0-1 分布

若

\[P(X=k)={n\choose k}p^k(1-p)^{n-k}\]

则称 $X$ 服从二项分布，记为 $X\sim B(n,p)$.

性质：$E[X]=np, \mathrm{Var}[X]=np(1-p)$.

可以将 $n$ 足够大的二项分布视为正态分布，有 $\mu =np,\sigma^2=np(1-p)$

泊松分布

二项分布的极限分布

\[P(X=k)=\frac{\lambda^k}{k!}e^{-\lambda},k=0,1,2,\cdots\]

记为 $X\sim \mathrm{Pois}(\lambda)$ 或 $\mathrm P(\lambda)$.

二项分布 $n\rightarrow \infty,np\rightarrow \lambda$ 时服从泊松分布.

若二项分布 $n$ 足够大且 $p$ 足够小，就可以用泊松分布来估计.

特别地，$E[X]=\mathrm{Var}[X]=\lambda$.

正态分布

若

\[f_X(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}},-\infty<x<+\infty\]

则称 $X$ 服从正态分布，记为 $X\sim N(\mu,\sigma^2)$.

$N(0,1)$ 是标准正态分布.

对于标准正态分布，有：

分部密度函数

\[\phi(x)=\frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}}\]

分布函数：

\[\Phi(x)=\frac{1}{\sqrt{2\pi}}\int_{-\infty}^xe^{-\frac{t^2}{2}}\mathrm{d}t\]

一般的正态分布 $X\sim N(\mu,\sigma^2 )$ 可以通过以下转换变为标准正态分布

$Y=\frac{X-\mu}{\sigma}$

分部函数 $\Phi$ 难以积分，一般查表得到。

设总体 $X\sim N(0,1),(X_1,X_2,\cdots,X_n)$ 为其样本,则
- $\overline X=\frac{1}{n}\sum_{i=1}^nX_i\sim N(0,\frac{1}{n}))$
- \[nS_n^2=\sum_{i=1}^{n}(X_i-\overline X)^2\sim \chi^2(n-1)\]

更一般地说, 正态总体的五条性质，设总体 $X\sim N(\mu,\sigma^2),(X_1,X_2,\cdots,X_n)$ 为其样本,则

$\overline X\sim N(\mu,\frac{\sigma^2}{n}))$，或表述为 $E(X)=\mu ,D(X)=\frac{\sigma ^2}{n}$
\[\frac{nS_n^2}{\sigma^2}=\sum_{i=1}^{n}(X_i-\overline X)^2\sim \chi^2(n-1)\]
\[\frac{\overline X-\mu}{\frac{S}{\sqrt{n}}}\sim t(n-1)\]
$X $ 和 $S_n^2$ 独立
$E(S^2)=\sigma ^2$

两个正态总体下的两条结论：

\[\frac{\frac{S_1^2}{\sigma_1^2}}{\frac{S_2^2}{\sigma_2^2}}\sim F(n_1,n_2)\]
\[\frac{\overline X - \overline Y -(\mu_1-\mu_2)}{\sqrt{\frac{(n_1-1)S_X+(n_2-1)S_Y}{n_1+n_2-2}}\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}}\sim t(n_1+n_2-2)\text{（t 分布的可加性）}\]

若 $X\sim N(u_1,m),Y\sim N(u_2,n)$

则 $Z=X±Y\sim N(u_1±u_2,m+n)$

指数分布

密度函数:

\[f(x)=\lambda e^{-\lambda x},(x>0)\]

数学期望 $\frac{1}{\lambda}$ , 方差 $\frac{1}{\lambda^2}$

均匀分布

$X$ 在一个区间 $[a,b]$ 内平均分布.

容易得到

\[E(X)=\frac{b-a}{2}\]

\[\mathrm{Var}[X]=E[X^2]-E[X]^2=\int_a^b\frac{x^2}{b-a}\mathrm{d}x-(\frac{a+b}{2})^2=\frac{(b-a)^2}{12}\]

接下来三个分布是数理统计中的三大分布（都是连续型），他们都与正态分布具有密切联系

卡方分布

$\chi ^2$ 分布.

$n$ 个均服从标准正态分布的随机变量的平方和构成的新的随机变量的分布称为$\chi ^2$ 分布. 且该卡方分布 自由度为 $n$ .

自由度是随机变量的个数.

设 $X\sim \chi^2(n)$ , 则可以得到

\[E(X)=n,\mathrm{Var}[X]=2n\]

若 $X_1\sim \chi^2(n_1),X_2\sim \chi^2(n_2)$, 则 $X_1+X_2\sim \chi ^2(n_1+n_2)$
若 $X\sim \chi^2(n),n\rightarrow +\infty$ , 则 $\frac{X-n}{\sqrt{2n}}\sim N(0,1)$. （用中心极限定理很容易证明, $\mu=1,\sigma^2=2$）
设 $X_1,X_2,X_3,\cdots,X_n$ 为取自正态总体 $X\sim N(\mu,\sigma ^2)$ 的样本，则

\[\frac{1}{\sigma^2} \sum_1^n(X_i-\mu)^2\sim \chi ^2 (n-1)\]

（证明，$\frac{X_i-\mu}{\sigma}\sim N(0,1)$，且相互独立，将$(\frac{X_i-\mu}{\sigma})^2$加起来即可）

设 $X_1,X_2,X_3,\cdots,X_n$ 为取自正态总体 $X\sim N(\mu,\sigma ^2)$ 的样本，则样本均值 $\overline X$ 与样本方差 $S_n^2$ 相互独立，且

\[\overline X\sim N(\mu,\frac{\sigma ^2}{n})\]

\[\frac{nS_n^2}{\sigma^2}=\frac{1}{\sigma^2} \sum_1^n(X_i-\overline X)^2\sim \chi ^2 (n)\text{(注意与 4 中的式子对比)}\]

为什么该式子自由度变为 $n-1$ ?

表面上看 $ _1^n(X_i-X)2$ 是 $n$ 个独立正态随机变量的平方和，实际上他们并不独立，因为有 $\sum_1^n(X_i-\overline X) =0$ 故一旦 $n$ 个值中的 $n-1$ 个确定，第 $n$ 个也随之确定.

抽样分布基本定理是上述定理的特例:

设 $X_1,X_2,X_3,\cdots,X_n$ 为取自正态总体 $X\sim N(0,1)$ 的样本，则样本均值 $\overline X$ 和方差 $S_n^2$ 相互独立，且

\[\overline X\sim N(0,\frac{1}{n})\]

\[nS_n^2\sim \chi ^2(n-1)\]

t分布

若 $X\sim N(0,1),Y\sim \chi^2(n)$ 且相互独立, 则称

\[T=\frac{X}{\sqrt{Y/n}}\]

服从自由度为 $n$ 的 t分布, 记作 $t(n)$.

F分布

若 $X\sim \chi^2(m),Y\sim \chi ^2(n)$,则称 $Z=\frac{X/m}{Y/n}$ 服从 F分布. 记作 $Z\sim F(m,n)$.

注意到，若 $T\sim t(n)(X\sim N(0,1),Y\sim \chi^2(n))$，则有 $T^2\sim \frac{X^2}{Y/n}=\frac{\chi^2(1)}{Y/n}=F(1,n)$

中心极限定理

若随机变量序列 $X_1,X_2,\cdots$ 具有有限的数学期望和方差，且服从

\[\frac{\sum_{k=1}^{n}(X_k-E[X_k])}{\sqrt{\mathrm{Var}\Big[\sum _{k=1}^nX_k\Big ]}}\rightarrow N(0,1)\]

则称其服从中心极限定理.

棣莫弗-拉普拉斯中心极限定理

设 $X_1,X_2,\cdots$ 独立同分布，服从 $B(1,p)$ ，则 $X_1,X_2,\cdots$ 服从中心极限定理，即

\[\mathop{\lim}\limits_{n\rightarrow \infty} P(\frac{1}{\sqrt{np(1-p)}}\Big [\sum_{k=1}^nX_k-np\Big ]\leq x)=\Phi(x) =\frac{1}{\sqrt{2\pi}}\int_{-\infty} ^{x}e^-{\frac{u^2}{2}}\mathrm{d}u\]

这个式子看上去比较复杂，实际上表达的意义是 $\sum X-E[X]$ 经过对正态分布的拟合（除以标准差）后服从标准正态分布.

该定理是下面 林德伯格-莱维定理 关于二项分布的特例.

林德伯格-莱维定理

设 $X_1,X_2,\cdots$ 独立同分布，具有有限的数学期望 $\mu$ 与方差 $\sigma ^2$ 则 $X_1,X_2,\cdots$ 必定服从中心极限定理，即

\[\mathop{\lim}\limits_{n\rightarrow \infty} P(\frac{1}{\sigma\sqrt{n}}\Big [\sum_{k=1}^nX_k-n\mu\Big ]\leq x)=\Phi(x) =\frac{1}{\sqrt{2\pi}}\int_{-\infty} ^{x}e^-{\frac{u^2}{2}}\mathrm{d}u\]

即，如果一个序列独立同分布且数学期望和方差有限，则其每一项减去期望值后的和经过对正态分布的拟合（除以标准差与 $\sqrt{n}$ 的乘积）后服从标准正态分布.

有了这个定理，当 $n$ 比较大时，我们就可以用正态分布估算部分和的分布了.