概率论复习

大数定律和中心极限定律

切比雪夫定律(对概率作出很粗略的估计)

随机变量$X$的数学期望$E(X)$和方差$D(X)$都存在,则对于任意常数$\varepsilon>0$,下列不等式成立:

$P{|X-E(X)|\geq\varepsilon}\leq\frac{D(X)}{\varepsilon^2}$
$P{|X-E(X)|\leq\varepsilon}\geq1-\frac{D(X)}{\varepsilon^2}$

期望与方差的定义(连续随机变量)

$E(X)=\int^{+\infty}_{-\infty}xf(x)dx$

$D(X)=\int^{+\infty}_{-\infty}[x-E(X)]^2f_X(x)dx$

大数定律

设随机变量序列$X_1,X_2,…,X_n,…$的每个数学期望$E(X_i)$,$i=1,2,…$均存在,如果对任意给定的正实数$\varepsilon$,有:

${\lim_{x \to -\infty}P\{|\frac{1}{n}\sum_{i=1}^nX_i-\frac{1}{n}\sum_{i=1}^nE(X_i)|<\varepsilon\}=1}$

则随机变量序列$X_1,X_2,…,X_n,…$服从大数定律

切比雪夫大数定律、独立同分布大数定律、辛钦大数定律、伯努利大数定律

两个小结论

由独立同分布和辛钦大数定律-> 相互独立同分布的随机变量序列$X1,X_2,…,X_n,…$的算术平均值$\frac{1}{n}\sum{n}^{i=1}X_i$在$n$充分大时具有稳定性，其稳定值为$E(X_i)=\mu$.这也就是工程应用中往往用大量测量值的算术平均值作为精确值的估计的理论依据
伯努利大数定律以严格的数学形式表述了频率的稳定性
大数定律讲的是样本均值收敛到总体均值（就是期望）

中心极限定理

中心极限定理告诉我们，当样本量足够大时，样本均值的分布慢慢变成标准正态分布

大数定律与中心极限定律关系

条件
- 大数定律: $E(|X|)<\infty$
- 中心极限定律: $E(X^2)<\infty$
定理
- 大数定律: $\frac{1}{n}\sum_{i=1}^{n}X_i-E(X)\stackrel{P}\rightarrow0$
- 中心极限定理: $\sqrt{n}(\frac{1}{n}\sum_{i=1}^{n}X_i-E(X))\stackrel{D}\rightarrow N(0,\sigma^2)$

抽样分布

卡方分布

卡方分布：n 个标准正态分布随机变量的平方和的分布成为具有n个自由的卡方分布。分布形状取决于自由度n的大小，通常为不对称的右偏分布，自由度增大逐渐趋于对称。

T分布

t分布，用t表示样本均值经过标准化后的新随机变量，因此成为t分布，也成学生分布。设随机变量Z服从标准正太分布，X服从n个自由度的卡方分布，且Z与X独立。

$T=\frac{Z}{\sqrt{X/n}}$

服从自由度为n的t分布。t 分布类似于正态分布，比正态分布平坦而分散，随着自由度增大逐渐趋于正态分布

F分布

F分布是纪念著名统计学家R. A. Fisher 以其姓氏的第一个字母而命名的，它是两个卡方分布变量的比。设U服从自由度为n1的卡方分布，V服从自由度为n2的卡方分布，且U和V独立。则：

$F=\frac{U/n_1}{V/n_2}$

服从自由度为n1 和n2的F分布。

摘自知乎-herain

参数估计

矩估计

样本矩代替总体矩从而估计参数

原理：类似于大数定律，样本数足够大时，样本均值会收敛于总体期望

(随机变量的一阶原点矩是期望，二阶中心矩是方差)

最大似然估计法

按照最大可能性的准则进行推断

即$Max \space L(p)$->$\hat{p}$（p的最大估计值）

若总体分布的概率密度函数为$P(X)$, 则似然函数为$L(p)=\Pi_{i=1}^nP(x_i)$

总结最大似然和贝叶斯

贝叶斯：贝叶斯推断方法是将未知参数看做是一个随机变量，他具备某种先验分布。在已知观测数据 $x$的基础上，可以利用贝叶斯公式来推导后验概率分布$p_{\theta|X}(\theta|x)$,这样就同时包含人的先验知识以及观测值$x$所能提供的关于$\theta$的新信息。
经典统计：而经典统计方法是将未知参数$\theta$看作是一个常数，但是他是未知的，那么，这就需要去估计他了。经典统计的目标就是提出参数$\theta$的估计方法，并且保证其具有一定的性质。
最大似然是一种基于经典统计的方法, 多次实验后寻找使似然函数$L(X;\theta)$取最大值的参数$\theta$(似然函数$L(x_1,x_2,…,x_n;\theta)$指的是随机变量$X$取到指定的这一组样本值：$x_1,x_2,…,x_n$时的概率大小。当未知的待估计的参数$\theta$取不同的值时，计算出来的概率的值会发生变化)
最大似然MLE解释：随机变量的概率分布已知（如正态分布），但分布的参数未知，需要我们去估计，把它记作$\theta$，需要我们去估计这个参数。->似然函数->让似然函数$L(X;\theta)$能娶到最大值的$\theta$
详情见Maximum Likelihood
估计量的优良性准则
无偏性
有效性
相合性

假设检验

Hypothesis Evaluation
总结起来，$p$值就是对于观察到的数据$T_{obs}$，能获得的拒绝$H_0$的最小的显著性水平$\alpha$。也可以简单说成是错误地拒绝了$H_0$的概率。也就是Type 1 Error(第一类错误)。

复习概率论

本博客所有文章除特别声明外，均采用 CC BY-SA 4.0 协议，转载请注明出处！

Bayesian_Review 上一篇

some_interesting 下一篇

Review_of_probability_theory