Skip to content

数理统计的基本概念

约 1623 个字 预计阅读时间 8 分钟

数理统计学是一门以数据为基础的科学,可以定义为收集数据、分析数据和由数据得出结论的一组概念、原则和方法。

例如,规定灯泡寿命低于 1000h 的为次品,如何确定产品的次品率?由于灯泡寿命是破坏性试验,不可能把整批灯泡逐一检测,只能抽取一部分作为样本进行检验。以样本的信息来推断总体的信息,这是数理统计学研究的问题之一。

随机样本和统计量

  • 总体: 研究对象的全体 population
  • 个体: 总体中的成员
  • 总体容量: 总体中包含的个体数量
  • 有限总体: 容量有限的总体
  • 无限总体: 容量无限的总体
    • 通常将容量非常大的总体也当作无限总体处理

总体的某个指标 \(X\) 对于不同个体来说可能有不同取值,这些取值可以构成一个分布,因此可以将 \(X\) 看作一个随机变量。假设 \(X\) 的分布函数为 \(F(X)\) ,我们可称 \(X\)\(F(X)\) 为总体。

如果我们关心总体的多个指标,则可以用多维随机变量 \((X_1, X_2,..., X_d)\) 来表示总体。

数理统计的主要任务是从总体中抽取一部分个体,根据这部分个体的数据对总体分布或其中的位置参数给出推断,被抽取的部分个体被称为总体的一个样本,被抽取的个体数量称为样本容量

  • 随机样本: 从总体中随机取n个个体,称为一个随机样本
  • 简单随机样本: 满足以下两个条件的随机样本 \((X_1, X_2, ...,X_n)\) 称为容量是 n 的简单随机样本
    • <1, 代表性> 每个 \(X_i\)\(X\) 同分布
    • <2, 独立性> \(X_1, X_2, ...,X_n\) 是相互独立的随机变量

如果总体的分布函数为 \(F(x)\),那么根据以上定义,样本的联合分布函数为:

\[ F_n( x_1, x_2, ..., x_n)=\prod _{i=1}^n F(x_i) \]

如果总体具有连续型分布,其密度函数为 \(f(x)\) ,那么样本的联合密度函数为:

\[ f_n( x_1, x_2, ..., x_n)=\prod _{i=1}^n f(x_i) \]

[定义] 设 \(X_1, X_2, ..., X_n\) 是来自总体 \(X\) 的一个样本,\(g(X_1, X_2,..., X_n)\) 是样本的函数,若 \(g\) 不包含未知参数,则称 \(g(X_1, X_2,..., X_n)\) 是一统计量

在统计学中,根据不同目的有以下重要统计量:

  • 样本均值
    • \(\bar{X}=\frac{1}{n}\sum _{i=1}^n X_i\)
    • \(E(\bar{X}) = E(X), \ \ D(\bar{X}) = \frac{1}{n}D(X)\)
  • 样本方差
    • \(S^2= \frac{1}{n-1}\sum_{i=1} ^n (X_i-\bar{X})^2 = \frac{1}{n-1}\left (\sum_{i=1} ^n X_i^2 -n\bar{X}^2 \right)\)
    • \(E(S^2) = D(X)\)
  • 样本标准差
    • \(S=\sqrt{S^2}\)
  • 样本k阶(原点)矩
    • \(A_k =\frac{1}{n}\sum_{i=1} ^n X_i^k\)
  • 样本k阶中心矩
    • \(B_k =\frac{1}{n} \sum_{i=1} ^n (X_i- \bar{X})^k\)

其中,总体方差的估计可以用 \(S^2\)\(B_2\) ,区别在于以样本方差作为总体方差估计是无偏估计,但以2阶中心距作为总体方差估计是有偏估计

统计量都是随机变量,每次观察所得到的值可能不相同。但是总体的数字特征是一个定值,这是二者之间的主要区别。

对于正态抽样,样本均值和样本方差独立

重要抽样分布

\(\chi^2\) 分布

\(X_1, X_2,..., X_n\) 为独立同分布的随机变量,且都服从正态分布 \(N(0,1)\) (标准正态分布),记:

\[ Y=\sum _{i=1}^n X_i^2 \]

\(Y\) 服从自由度为 \(n\)\(\chi^2\) 分布,记为 \(Y\sim \chi^2(n)\),其密度函数为:

\[ f_{\chi^2} (x)=\begin{cases} \frac{1}{2^{n / 2}\Gamma(n / 2)}x^{\frac{n}{2}-1} e^{-\frac{x}{2}}, & x\gt 0\\ 0, & \text{其他} \end{cases} \]

密度函数不用记,知道大概样子即可

自由度为随机变量独立的个数

kafangfenbumiduhanshu.png

  • <1> 可加性:相互独立的 \(\chi^2\) 分布 \(Y_1\sim \chi^2(m), Y_2\sim \chi^2(n)\)
    • \(Y_1+ Y_2\sim \chi^2 (m+n)\)
  • <2> 数学特征\(Y\sim \chi^2(n)\)
    • \(E(Y)=n, Var(Y)=2n\)
  • <3> 分位数:给定整数 \(0\lt \alpha \lt 1\)
    • 满足条件 \(P(\chi^2 \gt \chi_\alpha ^2(n))=\int _{\chi^2 _\alpha(n)} ^{+\infty} f_{\chi^2}(x)dx =\alpha\)\(\chi_\alpha^2(n)\)\(\chi^2(n)\) 分布上 \(\alpha\) 分位数
    • 使用时查表即可

t 分布

设相互独立的变量 \(X\sim N(0,1), Y\sim \chi^2(n)\) , 则称随机变量:

\[ t= \frac{X}{\sqrt{Y/n}}\]

为自由度为 \(n\) 的 t 分布,记为 \(t\sim t(n)\)

t 分布的密度函数同样不用记,但是要知道长什么样:

tfenbumiduhanshu.png

  • <1> t 分布的密度函数是偶函数,关于 y 轴对称
  • <2> 当 n 足够大时(\(\ge 45\)),t 分布近似于标准正态分布 \(N(0,1)\)
  • <3> 分位数:同样查表
    • \(t_{1-\alpha}(n) = -t_\alpha (n)\)

F 分布

设独立变量 \(U\sim \chi^2(n_1), V\sim \chi^2 (n_2)\) ,则称随机变量:

\[ F= \frac{ U / n_1}{ V / n_2 } \]

为服从第一自由度为 \(n_1\) ,第二自由度为 \(n_2\) 的 F 分布,记为 \(F\sim F(n_1, n_2)\)

ffenbumiduhanshu.png

  • <1> \(F\sim F(n_1, n_2) \ \Rightarrow \frac{1}{F} \sim F(n_2, n_1)\)
  • <2> 若 \(X\sim t(n)\) ,则 \(X^2 \sim F(1,n)\)
  • <3> 分位数 : 同样查表,但要注意 \(F_{1-\alpha}(n_1, n_2) = \frac{1}{F_\alpha( n_2, n_1)}\)
    • 对于较大的分位数,通常利用这个公式计算

正态整体下的抽样分布

  • <1> \(\bar{X}\sim N(\mu, \frac{\sigma^2}{n})\)
  • <2> \(\frac{\sum_{i=1}^n (X_i- \bar{X})^2}{\sigma ^2} =\frac{(n-1)S^2}{ \sigma^2}\sim \chi^2 (n-1)\)
    • \(\frac{(n-1)^2 D(S^2)}{ \sigma^4} = 2(n-1)\Rightarrow D(S^2) =\frac{2\sigma^4}{n-1}\)
    • \(\frac{\sum_{i=1}^n (X_i- \mu)^2}{\sigma ^2} = \chi^2 (n)\)
  • <3> \(\bar{X}\)\(S^2\) 相互独立
  • <4> \(\frac{\bar{X}-\mu}{ S / \sqrt{n} } \sim t(n-1)\)
一点简单的证明

yidianjiandandzhengm.png

\(X_1, X_2, ..., X_{ n_1}\)\(Y_1, Y_2, ..., Y_{ n_2}\) 分别为来自于正态总体 \(N(\mu_1, \sigma_1^2)\)\(N(\mu_2, \sigma_2^2)\) 的两个相互独立的简单随机样本,则它们的样本方差和样本均值有如下关系:

\[\begin{array}c (1) & \frac{S_1^2}{ S_2^2} / \frac{\sigma_1^2 }{ \sigma_2^2}\sim F(n_1 -1, n_2-1) \\ (2) & \frac{(\bar{X} - \bar{Y})- (\mu_1 -\mu_2)}{\sqrt{\frac{\sigma_1 ^2}{n_1} + \frac{\sigma_2^2}{ n_2}}} \sim N(0,1) \end{array}\]

\(\sigma_1^2 = \sigma_2^2 = \sigma^2\) 时:

\[\begin{array}l \frac{(\bar{X}-\bar{Y})- (\mu_1 -\mu_2)}{ S_\omega \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}} \sim t(n_1 +n_2 -2) \\ S_\omega^2= \frac{(n_1 -1) S_1^2 +(n_2-1) S_2^2}{ n_1+ n_2 -2} \end{array}\]

\(S_\omega\) 其实就是两个样本方差按照自由度的加权平均

Comments: