数理统计是对随机现象统计规律归纳的研究,它与概率论在研究方法上有明显的差异。具体而言,我们在概率论中总是假设一个随机变量的分布已知,而在现实里,我们可能很难知道一个随机事件服从的分布,或者知道了对应的分布,但不确定其中参数的取值。在这些场景中,我们需要用到数理统计的知识和方法。也就是说,进入了从理论到实际应用的阶段

比如说服装厂为了确定各种尺码的生产比例,调查人们身长的分布,从成年男性中随机抽取100人,得到他们的身长数据

1、通过身长数据推断男性成人身长的概率密度——有数据,不知道分布

2、若已知服从正态分布,要估计参数的值 ——有数据有分布,不知道参数——参数统计

  • 数理统计的内容大致分为两类:
  • 研究如何有效地收集随机数据
  • 研究如何有效地分析已获得的随机数据

总体与样本

总体

  • 研究对象的全体称为总体(通常具体指研究对象的某项数量指标),总体中每一个成员称为个体
  • 研究某市小学生的身高和体重,那么该市全体小学生的身高和体重就是总体,每个小学生的身高和体重就是个体
  • 如果一个总体包含的个体有限,那么就称为有限总体;反之,称为无限总体
  • 数理统计中,我们用随机变量或分布函数描述一个总体(或者说,该总体的某种特征或数量指标;因为我们真正关心的并不是总体本身,而是其某一数字特征)

样本

  • 为了对总体进行研究,通常从总体中随机抽取一些个体,这些个体称为样本,这种随机抽得样本的过程称为随机抽样或简称为抽样。样本中个体的数量称为样本容量

  • 假设对总体进行了次观测,得到一组数据,称为样本观测值样本值,统计学的工作就是利用样本值来对总体分布中的未知成分进行推断。比如研究一个物体的长度时,进行了次观测获得了一组容量为的样本值,那么就要通过这个值来对物体长度进行合理的估计

  • 样本值具有二重性

    • 一次抽样获得的样本值是一组完全确定的数值
    • 受各种随机因素的影响,不同抽样中获得的样本值可能会发生变化
    • 所以我们将样本看作一组随机变量,具体某次观测时,获得其数值为
    • 样本的所有可能取值的全体称为样本空间,记为,一个样本值就是其中的一个样本点
  • 为了使样本能很好地反映总体的特征,对随机抽样提出如下两个要求:

    • 代表性:样本能够代表总体,也就是要样本的每个分量和总体具有相同分布
    • 独立性:样本的所有分量相互独立
    • 满足上述两个要求的样本称为简单随机样本,也简称为样本
  • 设总体的分布函数为,则

    • 样本的分布函数为
    • 若总体是连续型随机变量,其概率密度函数为,则样本的密度函数为

统计量与抽样分布

在获得样本之后,就要对总体的未知成分进行推断,这需要对样本进行加工整理,从中提取有用信息。而统计量是对样本中信息的提取和抽象,从数学角度来说,统计量是样本的函数。

统计量

  • 定义:若样本的函数不含任何未知参数,则称其为一个统计量,称为统计量的一个观测值
  • 统计量中不含任何未知量,也就是说一旦有了样本,就可以计算出统计量。
  • 有定义可知,统计量是一个随机变量,完全由样本确定

常用统计量

为总体中抽取的一个样本

  • 样本均值 .

  • 样本方差

  • 修正样本方差:

  • 样本极差:

  • 样本标准差

  • 样本阶原点矩

  • 样本 阶中心矩

  • 经验分布函数 : 用表示样本中不大于的随机变量个数,定义经验分布函数为

  • 上面提到,样本具有二重性,则统计量作为样本的函数 同样具有二重性。

    • 具体观察时,统计量是具体的观测值
    • 脱离具体观测时,统计量可以被看作随机变量
  • 统计量的分布称为抽样分布。通常确定一个统计量的精确分布非常困难,只有在正态总体的情况下有比较好的结论

正态总体

首先将介绍数理统计学中的三大分布: ,以及对正态分布进行补充。

分布

  • 设随机变量 独立同分布且每个 ,则称随机变量 服从自由度为分布,记为.

这里的自由度是指和式中独立随机变量的个数,可以证明的分布密度为

上侧分位数


上侧分位数

分位点

分位点的定义:随机变量,对给定的数,满足的实数的上分位点

而当时,记为,也就是上图中阴影部分的横坐标左边界

也就是上图中阴影部分面积为

性质

  • 分布可加性 若,且独立,则
  • 期望与方差 若,则
  • 大样本分位数当 足够大 ( ) 时,有 ,其中

分布

  • 构造,且相互独立,则称随机变量

服从自由度为分布,记为.

  • 概率密度为
  • 基本性质

    • 关于纵轴对称
    • 的极限为的密度函数,即
    • 分布的上分位点记为

    上侧分位数与上侧分位表

可以发现,

分布

  • 构造 ,且 相互独立,则称随机变量

服从自由度为分布,记为,其中称为第一自由度,称为第二自由度。

  • 概率密度
  • 分位点

  • 分布的上分位点记为


F 分布的图像以及上侧分位数
  • 性质: 证明: 若 那么

正态分布总体的抽样定理

对于标准正态分布有:

样本均值和样本方差的分布

如果总体服从正态分布 ,那么 个样本 的样本均值 和样本方差 服从以下条件:

  1. 独立性: 相互独立
  2. 标准化样本分布:
  3. 样本方差服从:
  4. 样本方差和样本均值服从:

样本均值之差和样本方差之比的分布

如果另一个独立的正态总体 的样本均值和样本方差为: 那么有:

  1. 标准化修正样本方差之比:
  2. 两者正态总体的方差相同 时: