八 参数估计

统计学与概率论的区别就是归纳和演绎,前者通过样本推测总体的分布,而后者已知总体分布去研究样本。因此参数估计则是归纳的过程,参数估计有两种形式:点估计区间估计(点估计和区间估计都是对于未知参数的估计,而点估计给出的是一个参数可能的值区间估计给出的是参数可能在的范围)。

8.1 点估计

点估计的概念

  • 参数估计

    • 是总体的一个样本,其分布函数为,其中为未知参数,为参数空间,若统计量可作为的一个估计,则称其为的一个估计量,记为,即
    • 注:分布函数也可用分布律(离散型)或密度函数(连续性)代替
  • 点估计

    • 是样本的一个观测值,则称为的估计值
    • 由于是实数域上的一个点,现用它来估计,故称这种估计为点估计
    • 经典方法
      • 矩估计法
      • 极大似然估计法

点估计的方法

矩估计

  • 用样本矩作为总体同阶矩的估计,即用样本矩的函数去替换相应的总体矩函数

也就是说,先根据具体分布条件,将 求出来,是一个关于未知参数 的式子,然后将上式代入,解出

极大似然估计

  • 思想:一件事情发生或不发生,如果试验一次就发生了,给我们的感觉就是发生的概率比不发生要大。

  • 一般来说,事件发生的概率与参数有关,取值不同,也不同,所以应该记事件发生概率为,若发生了,则认为此时的值应是在中使得达到最大的那一个

  • 对离散型随机变量,现有样本观察值,如何用极大似然估计来估计

  • ,则

根据极大似然思想, 的值应使得样本联合分布律 达到最大。连续型同理。

  • 将样本的联合概率函数看成 的函数,用 表示,简记为

称为样本的似然函数。若统计量满足

则称最大似然估计,简称MLE(maximum likelihood estimate).

求极大似然估计的步骤
  • 做似然函数
  • 做对数似然函数
  • 列方程:对参数向量求偏导,令其为 0

若有解,则解就是

最小均方误差估计

在样本量一定时,评价一个点估计好坏的度量指标可使用估计值与参数真值的距离函数,最常用的是距离平方,由于具有随机性,对该函数求期望即得均方误差

其中,如果的无偏估计,则,此时用均方误差评价点估计与用方差是完全一样的。如果如果不是的无偏估计,就要看其均方误差,即不仅要看其方差大小,还要看其偏差大小。

定义设有样本,对待估参数,设有一个估计类,如果对该估计类中另外任意一个的估计,在参数空间上都有,称是该估计类中的一致最小均方误差估计。

最小方差无偏估计

定义的一个无偏估计,如果对另外任意一个的无偏估计,在参数空间上都有,则称的一致最小方差无偏估计,简记为UMVUE

判断准则的一个无偏估计,.如果对任意一个满足,都有

的UMVUE.

贝叶斯估计

区别于频率学派,在统计推断中贝叶斯用到了三种信息:总体信息、样本信息和先验信息(频率学派只用了前两种),其中:

  • 总体信息:总体信息即总体分布或总体所属分布族提供的信息,如,若已知总体是正态分布,则可以知道很多信息;
  • 样本信息:样本信息即抽取样本所得观测值提供的信息,如,在有了样本观测值后,可以根据它知道总体的一些特征数;
  • 先验信息:若把抽取样本看作做一次试验,则样本信息就是试验中得到的信息,如,在一次抽样后,这第一次的抽样就是先验信息。先验信息来源于经验和历史资料。

回顾贝叶斯公式:设是样本空间的一个分割,中的一个事件,,则

贝叶斯密度函数形式
  • 在参数分布已知(已假设)的情况下,表示随机变量取某个给定值时总体的条件概率函数,(参考);

  • 任一未知量都可以看作随机变量,可用一个概率分布去描述,这个分布成为先验分布,该先验分布,(参考);

  • 贝叶斯的观点,样本的产生需分两步:

  • 从先验分布产生一个样本

  • 中产生一组样本。

此时,样本联合条件概率函数(参考)为

  • 因为未知,是从先验分布中产生的,所以需要考虑它的发生概率,样本和参数联合分布(参考)为
  • 因为目的是对进行推断,所以在有样本观测值之后,可依据作出推断,按照乘法公式(参考1.5.2节),可分解为

其中,的边际概率函数,类比

所以可通过条件概率推断的分布

该分布成为后验分布它其实是利用总体和样本对先验分布调整的结果,比更接近的实际情况(机器学习里的贝叶斯模型就是基于这样的原理)

8.2 估计量的评选标准

无偏性

  • 的估计量,若,则称的无偏估计量

实际意义就是说,用估计量来对未知参数进行估计,有时会高于,有时会低于,但平均下来还是相等的,也就是没有系统误差

  • 一些性质

  • 是来自总体的一个样本,那么阶样本原点矩是总体样本原点矩 (如果存在的话)的无偏估计,即

  • 总体 的方差 存在且有限, 是来自总体的一个样本,则修正样本方差 是总体方差 无偏估计

同时可见,样本中心二阶矩不是方差的无偏估计,

但有,我们称渐进无偏估计

有效性

  • 分别是参数的两个无偏估计即,若,则称有效,也就是比较(称为均方误差,记为

一致性

  • 的估计量,若,则称的一致估计量

相合性

根据格里纹科定理,随着样本量不断增大,经验分布函数逼近真实分布函数,即设为未知参数,的一个估计量,是样本容量,若对任何一个,有

则称为参数的相合估计。

定理1的一个估计量,若

的相合估计。

定理2分别是的相合估计,的连续函数,则的相合估计。

矩估计一般都具有相合性:

  • 样本均值是总体均值的相合估计;
  • 样本标准差是总体标准差的相合估计;
  • 样本变异系数是总体变异系数的相合估计。

渐进正态性(MLE)

在很一般条件下,总体分布 中的 的 MLE 具有相合性和渐进正态性,即 ,其中 为样本容量, 为费希尔信息量。

充分性(UMVUE)

  • 任一参数的UMVUE不一定存在,若存在,则它一定是充分统计量的函数;
  • 的某个无偏估计不是充分统计量的函数,则通过条件期望可以获得一个新的无偏估计,且方差比原估计的方差要小;
  • 考虑的估计时,只需要在其充分统计量的函数中寻找即可,该说法对所有统计推断都是正确的,这便是充分性原则。

8.3 区间估计

前面是用一个点来估计未知参数,那么现在尝试构造一个区间来估计参数的范围

区间估计的相关概念

  • 是总体的未知参数,是来自总体的样本,若对给定值,存在两个统计量,使得

则称区间 ,是 置信度置信区间置信下限置信上限,而 显著性水平

区间估计的方法

枢轴量法

Step 1:设法构造一个样本和 的函数 使得 的分布不依赖于未知参数,称具有这种性质的 枢轴量

Step 2:适当地选择两个常数c,d,使对给定的,有

(在离散场合,将上式等号改为

Step 3:假如能将进行不等式等价变形化为,则有

表明同等置信区间。

Note

注:满足条件的c和d有很多,最终选择的目的是希望平均长度尽可能短,但在一些场合中很难做到这一点,因此可以选择c和d,使得两个尾部概率各为,即

得到等尾置信区间。

Example

例:设是来自均匀总体的一个样本,试对设定的给出同等置信区间。

解:三步法:

  • 已知的最大似然估计为样本的最大次序统计量,而的密度函数为

它与参数无关,故可取作为枢轴量

  • 由于的分布函数为,故,因此可以选择适当的c和d满足
  • 的条件下,当时,取最小值,所以置信区间

正态总体参数的区间估计

  • 独立同分布 ,给定 ,由观测值 ,求出样本均值 置信区间

的估计

已知

由于的点估计量为,且,构造

则对于给定的置信度,由分位点的概念知,存在一个标准正态分布上的分位点,使得

因为加了绝对值所以是,解得

所以的置信度为的置信区间为

当然的置信区间并不唯一

都是置信区间,只是时区间长度最短

由上述过程可以总结出,求正态总体参数置信区间的解题步骤: - 构造样本的函数,要求仅含待估参数且分布已知——枢轴量 - 令枢轴量落在分位点确定的区间中的概率为给定的置信度()。要求区间按几何对称或概率对称 - 解不等式得随机的置信区间 - 由观测值及值查表计算得所求置信区间

未知

从而有

解得

所以的置信度为的置信区间为

的估计

未知

引进

对于给定的置信度,可以有这样的构造

于是有

从而

所以置信区间为

已知

引进

作为枢轴变量:

区间估计为:

两个正态总体均值差的置信区间:

独立同分布 独立同分布 ,两样本独立。给定置信度

的置信区间

未知

那么有

可解得得置信区间

已知

相当于是求,类似单个正态总体已知时求的区间估计

的置信区间

未知

引进

根据分布图像分位点可知

可解得的置信区间为

已知

引进

置信区间为: