八 参数估计
统计学与概率论的区别就是归纳和演绎,前者通过样本推测总体的分布,而后者已知总体分布去研究样本。因此参数估计则是归纳的过程,参数估计有两种形式:点估计和区间估计(点估计和区间估计都是对于未知参数的估计,而点估计给出的是一个参数可能的值,区间估计给出的是参数可能在的范围)。
8.1 点估计
点估计的概念
- 
参数估计 
- 设X1,X2,...,Xn是总体X的一个样本,其分布函数为F(x;θ),θ∈Θ,其中θ为未知参数,Θ为参数空间,若统计量g(X1,...,Xn)可作为θ的一个估计,则称其为θ的一个估计量,记为θ^,即θ^=g(X1,...,Xn)
- 注:分布函数F(x;θ)也可用分布律(离散型)或密度函数(连续性)代替
 
- 
点估计 
- 若x1,x2,...,xn是样本的一个观测值,则称为θ的估计值
- 由于g(x1,x2,...,xn)是实数域上的一个点,现用它来估计θ,故称这种估计为点估计
- 经典方法
 
点估计的方法
矩估计
- 用样本矩作为总体同阶矩的估计,即用样本矩的函数去替换相应的总体矩函数
E(Xk^)=n1i=1∑nXik也就是说,先根据具体分布条件,将 E(Xk) 求出来,是一个关于未知参数 θ 的式子,然后将上式代入,解出 θ^
极大似然估计
- 
思想:一件事情发生或不发生,如果试验一次就发生了,给我们的感觉就是发生的概率比不发生要大。 
- 
一般来说,事件A发生的概率与参数θ∈Θ有关,θ取值不同,P(A)也不同,所以应该记事件A发生概率为P(A∣θ),若A发生了,则认为此时的θ值应是在Θ中使得P(A∣θ)达到最大的那一个 
- 
对离散型随机变量P{X=ak∣θ}=Pθ(ak),k=1,2,...,现有样本观察值x1,x2,...,xn,如何用极大似然估计来估计θ? 
- 
记A={X1=x1,...,Xn=xn},则 
P(A∣θ)=Pθ{X1=x1,...,Xn=xn}=i=1∏nPθ(xi)根据极大似然思想, θ 的值应使得样本联合分布律 ∏i=1nPθ(xi) 达到最大。连续型同理。
- 将样本的联合概率函数看成 θ 的函数,用 L(θ;x1,...,xn) 表示,简记为 L(θ)
L(θ)=L(θ;x1,...,xn)=p(x1;θ)p(x2;θ)...p(xn;θ)L(θ)称为样本的似然函数。若统计量θ^=θ^(x1,...,xn)满足
L(θ^)=θ∈ΘmaxL(θ)
则称θ^是θ的最大似然估计,简称MLE(maximum likelihood estimate).
求极大似然估计的步骤
L(θ)=L(x1,...,xn;θ)=i=1∏nf(xi;θ)
lnL(θ)=lnL(x1,...,xn;θ)=i=1∑nlnf(xi;θ)lnL(θ)=lnL(x1,...,xn;θ)=i=1∑nlnf(xi;θ)
dθd[lnL(θ)]=0
若有解,则解就是θ^MLE(X1,...,Xn)

最小均方误差估计
在样本量一定时,评价一个点估计好坏的度量指标可使用估计值θ^与参数真值θ的距离函数,最常用的是距离平方,由于θ^具有随机性,对该函数求期望即得均方误差:
MSE(θ^)=E(θ^−θ)2=E[(θ^−Eθ^)+(Eθ^−θ)]2=E(θ^−Eθ^)2+(Eθ^−θ)2+E(θ^−Eθ^)=02E[(θ^−Eθ^)(Eθ^−θ)]=点估计的方差Var(θ^)+偏差的平方(Eθ^−θ)2
其中,如果θ^是θ的无偏估计,则MSE(θ^)=Var(θ^),此时用均方误差评价点估计与用方差是完全一样的。如果如果θ^不是θ的无偏估计,就要看其均方误差MSE(θ^),即不仅要看其方差大小,还要看其偏差大小。
定义设有样本x1,...,xn,对待估参数θ,设有一个估计类,如果对该估计类中另外任意一个θ的估计θ,在参数空间Θ上都有MSEθ(θ^)≤MSEθ(θ),称θ^(x1,...,xn)是该估计类中θ的一致最小均方误差估计。
最小方差无偏估计
定义设θ^是θ的一个无偏估计,如果对另外任意一个θ的无偏估计θ,在参数空间Θ={θ}上都有Varθ(θ^)≤Varθ(θ),则称θ^是θ的一致最小方差无偏估计,简记为UMVUE。
判断准则设θ^=θ^(x1,...,xn)是θ的一个无偏估计,Var(θ^)<+∞.如果对任意一个满足E(φ(x1,...,xn))=0的φ,都有
Covθ(θ^,φ)=0,∀θ∈Θ,
则θ^是θ的UMVUE.
贝叶斯估计
区别于频率学派,在统计推断中贝叶斯用到了三种信息:总体信息、样本信息和先验信息(频率学派只用了前两种),其中:
- 总体信息:总体信息即总体分布或总体所属分布族提供的信息,如,若已知总体是正态分布,则可以知道很多信息;
- 样本信息:样本信息即抽取样本所得观测值提供的信息,如,在有了样本观测值后,可以根据它知道总体的一些特征数;
- 先验信息:若把抽取样本看作做一次试验,则样本信息就是试验中得到的信息,如,在一次抽样后,这第一次的抽样就是先验信息。先验信息来源于经验和历史资料。
回顾贝叶斯公式:设{B1,B2,...Bn}是样本空间的一个分割,A为Ω中的一个事件,P(Bi)>0,i=1,2,...,n,P(A)>0,则
P(Bi∣A)=∑j=1nP(A∣Bj)P(Bj)P(A∣Bi)P(Bi)
贝叶斯密度函数形式
- 
在参数θ分布已知(已假设)的情况下,p(x∣θ)表示随机变量θ取某个给定值时总体的条件概率函数,(参考P(A∣B)); 
- 
任一未知量θ都可以看作随机变量,可用一个概率分布去描述,这个分布成为先验分布,该先验分布π(θ),(参考P(B)); 
- 
贝叶斯的观点,样本X=(x1,...,xn)的产生需分两步: 
- 
从先验分布π(θ)产生一个样本θ0; 
- 
从p(X∣θ0)中产生一组样本。 
此时,样本X=(x1,...,xn)的联合条件概率函数(参考∑j=1nP(A∣Bj))为
p(X∣θ0)=p(x1,...,xn∣θ0)=i=1∏np(xi∣θ0)
- 因为θ0未知,是从先验分布π(θ)中产生的,所以需要考虑它的发生概率,样本X和参数θ的联合分布(参考∑j=1nP(A∣Bj)P(Bj))为
h(X,θ)=p(X∣θ)π(θ)
- 因为目的是对θ进行推断,所以在有样本观测值X=(x1,...,xn)之后,可依据h(X,θ)对θ作出推断,按照乘法公式(参考1.5.2节),h(X,θ)可分解为
h(X,θ)=π(θ∣X)m(X)其中,m(X)是X的边际概率函数,类比π(θ),
m(X)=∫Θh(X,θ)dθ=∫Θp(X∣θ)π(θ)dθ
所以可通过条件概率π(θ∣X)推断θ的分布
π(θ∣X)=m(X)h(X,θ)=∫Θp(X∣θ)π(θ)dθp(X∣θ)π(θ)
该分布成为θ的后验分布。它其实是利用总体和样本对先验分布π(θ)调整的结果,比π(θ)更接近θ的实际情况(机器学习里的贝叶斯模型就是基于这样的原理)。
8.2 估计量的评选标准
无偏性
- 设θ^=θ^(X1,...,Xn)为θ的估计量,若Eθ^=θ,则称θ^为θ的无偏估计量
实际意义就是说,用估计量θ^来对未知参数θ进行估计,有时会高于θ,有时会低于θ,但平均下来还是相等的,也就是没有系统误差
E(Ak)=E[n1i=1∑nXik]
- 总体 X 的方差 σ2 存在且有限, X1,X2,...,Xn 是来自总体的一个样本,则修正样本方差 S2 是总体方差 σ2 的无偏估计
S∗2E(S∗2)=n−11i=1∑n(Xi−Xˉ)2=n−11i=1∑nXi2−n−1n(Xˉ)2=n−11i=1∑nE(Xi2)−n−1nE(Xˉ)2=n−11i=1∑n(σ2+μ2)−n−1n(nσ2+μ2)=σ2同时可见,样本中心二阶矩S∗2=n1∑i=1n(Xi−Xˉ)2不是方差σ2的无偏估计,
但有E(S∗2)=nn−1σ2→σ2,我们称S∗2为σ2的渐进无偏估计
有效性
- 设θ^i,i=1,2分别是参数θ的两个无偏估计即E(θ^i)=θ,若D(θ^1)<D(θ^2),则称θ^1比θ^2有效,也就是比较E(θ^i−θ)2(称为均方误差,记为M(θ^,θ)=E(θ^−θ)2)
一致性
- 设θ^n=θ^(X1,X2,...,Xn)是θ的估计量,若\ceθn^−>[p]θ,则称θ^n为θ的一致估计量
相合性
根据格里纹科定理,随着样本量不断增大,经验分布函数逼近真实分布函数,即设θ∈Θ为未知参数,θ^n=θ^n(x1,...,xn)是θ的一个估计量,n是样本容量,若对任何一个ϵ>0,有
n→∞limP(∣θ^n−θ∣≥ϵ)=0
则称θ^n为参数θ的相合估计。
定理1设θ^n=θ^n(x1,...,xn)是θ的一个估计量,若
n→∞limE(θ^n)=θ,n→∞limVar(θ^n)=0
则θ^n是θ的相合估计。
定理2若θ^n1,...,θ^nk分别是θ1,...,θk的相合估计,η=g(θ1,...,θk)是θ1,...,θk的连续函数,则η^n=g(θ^n1,...,θ^nk)是η的相合估计。
矩估计一般都具有相合性:
- 样本均值是总体均值的相合估计;
- 样本标准差是总体标准差的相合估计;
- 样本变异系数s/xˉ是总体变异系数的相合估计。
渐进正态性(MLE)
在很一般条件下,总体分布 p(x;θ) 中的 θ 的 MLE θ^n 具有相合性和渐进正态性,即 θ^n∼AN(θ,nI(θ)1) ,其中 n 为样本容量, I(θ)=∫−∞∞(∂θ∂lnp)2p(x;θ)dx 为费希尔信息量。
充分性(UMVUE)
- 任一参数θ的UMVUE不一定存在,若存在,则它一定是充分统计量的函数;
- 若θ的某个无偏估计θ^不是充分统计量T=T(x1,...,xn)的函数,则通过条件期望可以获得一个新的无偏估计θ=E(θ∣T^),且方差比原估计的方差要小;
- 考虑θ的估计时,只需要在其充分统计量的函数中寻找即可,该说法对所有统计推断都是正确的,这便是充分性原则。
8.3 区间估计
前面是用一个点来估计未知参数,那么现在尝试构造一个区间(θ^1,θ^2)来估计参数θ的范围
区间估计的相关概念
- 设θ是总体X的未知参数,X1,...,Xn是来自总体X的样本,若对给定值α∈(0,1),存在两个统计量θ^1(X1,...,Xn),θ^2(X1,...,Xn),使得
P(θ^1<θ<θ^2)=1−α则称区间 (θ^1,θ^2) ,是 θ 的置信度为 1−α 的置信区间, θ^1,θ^2 为置信下限和置信上限,而 α 称显著性水平。
区间估计的方法
枢轴量法
Step 1:设法构造一个样本和 θ 的函数 G=G(x1,...,xn,θ) 使得 G 的分布不依赖于未知参数,称具有这种性质的 G 为枢轴量。
Step 2:适当地选择两个常数c,d,使对给定的α(0<α<1),有
P(c≤G≤d)=1−α
(在离散场合,将上式等号改为≥)
Step 3:假如能将c≤G≤d进行不等式等价变形化为θ^L≤θ≤θ^U,则有
Pθ(θ^L≤θ≤θ^U)=1−α
表明[θ^L,θ^U]是θ的1−α同等置信区间。
注:满足条件的c和d有很多,最终选择的目的是希望平均长度Eθ(θ^U)−θ^L尽可能短,但在一些场合中很难做到这一点,因此可以选择c和d,使得两个尾部概率各为α/2,即
Pθ(G<c)=Pθ(G>d)=α/2
得到等尾置信区间。
 
例:设x1,...,xn是来自均匀总体U(0,θ)的一个样本,试对设定的α (0<α<1)给出θ的1−α同等置信区间。
解:三步法:
- 已知θ的最大似然估计为样本的最大次序统计量x(n),而x(n)/θ的密度函数为
p(y;θ)=nyn−1,0<y<1它与参数θ无关,故可取x(n)/θ作为枢轴量G。
- 由于x(n)/θ的分布函数为F(y)=yn,0<y<1,故P(c≤x(n)/θ≤d=dn−cn),因此可以选择适当的c和d满足
dn−cn=1−α
- 在0≤c<d≤1及dn−cn=1−α的条件下,当d=1,c=nα时,Eθ(θ^U)−θ^L取最小值,所以[x(n),x(n)/nα]是1−α置信区间
 
正态总体参数的区间估计
- 设 X1,...,Xn 独立同分布 ∼N(μ,σ2) ,给定 α ,由观测值 ξ1,⋯,ξn ,求出样本均值 μ 的 1−α 置信区间
μ 的估计
σ2 已知
由于μ的点估计量为Xˉ,且Xˉ~N(μ,nδ2),构造
U=defσ/nXˉ−μ~N(0,1)
则对于给定的置信度1−α,由分位点的概念知,存在一个标准正态分布上的2α分位点u2α,使得
P{∣σ/nXˉ−μ∣<u2α}=1−α
因为加了绝对值所以是u2α,解得
P{Xˉ−u2αnσ<μ<Xˉ+u2αnσ}=1−α
所以μ的置信度为1−α的置信区间为
(Xˉ−u2αnσ,Xˉ+u2αnσ)
当然μ的置信区间并不唯一
∀θ,(Xˉ−uθαnσ,Xˉ+u(1−θ)αnσ)
都是μ的1−α置信区间,只是θ=21时区间长度最短
由上述过程可以总结出,求正态总体参数置信区间的解题步骤:
- 构造样本的函数,要求仅含待估参数且分布已知——枢轴量
- 令枢轴量落在分位点确定的区间中的概率为给定的置信度(1−α)。要求区间按几何对称或概率对称
- 解不等式得随机的置信区间
- 由观测值及α值查表计算得所求置信区间
σ2 未知
由
T=S∗/nXˉ−μ~t(n−1)
从而有
P{∣S∗/nXˉ−μ∣<t2α(n−1)}=1−α
解得
P{Xˉ−t2α(n−1)nS∗≤μ≤Xˉ+t2α(n−1)nS∗}=1−α
所以μ的置信度为1−α的置信区间为
(Xˉ−t2α(n−1)nS∗,Xˉ+t2α(n−1)nS∗)
σ2 的估计
μ 未知
引进
χ2=σ2(n−1)S∗2∼χ2(n−1)
对于给定的置信度,可以有这样的构造
P{χ2<χ1−2α2(n−1)}=2αP{χ2>χ2α2(n−1)}=2α
于是有
P{χ1−2α2(n−1)<σ2(n−1)S∗2<χ2α2(n−1)}=1−α
从而
P{χ2α2(n−1)(n−1)S∗2<σ2<χ1−2α2(n−1)(n−1)S∗2}=1−α
所以σ2的1−α置信区间为
(χ2α2(n−1)(n−1)S∗2,χ1−2α2(n−1)(n−1)S∗2)
μ 已知
引进
χ2=i=1∑n(σξi−μ)2=σ21i=1∑n(ξi−μ)2−χ2(n)
作为枢轴变量:
P{χ1−2α2(n)⩽σ21i=1∑n(ξi−μ)2⩽χ2α2(n)=1−α}
区间估计为:
χ2α2(n)i=1∑n(ξi−μ)2,χ1−2α2(n)i=1∑n(ξi−μ)2
两个正态总体均值差的置信区间:
设 X1,...,Xn 独立同分布 ∼N(μ1,σ12) , Y1,...,Yn 独立同分布 ∼N(μ2,σ22) ,两样本独立。给定置信度 1−α ,
求 μ1−μ2 的置信区间
σ12=σ22=σ2 未知
T=Sw1/n1+1/n2Xˉ−Yˉ−(μ1−μ2)∼t(n1−1+n2−1)
那么有
P{∣T∣<t2α(n1+n2−2)}=1−α
可解得μ1−μ2得置信区间
(Xˉ−Yˉ−t2α(n1+n2−2)Sw1/n1+1/n2,Xˉ−Yˉ+t2α(n1+n2−2)Sw1/n1+1/n2),其中   Sw2=n1+n2−2(n1−1)S1∗2+(n2−1)S2∗2
σ1,σ2 已知
相当于是求Zi=Xi−Yi∼N(μ1−μ2,n1σ12+n2σ22),类似单个正态总体σ2已知时求μ的区间估计
求 σ22σ12 的置信区间
μ1,μ2 未知
引进
F=S2∗2/σ22S1∗2/σ12∼F(n1−1,n2−1)
根据F分布图像分位点可知
P{F1−2α(n1−1,n2−1)<F<F2α(n1−1,n2−1)}=1−α
可解得σ22σ12的置信区间为
(F2α(n1−1,n2−1)S1∗2/S2∗2,  F1−2α(n1−1,n2−1)S1∗2/S2∗2)
μ1,μ2 已知
引进
F=n1σ12n2σ22.∑j=1n2(Yj−μ2)2∑i=1n1(Xi−μ1)2∼F(n1,n2)
P{F1−2α(n1,n2)<F<F2α(n1,n2)}=1−α
置信区间为:
[n1n2.∑j=1n2(Yj−μ2)2∑i=1n1(Xi−μ1)2⋅F2α(n1,n2)1,n1n2.∑j=1n2(Yj−μ2)2∑i=1n1(Xi−μ1)2⋅F1−2α(n1,n2)1]