思考题

  1. 随机变量的数学本质是什么
  2. 分布函数的本质是什么
  3. 分布函数可以计算哪些事件?
  4. 分布函数的3条性质来源是什么?
  5. 离散型随机变量的定义
  6. 如何描述离散型随机变量的概率分布
  7. 均匀分布、指数分布、正态分布的概率分布特征与应用场合?

2.1 随机变量及分布函数

随机变量

从数学上讲,随机变量是试验结果的一个实值函数。将求事件的概率转化成求随机变量 在某个 的子集上取值的概率。

定义2.1.1 (随机变量) 设 是概率空间(Probability Space), 是定义在 上的单值实函数, 若对任意实数 , 有

是概率空间 随机变量(Random Variable), 记为 .

对一个随机变量,可以定义数学上的一些性质,如均值和方差。

若一个随机变量的值域为一个有限集合或最多为可数无限集合,则称这个随机变量为 离散的

分布函数

定义2.1.2 (分布函数) 设 是定义在概率空间 上的随机变量, 是任 意实数, 称函数

为随机变量 分布函数(Cumulative Distribution Function), 也 记为 .

从直观上讲,分布函数就是各种概率分布图像下的面积表示函数,其导数就表示落在该点的概率。

分布函数具有以下性质:

  1. 单调不降函数;
  2. 右连续函数;

特别的当 为离散或者连续的情况下:

2.2 离散型随机变量

若一个随机变量的值域(随机变量的取值范围)为一个有限集合或至多为可数无限集合,且满足概率的非负性和可加性,那么称这个随机变量为 离散的

分布律

离散随机变量有一个分布律(Distribution Law),它对于离散变量的每一个取值,给出一个概率:

后面为了方便起见,会把 “{}” 忽略掉,但是实际严格写作中还是要把花括号带上。

分布律有两个直观描述:

  • 质量分布图

质量分布图
  • 概率函数图

函数概率图

伯努利随机变量

也称为0-1分布,它的分布列十分简单:

二项分布随机变量

它的随机变量仅关注 重伯努利试验的结果发生次数。具有三个满足的特性:独立性、重复性、两个结果

若随机变量 的分布律为

称随机变量 服从二项分布(Binomial Distribution), 记为 .

泊松随机变量


泊松分布的引出例子

这样看,有没有导出 的感觉,实际上,可以认为 泊松分布就是二项分布的极限分布。

在上式令 ,得到了泊松分布:

服从参数为 的泊松分布(Poisson Distribution). 记为 (1) 当 够大, 较小时 一般

超几何分布

模型设袋中有 个球, 其中有 个红球, 个白球, 从袋中任 取 个球, 其中的红球个数 的分布律为

服从超儿何分布(Hyper geometric Distribution).

几何分布

不断的做二项试验直到第一次成功的概率分布列

服从几何分布(Geometric Distribution).

帕斯卡分布(负二项分布)

不断的做二项试验直到第次成功,经历了次的概率分布列 随机变量 的分布列为

称g服从负二项分布(Negative Distribution).

2.3 连续型随机变量

当一个随机变量 的取值变成连续,使用离散型变量常用的概率表达方式:分布列变得不太现实,所以需要定义连续型随机变量的分布函数 和概率密度函数

  • 定义(CDF, PDF): 设随机变量的分布函数为,若存在非负可积函数,对于任意实数 均有: 那么称 为随机变量 的累积分布函数 (CDF),而函数 的概率密度函数(PDF)
    • 非负性:
    • 归一性:

PDF,具有跟概率的相似性质,如非负性,归一性;CDF,作为概率的累计和,具有绝对连续性,几乎处处可导。

值得注意的是, 因为分布函数的定义是一段区间内的概率取值可能性, 所以如果使用 CDF 的连续性对区间取极限的话, 就会得到连续型随机变量单点的取值概率为0的结论,即 。所以 ,但是其逆不为真。

均匀分布

从名字上看,均匀分布就是在取值范围内均匀取到的概率分布。具体而言,如果一个PDF为:

那么称随机变量在区间上满足均匀分布,记为。 这种概率分布有如下特点:

  • 随机变量上取值的概率为1;
  • 随机变量落在的子区间的概率与子区间位置无关,仅与测度成正比。

指数分布

DPF为:

其中,称随机变量服从参数为的指数分布,记为 这种分布的特点是它具有无后效性,也就是类似于黄金分割的三个长度两两之比恒等。即:

正态分布

设随机变量 的概率密度函数为

其中 是常数, 则称随机变量 服从参数为 的 正态分布(Normal Distribution)或高斯分布(Gaussian Distribution), 记为 。 特别地, 当 时, 其概率密度函数为

则称随机变量 服从标准正态分布, 即

  • 参数 确定了正态分布曲线的中心位置,称为位置参数
  • 参数 确定了曲线的形状,值越大,曲线越平坦,称为形状参数

对于标准的正态分布,对应的CDF为: 有了标准正态分布取值表,我们可以通过下面公式计算任意正态分布的概率。若随机变量 , 则

分布

设随机变量 的概率密度函数为

其中 , 称 服从 分布(Gamma Distribution), 记为

  • 指数分布是特殊的 分布
  • 为正整数时, 是排队论中最常用的等待时间的分布——Erlang(爱尔朗)分布

混合(奇异)型随机变量

当CDF是由分段函数凑成时(甚至是离散型的和连续型的糅合在一起),称为混合型或奇异型随机变量