均值

Mean 平均值;中心位置

一、基本定义

均值是描述一组数或一个随机变量中心位置的量。根据对象不同,均值至少有两种常见含义:

二者都刻画“中心”,但前者来自实际样本,后者来自概率模型。

二、样本均值

给定 N 个已经观察到的样本值 x1,,xN,样本均值为

μ=x1++xNN.

例如五个新生年龄为 18,17,18,19,17,则

μ=18+17+18+19+175=17.8.

样本均值只说明这一次样本实际呈现的平均水平。换一组样本,即使总体概率规律不变,样本均值也可能变化。

三、概率均值与期望

若随机变量 x 可能取值为 x1,,xn,对应概率为 p1,,pn,且 pi0ipi=1,则概率均值为

m=E[x]=p1x1++pnxn=px.

例如新生年龄为 17,18,19 的概率分别是 .2,.5,.3,随机抽一名新生的期望年龄是

m=E[x]=(.2)17+(.5)18+(.3)19=18.1.

这与上一节的 17.8 不冲突:17.8 是已经抽到五个人后的样本均值,18.1 是概率模型下尚未抽样时的长期中心。

连续随机变量用概率密度 p(x) 表示时,均值写成积分:

m=E[x]=xp(x)dx.

四、大数定律

如果样本来自同一概率模型,并满足相应独立或弱依赖条件,样本均值会随着样本量增加而趋近期望。公平硬币中令正面为 1、反面为 0,则

E[x]=121+120=12.

N 次投掷中正面的比例就是样本均值,大数定律说明它在长期会趋近 12。若采用强大数律的表述,这个收敛是以概率 1 成立的,因此也称为几乎必然收敛。

需要注意的是,长期趋近不等于短期补偿。若投掷相互独立,前面连续出现多次反面,并不会提高下一次正面的概率;下一次正面的概率仍是 12。已经发生的结果只会改变当前有限样本的均值,不会改变独立试验下一次的概率。

五、与方差和标准差

均值给出中心位置,方差衡量取值离中心的平方距离平均,标准差是方差的平方根。样本方差围绕样本均值计算,概率方差围绕期望计算:

S2=1N1i=1N(xiμ)2,σ2=E[(xm)2].

当所有取值都等于同一个常数时,均值等于该常数,方差和标准差都为 0。此时围绕均值没有离散程度,含有除以标准差的标准化表达式不能直接使用。

六、边界条件