Probability Distribution
概率分布描述随机变量可能取哪些值,以及这些值按什么概率出现。它既可以是离散的概率表,也可以是连续的密度曲线;统一的入口是分布函数 。
定义
若 是离散随机变量,取值为 ,对应概率为 ,则
若 是连续随机变量,则通常用概率密度函数 描述分布:
连续分布中,一个精确点的概率为零:
真正有概率意义的是区间:
分布函数与密度
分布函数 总是单调不减、右连续,并满足
对连续分布,密度是分布函数的导数:
在 可导的位置成立。反过来,密度曲线下从 到 的面积就是区间概率。需要区分: 本身是单位长度上的概率强度,不是 。
均匀分布例子
若年龄在 到 之间均匀分布,则每个长度相同的区间具有相同概率。分布函数和密度为
因此
这个分布的中心在区间中点:
方差为
一般地,若 在 上均匀分布,则
并且
均值、方差与线性变换
离散分布的均值和方差为
连续分布中,求和变为积分:
若新变量由线性变换给出
则
平移只改变中心位置,缩放会按平方改变方差。
常见分布的连接
二项分布描述 次独立 试验中的成功次数。公平硬币下,成功次数的均值为 ,方差为 ;当 增大时,经中心化和标准化后会趋近正态分布。
正态分布的标准形式为
许多独立小误差的和或平均值会通过中心极限定理靠近正态分布,这也是抽样误差和蒙特卡洛方法中 误差尺度的来源。
边界条件
- 概率不能为负,离散概率总和或连续密度总面积必须为 。
- 连续分布的端点是否包含通常不影响区间概率,因为单点概率为 ;离散分布的端点可能包含跳跃概率。
- 密度可以大于 ,只要总面积为 ;概率是面积,不是曲线高度。
- 用正态近似二项分布或样本平均时,需要独立性、方差有限,并且没有单个变量支配总波动。