概率分布

Probability Distribution

概率分布描述随机变量可能取哪些值，以及这些值按什么概率出现。它既可以是离散的概率表，也可以是连续的密度曲线；统一的入口是分布函数 $F (x) = P (X \leq x)$ 。

若 $X$ 是离散随机变量，取值为 $x_{1}, x_{2}, \dots$ ，对应概率为 $p_{1}, p_{2}, \dots$ ，则

p_{i} \geq 0, \sum_{i} p_{i} = 1, P (X = x_{i}) = p_{i} .

若 $X$ 是连续随机变量，则通常用概率密度函数 $p (x)$ 描述分布：

p (x) \geq 0, \int_{- \infty}^{\infty} p (x) d x = 1, F (x) = \int_{- \infty}^{x} p (t) d t .

连续分布中，一个精确点的概率为零：

P (X = c) = \int_{c}^{c} p (x) d x = 0.

真正有概率意义的是区间：

P (a \leq X \leq b) = \int_{a}^{b} p (x) d x = F (b) - F (a) .

分布函数 $F (x) = P (X \leq x)$ 总是单调不减、右连续，并满足

lim_{x \to - \infty} F (x) = 0, lim_{x \to + \infty} F (x) = 1.

对连续分布，密度是分布函数的导数：

p (x) = F^{'} (x)

在 $F$ 可导的位置成立。反过来，密度曲线下从 $a$ 到 $b$ 的面积就是区间概率。需要区分： $p (x)$ 本身是单位长度上的概率强度，不是 $P (X = x)$ 。

若年龄在 $17$ 到 $20$ 之间均匀分布，则每个长度相同的区间具有相同概率。分布函数和密度为

F (x) = {\begin{cases} 0, & x \leq 17, \\ \frac{x - 17}{3}, & 17 < x < 20, \\ 1, & x \geq 20, \end{cases} p (x) = {\begin{cases} \frac{1}{3}, & 17 < x < 20, \\ 0, & otherwise . \end{cases}

因此

P (18 \leq X \leq 19) = F (19) - F (18) = \frac{1}{3} .

这个分布的中心在区间中点：

m = E [X] = 18.5, F (m) = F (18.5) = \frac{1}{2},

方差为

σ^{2} = \frac{(20 - 17)^{2}}{12} = \frac{3}{4} .

一般地，若 $X$ 在 $[0, a]$ 上均匀分布，则

p (x) = \frac{1}{a}, F (x) = \frac{x}{a} (0 \leq x \leq a),

并且

m = E [X] = \frac{a}{2}, σ^{2} = Var (X) = \frac{a^{2}}{12} .

离散分布的均值和方差为

m = E [X] = \sum_{i} p_{i} x_{i}, σ^{2} = E [(X - m)^{2}] = \sum_{i} p_{i} (x_{i} - m)^{2} .

连续分布中，求和变为积分：

m = E [X] = \int_{- \infty}^{\infty} x p (x) d x, σ^{2} = \int_{- \infty}^{\infty} (x - m)^{2} p (x) d x .

若新变量由线性变换给出

X_{new} = a X_{old} + b,

则

m_{new} = a m_{old} + b, Var (X_{new}) = a^{2} Var (X_{old}) .

平移只改变中心位置，缩放会按平方改变方差。

二项分布描述 $N$ 次独立 $0 / 1$ 试验中的成功次数。公平硬币下，成功次数的均值为 $N / 2$ ，方差为 $N / 4$ ；当 $N$ 增大时，经中心化和标准化后会趋近正态分布。

正态分布的标准形式为

p (x) = \frac{1}{\sqrt{2 π}} e^{- x^{2} / 2} .

许多独立小误差的和或平均值会通过中心极限定理靠近正态分布，这也是抽样误差和蒙特卡洛方法中 $1 / \sqrt{N}$ 误差尺度的来源。