My Blog

二项分布及其简单扩展

easy

Created

Updated

我们说一个 RV XX 遵循二项分布是指

nn 次成功概率为 pp 独立伯努利试验中,成功次数为 xx

记作 XB(n,p)X \sim B(n, p)。其 pmf

f(x)=(nx)px(1p)nxf(x) = \binom nx p^x(1 - p)^{n - x}

mgf

M(t)=x=0netx(nx)px(1p)nx=(1p+pet)nM(t) = \sum_{x = 0}^n e^{tx}\binom nx p^x (1 - p)^{n - x} = (1 - p + pe^t)^n

which can comfirm that

M(t)=npet(1p+pet)n1,M(t)=n(n1)p2e2t(1p+pet)n2+npet(1p+pet)n1M'(t) = npe^t(1 - p + pe^t)^{n - 1},\newline M''(t) = n(n - 1)p^2 e^{2t}(1 - p + p e^t)^{n - 2} + npe^t(1 - p + pe^t)^{n - 1} μ=M(0)=np,σ2=M(0)M2(0)=np(p(n1))+np(np)2=np(1p)\mu = M'(0) = np, \newline\sigma^2 = M''(0) - M'^2(0) = np(p(n - 1)) + np - (np)^2 = np(1 - p)

n,p0n \to \infty, p \to 0, 记 λ=np\lambda = np 即均值,可被描述为

将某时间段均分为 nn 个单位时间段,某事件在该单位时间段发生的概率为 pp,事件在该时间段发生次数的均值即为 λ\lambda

若 RV XX 表示时间段上事件发生的次数,我们称 XX 遵循 Possion Distrubution,记作 XPoisson(λ)X \sim \text{Poisson}(\lambda)。其 pmf

f(x)=limnn!x!(nx)!(λn)x(1λn)nx=λxx!limnn!nx(nx)!limn(1λn)nx=λxeλx!\begin{aligned} f(x) &= \lim_{n \to \infty} \frac{n!}{x!(n - x)!} \left(\frac\lambda n\right)^x \left(1 - \frac\lambda n\right)^{n - x} \newline &= \frac{\lambda^x}{x!} \lim_{n \to \infty} \frac{n!}{ n^x(n - x)!} \lim_{n \to \infty} \left(1 - \frac\lambda n\right)^{n - x} \newline &= \frac{\lambda^x e^{-\lambda}}{x!} \end{aligned}

mgf

M(t)=x0etxλxeλx!=eλx0(λet)xx!=eλ(et1)\begin{aligned} M(t) &= \sum_{x \ge 0} e^{tx}\frac{\lambda^x e^{-\lambda}}{x!} \newline &= e^{-\lambda}\sum_{x \ge 0} \frac{\left(\lambda e^t\right)^x}{x!} \newline &= e^{\lambda\left(e^t - 1\right)} \end{aligned}

均值和方差均为 λ\lambda obviously。

我们继续考察观察到(observe)Possion Distrubution 事件第一次的出现时间 XX,这意味着 RV XX 是连续的。考察其 cdf

F(x)=P(Xx)=1P(Xx)=1eλxF(x) = P(X \ge x) = 1 - P(X \le x) = 1 - e^{-\lambda x}

其中第三个等号表示事件在时间段 [0,x][0, x] 从未发生。则 RV XX 的 pdf

f(x)=F(x)=λeλxf(x) = F'(x) = \lambda e^{-\lambda x}

θ=λ1\theta = \lambda^{-1} 为 Exponential Distribution 的参数,被描述为单位时间内事件的发生率,则 RV XX 遵循 Exponential Distribution 意味着其 pmf

f(x)=1θexθf(x) = \frac 1 \theta e^{-\frac x\theta}

更进一步的,如果我们考察观察到 Possion Distrubution 发生 α\alpha 次的第一次出现时间 XX,考察其 cdf

F(x)=P(Xx)=1k=0α1(λx)keλxk!F(x) = P(X \ge x) = 1 - \sum_{k = 0}^{\alpha - 1} \frac{(\lambda x)^k e^{-\lambda x}}{k!}

pdf

f(x)=F(x)=λeλxeλxk=1α1(k(λx)k1λk!(λx)kλk!)=λeλxeλx(λ(λx)α1λ(α1)!)=eλxλαxα1(α1)!\begin{aligned} f(x) &= F'(x) = \lambda e^{-\lambda x} - e^{-\lambda x}\sum_{k = 1}^{\alpha - 1}\left(\frac{k(\lambda x)^{k - 1} \lambda}{k!} - \frac{(\lambda x)^{k} \lambda}{k!}\right) \newline &= \lambda e^{-\lambda x} - e^{-\lambda x}\left(\lambda - \frac{(\lambda x)^{\alpha - 1} \lambda}{(\alpha - 1)!}\right) = e^{-\lambda x} \lambda^{\alpha} \frac{x^{\alpha - 1}}{(\alpha - 1)!} \end{aligned}

这样的 RV 被称为遵循 Erlang Distribution,要求 α\alpha 为正整数,其 cdf 由上文给出。

如果将 α\alpha 扩展到实数域,则要将阶乘扩展到实数域,记实数域上的函数 Γ(x)\Gamma(x) 满足

0eλxλαxα1Γ(α)dx=1\int_0^{\infty} e^{-\lambda x} \lambda^{\alpha} \frac{x^{\alpha - 1}}{\Gamma(\alpha)} \text{d} x = 1

意味着

Γ(α)=0eλx(λx)α1dλx=0eyyα1dy\Gamma(\alpha) = \int_0^{\infty} e^{-\lambda x} (\lambda x)^{\alpha - 1} \text{d} \lambda x = \int_0^{\infty} e^{-y} y^{\alpha - 1} \text{d} y

这给出了 Gamma 函数的定义,据此我们说 XX 遵循 Gamma Distribution,是指其 pdf

f(x)=exθθαxα1Γ1(α)f(x) = e^{-\frac x \theta} \theta^{-\alpha} x^{\alpha - 1} \Gamma^{-1}(\alpha)

其中 θ,α\theta, \alpha 为参数,定义由上文给出。

其 mgf

M(t)=Γ1(α)θα0ex(tθ1)xα1dx=(θ1t)αθαΓ1(α)0e(θ1t)x((θ1t)x)α1d((θ1t)x)=(1θt)α\begin{aligned} M(t) &= \Gamma^{-1}(\alpha) \theta^{-\alpha} \int_0^{\infty} e^{x(t - \theta^{-1})} x^{\alpha - 1} \text{d} x \newline &= \left(\theta^{-1} - t\right)^{-\alpha}\theta^{-\alpha} \Gamma^{-1}(\alpha)\int_0^{\infty} e^{-(\theta^{-1} - t)x} \left(\left(\theta^{-1} - t\right)x\right)^{\alpha - 1} \text{d} \left(\left(\theta^{-1} - t\right)x\right) \newline &= (1 - \theta t)^{-\alpha} \end{aligned}

其均值和方差 μ=αθ\mu = \alpha \theta, σ2=αθ2\sigma^2 = \alpha \theta ^2。不难验证 Exponential Distribution 是 α=1\alpha = 1 的 Gamma Distribution。

特别的,我们能够注意到,两个遵循同一发生率的 Gamma Distribution 的 RV,其代数和应当也会遵循 Gamma Distribution,其发生次数应当为二者之和,形式化的

对于 X1Γ(α1,θ),X2Γ(α2,θ)X_1 \sim \Gamma(\alpha_1, \theta), X_2 \sim \Gamma(\alpha_2, \theta)X1+X2Γ(α1+α2,θ)X_1 + X_2 \sim \Gamma(\alpha_1 + \alpha_2, \theta)

这一性质一般被描述为 Gamma Distribution 的可加性,接下来来证明这一性质。

Z=X1+X2Z = X_1 + X_2,其 pdf

f(z)=f1(x)f2(zx)dx=θ(α1+α2)Γ1(α1)Γ1(α2)ezθ0zxα11(zx)α21dx=ezθzα1+α21θ(α1+α2)Γ1(α1)Γ1(α2)01tα11(1t)α21dt\begin{aligned} f(z) &= \int_{-\infty}^{\infty} f_1(x)f_2(z - x) \text d x \newline &= \theta^{-(\alpha_1 + \alpha_2)} \Gamma^{-1}(\alpha_1)\Gamma^{-1}(\alpha_2) e^{-\frac z\theta} \int_{0}^{z} x^{\alpha_1 - 1}(z - x)^{\alpha_2 - 1} \text d x \newline &= e^{-\frac z\theta} z^{\alpha_1 + \alpha_2 - 1} \theta^{-(\alpha_1 + \alpha_2)} \color{cyan}{\Gamma^{-1}(\alpha_1)\Gamma^{-1}(\alpha_2)\int_{0}^{1} t^{\alpha_1 - 1}(1 - t)^{\alpha_2 - 1} \text d t} \end{aligned}

第三个等号换元 t=xzt = \frac xz,将 Cyan 色部分设为 AA,则有

1=0Aθ(α1+α2)ezθzα1+α21dz=A0ezθ(zθ)α1+α21dzθ=AΓ(α1+α2)    A=Γ1(α1+α2)\begin{aligned} 1 &= \int_0^{\infty} A \theta^{-(\alpha_1 + \alpha_2)} e^{-\frac z\theta} z^{\alpha_1 + \alpha_2 - 1} \text d z \newline &= A \int_0^{\infty} e^{-\frac z\theta} \left(\frac z\theta\right)^{\alpha_1 + \alpha_2 - 1} \text d \frac z\theta \newline &= A\Gamma(\alpha_1 + \alpha_2) \implies A = \Gamma^{-1}(\alpha_1 + \alpha_2) \end{aligned}

代回原式

f(z)=ezθθ(α1+α2)zα1+α21Γ1(α1+α2)f(z) = e^{-\frac z\theta} \theta^{-(\alpha_1 + \alpha_2)}z^{\alpha_1 + \alpha_2 - 1} \Gamma^{-1}(\alpha_1 + \alpha_2)

也即 X1+X2=ZΓ(α1+α2,θ)X_1 + X_2 = Z \sim \Gamma(\alpha_1 + \alpha_2, \theta)


让我们回到一切的起点,对于遵循二项分布 B(n,p)B(n, p) 的随机变量 ZZ,当 nn \to \infty,令 X=Zμσ=Znpnp(1p)X = \frac{Z - \mu}{\sigma} = \frac{Z - np}{\sqrt{np(1 - p)}},其 pmf

P(Z=k)=limn(nk)pk(1p)nkP(Z = k) = \lim_{n \to \infty}\binom nk p^k(1 - p)^{n - k}

利用斯特林公式,并取对数

lnP(Z=k)=limnnlnn+klnp+(nk)ln(1p)12ln(2πk(nk))klnk(nk)ln(nk)\ln P(Z = k)= \lim_{n\to \infty} n \ln n + k \ln p + (n - k) \ln(1 - p) - \frac 12 \ln (2\pi k(n - k)) - k \ln k - (n - k)\ln (n - k)

其中 k=np+xσk = np + x \sigma,则 xσnp0\frac{x \sigma}{np} \to 0xσn(1p)0\frac{x \sigma}{n(1 - p)} \to 0nn \to \infty,二者同在 O(n0.5)O(n^{-0.5}),意味着我们只需展开到泰勒 x2x^2 项。

=limnnlnn+klnp+(nk)ln(1p)+12n12ln(2πk(nk))klnnp(nk)ln(n(1p))kxσnp+kx2σ22n2p2+(nk)xσn(1p)+(nk)x2σ22n2(1p)2=limn12lnn12ln(2π(np+xσ)(nnpxσ))kx(1p)(nk)xpσ+kx2(1p)2+(nk)x2p22σ2=limn12lnn12ln(2πn2p(1p)(1+xσnp)(1xσn(1p)))x2+x22+o(x3)=12ln(2πnp(1p))x22\begin{aligned} &= \lim_{n\to \infty} n \ln n + k \ln p + (n - k) \ln(1 - p) + \frac 12 n - \frac 12 \ln (2\pi k(n - k)) - k \ln np - (n - k) \ln(n(1 - p)) - \frac{kx \sigma}{np} + \frac{k x^2 \sigma^2}{2n^2p^2} + \frac{(n - k)x \sigma}{n(1 - p)} + \frac{(n - k)x^2 \sigma^2}{2n^2(1 - p)^2} \newline & = \lim_{n\to \infty} \frac 12 \ln n - \frac 12 \ln (2\pi (np + x\sigma)(n - np - x\sigma)) - \frac{kx(1 - p) - (n - k)xp}{\sigma} + \frac{kx^2(1 - p)^2 + (n - k)x^2 p^2}{2\sigma^2} \newline & = \lim_{n\to \infty} \frac 12 \ln n - \frac 12 \ln\left(2\pi n^2p(1 - p)\left(1 + \frac{x\sigma}{np}\right)\left(1 - \frac{x\sigma}{n(1 - p)}\right)\right) - x^2 + \frac{x^2}2 + o(x^3) \newline & = -\frac 12 \ln(2\pi np(1 - p)) - \frac{x^2}2 \end{aligned}

还原对数可得

P(Z=k)=ex222πnp(1p)P(Z = k) = \frac{e^{-\frac{x^2}{2}}}{\sqrt{2\pi np(1 - p)}}

也即导出了正态分布 ZN(np,np(1p))Z\sim \mathcal N(np, np(1 - p)) 的 pdf,也即说明了 XN(0,1)X\sim \mathcal N(0, 1)

更一般的,我们说 RV XN(μ,σ2)X\sim \mathcal N(\mu, \sigma^2),是指它的 pdf

f(x)=12πσ2exp((xμ)2σ2)f(x) = \frac {1}{\sqrt{2\pi \sigma^2}} \exp\left(-\frac{(x - \mu)^2}{\sigma^2}\right)

μ=0,σ2=1\mu = 0, \sigma^2 = 1 时,我们说 XX 遵循标准正态分布。其 cdf

Φ(x)=x12πexp(x22)dx\Phi(x) = \int_{-\infty}^x \frac {1}{\sqrt{2\pi}}\exp\left(-\frac{x^2}{2}\right) \text{d} x

更进一步的,如果 kk 个 RV XiN(0,1)X_i \sim \mathcal N(0, 1),考虑 Z=Xi2Z = \sum X_i^2

先考虑 k=1k = 1 的情况,也即

f(z)=ddzP(Xz)=dzdzddzzz12πex22dx=12z×22πez2=(12)12Γ(12)z121ez2\begin{aligned} f(z) &= \frac{\text{d}}{\text{d} z}P(|X| \le \sqrt z) \newline &= \frac{\text{d} \sqrt{z}}{\text{d} z} \frac{\text d}{\text d \sqrt z}\int_{-\sqrt z}^{\sqrt z} \frac{1}{\sqrt{2\pi}} e^{-\frac{x^2}2} \text d x \newline &= \frac{1}{2\sqrt z} \times \frac{2}{\sqrt{2\pi}} e^{-\frac z2} = \frac{(\frac 12)^{\frac 12}}{\Gamma(\frac 12)} z^{\frac 12 - 1} e^{-\frac z2} \end{aligned}

所以说 zz 遵循 θ=2,α=12\theta = 2, \alpha = \frac 12 的 Gamma Distribution。而根据 Gamma Distribution 的可加性,不难得出 ZΓ(2,k2)Z \sim \Gamma(2, \frac k2)。我们将这样的 RV 称作其遵循 Chi-Square Distribution,记作 Zχ2(k)Z \sim \chi^2(k),其中 kk 为参数,被称作自由度。

以上。