你買的彩票中獎概率到底有多少?

二項分佈的概念 Binomial distribution

二項分佈在醫學研究中至關重要,一組二項分佈的數據,指的通常是 \(n\) 次相互獨立的成功率爲 \(\pi\) 的伯努利實驗 (\(n\) independent Bernoulli trials) 中成功的次數。

\(X\) 服從二項分佈,記爲 \(X \sim binomial(n, \pi)\)\(X \sim bin(n, \pi)\)。它的(第 \(x\) 次實驗的)概率被定義爲:

\[\begin{align} P(X=x) &= ^nC_x\pi^x(1-\pi)^{n-x} \\ &= \binom{n}{x}\pi^x(1-\pi)^{n-x} \\ & for\;\; x = 0,1,2,\dots,n \end{align}\]

二項分佈的期望和方差

  • 期望 \(E(X)\)
    • \(X \sim bin(n,\pi)\),那麼 \(X\) 就是這一系列獨立伯努利實驗中成功的次數。
    • \(X_i, i =1,\dots, n\) 標記每個相互獨立的伯努利實驗。
    • 那麼我們可以知道 \(X=\sum_{i=1}^nX_i\)\[\begin{align} E(X) &= E(\sum_{i=1}^nX_i)\\ &= E(X_1+X_2+\cdots+X_n) \\ &= E(X_1)+E(X_2)+\cdots+E(X_n)\\ &= \sum_{i=1}^nE(X_i)\\ &= \sum_{i=1}^n\pi \\ &= n\pi \end{align}\]
  • 方差 \(Var(X)\) \[\begin{align} Var(X) &= Var(\sum_{i=1}^nX_i) \\ &= Var(X_i+X_2+\cdots+X_n) \\ &= Var(X_i)+Var(X_2)+\cdots+Var(X_n) \\ &= \sum_{i=1}^nVar(X_i) \\ &= n\pi(1-\pi) \\ \end{align}\]

超幾何分佈 hypergeometric distribution

假設我們從總人數爲 \(N\) 的人羣中,採集一個樣本 \(n\)。假如已知在總體人羣中(\(N\))有 \(M\) 人患有某種疾病。請問採集的樣本 \(X=n\) 中患有這種疾病的人,服從怎樣的分佈?

  • 從人羣(\(N\))中取出樣本(\(n\)),有 \(^NC_n\) 種方法。
  • 從患病人羣(\(M\))中取出患有該病的人(\(x\))有 \(^MC_x\) 種方法。
  • 樣本中不患病的人(\(n-x\))被採樣的方法有 \(^{N-M}C_{n-x}\) 種。
  • 採集一次 \(n\) 人作爲樣本的概率都一樣。因此:

\[P(X=x)=\frac{\binom{M}{x}\binom{N-M}{n-x}}{\binom{N}{n}}\]

樂透中獎概率問題:

  • 從數字 \(1\sim59\) 中選取 \(6\) 個任意號碼
  • 開獎時從 \(59\) 個號碼球中隨機抽取 \(6\)
  • 如果六個號碼全部猜中(不分順序),你可以成爲百萬富翁。請問一次猜中全部 \(6\) 個號碼的概率是多少?

\(59\) 個號碼中隨機取出任意 \(6\) 個號碼的方法有 \(^{59}C_6\) 種。 \[^{59}C_6=\frac{59!}{6!(59-6)!}=45,057,474\]

每次選取六個號碼做爲一組的可能性相同,所以,你買了一組樂透號碼,能中獎的概率就是 \(1/45,057,474 = 0.00000002219\)。你還會再去買彩票麼?

如果我只想中其中的 \(3\) 個號碼,概率有多大?

用超幾何分佈的概率公式:

\[\begin{align} P(X=3) &= \frac{^6C_3\times ^{53}C_3}{^{59}C_6} \\ &= 0.010 \end{align}\]

你有 \(1\%\) 的可能中獎。換句話說,如果中三個以上的數字算中獎的話,你買的彩票中獎的概率低於 \(1\%\)。是不是覺得下次送錢給博彩公司的時候還不如跟我一起喝一杯咖啡划算?

泊松分佈 Poisson Distribution

  • 當一個事件,在一段時間 (\(T\)) 中可能發生的次數是 \(\lambda\) 。那麼我們可以認爲,經過時間 \(T\),該時間發生的期望次數是 \(E(X)=\lambda T\)
  • 利用微分思想,將這段時間 \(T\) 等分成 \(n\) 個時間段,當 \(n\rightarrow\infty\) 直到每個微小的時間段內最多發生一次該事件。

那麼

  • 每個微小的時間段,可以視爲是一個伯努利實驗(有事件發生或者沒有)
  • 那麼這整段時間 \(T\) 內發生的事件可以視爲是一個二項分佈實驗。

\(X=\) 一次事件發生時所經過的所有時間段。

  • \(X \sim Bin(n, \pi)\),其中 \(n\rightarrow\infty\)\(n\) 爲時間段。
  • 在每個分割好的時間段內,事件發生的概率都是:\(\pi=\frac{\lambda T}{n}\)
  • 期望 \(\mu=\lambda T \Rightarrow \pi=\mu/n\)
  • 所以 \(X\) 的概率方程就是: \[\begin{align} P(X=x) &= \binom{n}{x}\pi^x(1-\pi)^{n-x} \\ &= \binom{n}{x}(\frac{\mu}{n})^x(1-\frac{\mu}{n})^{n-x} \\ &= \frac{n!}{x!(n-x)!}(\frac{\mu}{n})^x(1-\frac{\mu}{n})^{n-x} \\ &=\frac{n!}{n^x(n-x)!}\frac{\mu^x}{x!}(1-\frac{\mu}{n})^{n-x}\\ 當 n\rightarrow\infty &\; x \ll n (x遠小於n) 時\\ \frac{n!}{n^x(n-x)!} &=\frac{n(n-1)\dots(n-x+1)}{n^x} \rightarrow 1\\ (1-\frac{\mu}{n})^{n-x} &\approx (1-\frac{\mu}{n})^n \rightarrow e^{-\mu}\\ 所以 我們可&以得到泊松分佈的概率公式: \\ P(X=x) &\rightarrow \frac{\mu^x}{x!}e^{-\mu} \end{align}\]

當數據服從泊松分佈時,記爲 \(X\sim Poisson(\mu=\lambda T)\;\; or\;\; X\sim Poi(\mu)\)

證明泊松分佈的參數特徵:

  1. \(E(X)=\mu\)

\[\begin{align} E(X) &= \sum_{x=0}^\infty xP(X=x) \\ &= \sum_{x=0}^\infty x\frac{\mu^x}{x!}e^{-\mu} \\ &= 0+ \sum_{x=1}^\infty x\frac{\mu^x}{x!}e^{-\mu} \\ &= \sum_{x=1}^\infty \frac{\mu^x}{(x-1)!}e^{-\mu} \\ &= \mu\sum_{x=1}^\infty \frac{\mu^{x-1}}{(x-1)!}e^{-\mu} \\ 這個時候我們用i&=x-1 替換掉所有的 x \\ &= \mu\sum_{i=0}^\infty \frac{\mu^{i}}{i!}e^{-\mu} \\ 注意到右半部分 &\sum_{i=0}^\infty \frac{\mu^{i}}{i!}e^{-\mu}=1 是一個\\泊松分佈的所有&概率和 \\ &= \mu \end{align}\]

  1. \(Var(x)=\mu\) 爲了找到 \(Var(X)\),我們用公式 \(Var(X)=E(X^2)-E(X)^2\)

我們需要找到 \(E(X^2)\)

\[\begin{align} E(X^2) &= \sum_{x=0}^\infty x^2\frac{\mu^x}{x!}e^{-\mu} \\ &= \mu \sum_{x=1}^\infty x\frac{\mu^{x-1}}{(x-1)!}e^{-\mu} \\ 這個時候我們用i&=x-1 替換掉所有的 x \\ &= \mu \sum_{i=0}^\infty (i+1)\frac{\mu^{i}}{i!}e^{-\mu} \\ &= \mu(\sum_{i=0}^\infty i\frac{\mu^i}{i!}e^{-\mu} + \sum_{i=0}^\infty \frac{\mu^i}{i!}e^{-\mu}) \\ &= \mu(E(X)+1) \\ &= \mu^2+\mu \\ 因此,代入上面&提到的方差公式: \\ Var(X) &= E(X^2) - E(X)^2 \\ &= \mu^2 + \mu -\mu^2 \\ &= \mu \end{align}\]

Avatar
王 超辰 - Chaochen Wang
Real World Evidence Scientist

All models are wrong, but some are useful.

comments powered by Disqus

Related