負の二項分布 導出 期待値 分散

スポンサーリンク

負の二項分布は数学に馴染みのない人には非常に難しく感じられる。

ネックは負の二項展開。

正当な方法と理論的に怪しいけど、直観的な方法の2つで紹介する。

スポンサーリンク

設定

アタリがp、ハズレがq(1-p)の確率で入っているくじを引く。

n回アタリを引くまでに引くハズレの個数がk個である確率は?

確率関数

試行回数は合計n+k回。

n+k回目、つまり最後の1回はアタリを引いておしまいにするわけだから、

n+k-1回の中で、

アタリがn-1回、ハズレがk回

出る組み合わせを考えて、それぞれの球を引く確率p,qを乗じると確率が求められるので、

確率関数は、

$$P(X=k)=_{n+k-1}C_k\, p^{n} q^k$$

である。

この、「n回目のアタリを引くまでにk個のハズレを引く確率」を表した確率分布は、負の二項分布とか、NBD(Negative Binomial Distribution)と言われる。

なんで”負”の二項分布なの?

$$_{n+k-1}C_k$$

はしばしば、

$$\begin{pmatrix}n+k-1\\k\end{pmatrix}$$

と表されたりするが、

$$_{n+k-1}C_k=\frac{(n+k-1)(n+k-2)\ldots n}{k!}$$

$$\Leftrightarrow \begin{pmatrix}-1\end{pmatrix}^k\frac{(-n-k+1)\ldots (-n)}{k!}$$

$$\Leftrightarrow\begin{pmatrix}-n\\ k \end{pmatrix}$$

と書き換えられ、これが負の二項係数と言われるところに端を発する。

個人的には

$$_{-n}C_k$$

という認識でいる。

C(コンビネーション)で負を使っていいのかわからないのでよろしくない書き方かもしれないが……

負の二項分布は本当に確率分布???

数式的には、

$$\Sigma^{\infty}_{k=0}P(X=k)=1$$

が満たされれば良い。

直観的な方法※

$$\Sigma^{\infty}_{k=0}\,_{n+k-1}C_k\, p^{n} q^k$$

$$p^n\Sigma^{\infty}_{k=0}\,_{n+k-1}C_k\, q^k$$

$$p^n\Sigma^{\infty}_{k=0}\,_{-n}C_k\,1^{-n-k}(-q)^k$$

二項定理より

$$p^n\{1+(-q)\}^{-n}=p^n(1-q)^{-n}$$

$$\Leftrightarrow p^n\cdot p^{-n}=1$$

二項定理
$$(a+b)^n=_nC_ka^kb^{n-k}$$
二項定理を指数部分が負の場合に適用しているが、結果的に合ってるけど数学的にはよろしくない可能性も大いにあるので、テイラー展開もあまり見たくない文系向けにイメージだけ伝えたかったという意図を理解してほしい。

マクローリン展開を利用する方法

マクローリン展開を用いると、

$$(1-q)^{-n}=\Sigma_{k=0}^{\infty}\,_{-n}C_{k}(-q)^{-n}$$

$$(1-q)^{-n}=p^{-n}$$

より、

$$p^n\{1+(-q)\}^{-n}=p^n(1-q)^{-n}$$

$$\Leftrightarrow p^n\cdot p^{-n}=1$$

確率母関数

$$G_x[s]=E[s^x]=\Sigma^{\infty}_{k=0}\,s^k_{-n}C_k\,p^n(-q)^k$$

$$\Leftrightarrow p^n\Sigma^{\infty}_{k=0}\,_{-n}C_k\,1^{-n-k}(-sq)^k$$

$$p^n(1-sq)^{-n}$$

期待値 分散

$$G_x\prime[s]=np^n(1-sq)^{-n-1}|_{s=1}\,\frac{nq}{p}$$

$$G_x\prime\prime[s]n(n+1)p^nq^2(1-sq)^{-n-2}|_{s=1}\frac{n(n+1)q^2}{p^2}$$

$$E[X]=\frac{nq}{p}$$

$$V[X]=\frac{nq}{p^2}$$

※V[X]を求める際はq=1-pとして計算。

負の二項分布について

負の二項分布は個人的にとても思い入れのある確率分布だ。

初めて負の二項分布を私が目にしたのは、マーケティングを勉強しようとしているときだった。

森岡毅さんの『確率思考の戦略論』を読んでいる際に、マーケットシェアに応じた販売のモデルを負の二項分布を応用した式で表していた。

「ビジネスも数学でモデル化できるならば、成果の再現性も高いものになるはずだ。天才的なセンスやカリスマを持った天才にも、数学的なアプローチを用いれば近づけるのではないだろうか?」

と思い、モデル式であるNBDディリクレモデルを理解しようとした。

どうやら、負の多項分布に当たるディリクレ分布とガンマ分布の混合分布だったようだが、その前提として巻末に載っていた負の二項分布で当時の私は理解に躓いた。

「ビジネスを数理的なレンズを通してみたい」

という一心から、大学受験時は文系で、ネイピア数も見たことなかっったような私は数学、統計学にのめり込んでいった。

そして、2年半近く経ってやっと数理的にも理解した。

 

で、同じように『確率思考の戦略論』を読んで、自分も数学というレンズを通してビジネスが見てみたい!…..

でも、数学は苦手だしなぁ……

という人でも多少は理解しやすいような説明の仕方ができないかなぁ

そう思って、負の二項分布についてまとめた。

負の二項分布はいろんなテキストやwebサイトにもまとめられている。

数学的に厳密に書かれている。

でも、自分は主に負の二項展開やマクローリン展開で躓いていて理解に至っていなかった。

そういったところがわかりやすいように意識して書いた。

 

確率思考の戦略論』を読み進めていくには、混合分布やディリクレ分布など他にも理解しなければならない事がたくさんある。

けれど、負の二項分布が使えれば、最も簡単な設定は理解できるので、『確率思考の戦略論』の見え方が代わってくるかもしれない。