統計① 期待値・分散と密度関数・分布関数
期待値や分散と密度関数との関係、分布関数?
連続型と離散型の確率変数について期待値と分散の定義を紹介します。確率変数とは?連続型と離散型
たとえばさいころをふったときに出る値は1から6の間の整数になり、さらにそれらには出る確率もさだまっています。このような場合の変数を一般に$X$,$Y$など大文字でかいてあらわします。また、その確率変数がとる値はさいころのような整数しかとらない離散型、または連続した範囲の任意の数をとる連続型とあって、これらで扱いが変わってきます。
連続型の確率密度関数の定義
確率密度関数の性質
確率密度関数$f(x)$について、
\begin{align*}
f(x)&\geq 0 \\
\int_{-\infty}^\infty f(x)\ dx&=1 \\
P(a\leq X \leq b)&=\int_a^b f(x)\ dx
\end{align*}
ただし、$P(a\leq X \leq b)$は確率変数$X$が$a\leq X \leq b$を満たす確率です。
\begin{align*}
P(a\lt X \leq b)&=P(a\leq X \leq b) \\
P(a\leq X \lt b)&=P(a\leq X \leq b)
\end{align*}
というように端点を含むか含まないかで確率は変わらないということになっています。
連続型に関して分布関数の定義
確率分布関数の定義
確率分布関数$F(x)$を以下のように定義します。
\begin{align*}
F(x)\stackrel{def}{=}\int_{-\infty}^x f(x^\prime)\ dx^\prime
\end{align*}
\begin{align*}
F(x)&\geq 0 \\
P(X \leq a)&=F(a)
\end{align*}
これらは確率密度関数の定義から明らかですね。
期待値(expected value)の定義
期待値
離散型の場合
\begin{align*}
E[X]&\stackrel{def}{=}\sum_{i=0}^n x_i P(X=x_i)
\end{align*}
連続型の場合
\begin{align*}
E[X]&\stackrel{def}{=}\int_{-\infty}^\infty xf(x)\ dx
\end{align*}
ただし、離散型について、$x_i$は$i=0,1,\cdots ,n$としました。
分散(variance)の定義
分散の定義
平均値を$\mu$とします。離散型の場合
\begin{align*}
V[X]&\stackrel{def}{=}\sum_{i=0}^n (x_i-\mu)^2P(X=x_i)
\end{align*}
連続型の場合
\begin{align*}
V[X]&\stackrel{def}{=}\int_{-\infty}^\infty (x-\mu)^2f(x)\ dx
\end{align*}
\begin{align*}
V[X]=E[X^2]-(E[X])^2
\end{align*}
このことを示してみましょう。
離散型の場合の分散について
いま、$\mu=E[X]$としていたので、\begin{align*}
V[X]&=\sum_{i=0}^n x_i^2 -2\mu \sum_{i=0}^n x_i P(X=x_i)+\mu^2 \sum_{i=0}^n P(X=x_i) \\
&=E[X^2]-2\mu E[X]+\mu^2\\
&=E[X^2]-(E[X])^2
\end{align*}
連続型の場合
\begin{align*}
V[X]&=\int_{-\infty}^\infty (x-\mu)^2f(x)\ dx\\
&=\int_{-\infty}^\infty x^2 f(x)\ dx-2\mu\int_{-\infty}^\infty xf(x)\ dx+\mu^2 \int_{-\infty}^\infty f(x)\ dx\\
&=E[X^2]-2\mu E[X]+\mu^2 \\
&=E[X^2]-(E[X])^2
\end{align*}
となります。
期待値の計算例と考え方
1杯500円の店で、こんなイベントをやっているとします。
2つのさいころをふって、
- 同じ目が出たら無料で1杯(確率1/6)
- 異なる目で、2つの目の和が偶数なら1杯を半額(250円)にする(確率1/3)
- 異なる目で、2つの目の和が奇数なら倍量(2杯分)を2杯分の値段(1000円)にする(確率1/2)
このとき、払う金額の確率変数$X$と1杯あたりの値段の確率変数$Y$の期待値を考えましょう。
まずは$X$の期待値を計算すると、
\begin{align*}
E[X]&=0\cdot \dfrac{1}{6}+250\cdot\dfrac{1}{3}+1000\cdot \dfrac{1}{2} \\
&=\dfrac{1750}{3}\approx 583
\end{align*}
つまり、払う金額の平均は、1杯の値段を超えてしまうわけです。ただ、1杯あたりの値段の確率変数$Y$の期待値を計算すると、
\begin{align*}
E[Y]&=\dfrac{0}{1}\cdot \dfrac{1}{6}+\dfrac{250}{1}\cdot\dfrac{1}{3}+\dfrac{1000}{2}\cdot\dfrac{1}{2} \\
&=\dfrac{1000}{3}\approx 333
\end{align*}
となります。つまり、最初から2杯以上飲むつもりなら、このイベントに参加したらお得なのですが、1杯だけ飲むつもりなら無駄に2杯目を買わなきゃいけないことになりえるので、その場合は損かもしれません。
[次の記事へ]