読者です 読者をやめる 読者になる 読者になる

ushi-goroshiの雑記帳

統計や機械学習の話題を中心に、思うがままに

不偏分散をn-1で除して求める理由

統計の勉強を始めた時、初めに躓きそうな内容として不偏分散があります。要するに標本集団から分散を求める際は、平均を推定した分の情報量の減少を加味するために、標本サイズではなく自由度で割りましょうという内容です。このとき、「平均を推定する際に標本からデータ1つ分の情報が使用されているため、分散を求める際はnではなく(n-1)で割る」と教えられるでしょう。

言葉で教えられると結構あっさりとしているのですが、数式できちんと追っていくとこれがなかなか大変です。以前に勉強した時のメモが出てきたので、texを思い出しながらおさらいしてみます。



\begin{array}{l}
y_{1} = \mu + e_{1} \\
y_{2} = \mu + e_{2} \\
\vdots \\
y_{n} = \mu + e_{n}
\end{array}


であるとき、



\begin{align*}
\hat{\mu} &= \bar{y} = \frac{(\mu + e_{1}) + (\mu + e_{2}) + \cdots + (\mu + e_{n})}{n} \\
&= \frac{\mu}{n}n + \frac{e_{1}}{n} + \frac{e_{2}}{n} + \cdots  + \frac{e_{n}}{n} \\
&= \mu + \frac{e_{1} + e_{2} + \cdots + e_{n}}{n} = \mu + \rm{E}(e_{i})
\end{align*}


から、\hat{\mu} = \mu + \rm{E}(e_{i}) が導けます。分散とは平均値からの偏差の二乗の期待値であるため、



\begin{align*}
\rm{E}\left[ (y_{i} - \bar{y})^2 \right] &= \rm{E}\left[ (y_{i} - \hat{\mu})^2 \right] = \rm{E}\left[ y_{i}^{2} - 2y_{i}\hat{\mu} + \hat{\mu}^{2} \right] \\
&= \rm{E}(y_{i}^{2}) - 2\rm{E}(\hat{\mu}y_{i}) + \rm{E}(\hat{\mu}^{2})
\end{align*}


が得られ、右辺の3つの項をそれぞれ計算すれば良いとわかります。ただしここで \rm{E}(e^{2}) = \sigma^{2} \rm{E}(e) = 0 とします。

\rm{E}(y_{i}^{2})

まず①ですが、これは下記のように求められます。


\begin{align*}
\rm{E}(y_{i}^2) &= \rm{E}\left[(\mu+e_{i})^2\right] = \rm{E}(\mu^2 + 2\mu e_{i} + e_{i}^2) \\
&= \rm{E}(\mu^2) + 2\mu\rm{E}(e_{i}) + \rm{E}(e_{i}^2) = \mu^2 + 0 + \sigma^2 \\
&= \mu^2 + \sigma^2
\end{align*}


\rm{E}(\hat{\mu}y_{i})

次に②ですが、これは\hat{\mu}y_{i} = \hat{\mu}(\mu+e_{i}) = \hat{\mu}\mu + \hat{\mu}e_{i}と展開し、右辺の2つの項をそれぞれ求めます。

1.\hat{\mu}\mu
\hat{\mu} = \mu + \rm{E}(e_{i}) であるため、


\begin{align*}
\hat{\mu}\mu &= \mu\hat{\mu} = \mu(\mu+\rm{E}(e_{i})) \\
&= \mu(\mu+\frac{e_{1}+e_{2}+\cdots+e_{n}}{n}) = \mu^2 + \frac{1}{n}\mu e_{1} + \frac{1}{n}\mu e_{2} + \cdots + \frac{1}{n}\mu e_{n} \\
\rm{E}(\hat{\mu}\mu) &= \mu^2 + 0 + 0 + \cdots + 0 = \mu^2
\end{align*}


2.\hat{\mu}e_{i}

\begin{align*}
e_{i}(\mu+\rm{E}(e_{i})) &= e_{i}(\mu+\frac{e_{1} + e_{2} + \cdots + e_{n}}{n}) \\
&= \mu e_{i} + \frac{e_{i}}{n}e_{1} + \frac{e_{i}}{n}e_{2} + \cdots + \frac{1}{n}e_{i}^2 + \cdots + \frac{e_{i}}{n}e_{n} \\
&= \mu e_{i} + \frac{1}{n}e_{i}^2 \\
\rm{E}(\hat{\mu}e_{i}) &= \frac{1}{n}\sigma^2
\end{align*}


以上のより、\rm{E}(\hat{\mu}y_{i}) = \mu^2 + \frac{1}{n}\sigma^2 となります。

\rm{E}(\hat{\mu}^{2})

最後に③ですが、下記の通りとなります。


\begin{align*}
\hat{\mu}^2 &= (\mu + \frac{e_{1} + e_{2} + \cdots + e_{n}}{n})^2 = \mu^2 + 2\mu\frac{e_{1}+e_{2}+\cdots+e_{n}}{n} + \frac{1}{n^2}(e_{1} + e_{2} + \cdots + e_{n})^2 \\
&= \mu^2 + 2\mu\frac{e_{1}+e_{2}+\cdots+e_{n}}{n} + \frac{1}{n^2}(e_{1}^2 + e_{2}^2 + \cdots + e_{n}^2 + e_{1}e_{2} + \cdots + e_{n-1}e_{n}) \\
\rm{E}(\hat{\mu}^2) &= \mu^2 + \frac{1}{n^2}n\sigma^2 = \mu^2 + \frac{1}{n}\sigma^2 
\end{align*}


以上までの①、②、③から下記:


\begin{align*}
\rm{E}\left[ (y_{i} - \mu)^2 \right] &= \rm{E}(y_{i}^{2}) - 2\rm{E}(\hat{\mu}y_{i}) + \rm{E}(\hat{\mu}^{2}) \\
&= \mu^2 + \sigma^2 - 2(\mu^2+\frac{1}{n}\sigma^2) + \mu^2 + \frac{1}{n}\sigma^2 \\
&= \mu^2 + \sigma^2 - 2\mu^2 - \frac{2}{n}\sigma^2 + \mu^2 + \frac{1}{n}\sigma^2 \\
&= \sigma^2 - \frac{1}{n}\sigma^2 = \frac{n-1}{n}\sigma^2
\end{align*}

が得られ、標本分散を推定する際には真の分散\sigma^2から\frac{n-1}{n}だけ小さくなっていることを考慮する必要があることがわかります。そのため\sigma^2を求めるには\frac{n}{n-1}を乗じる必要があり、n\sigma^2(n-1)で割らなければなりません。このようにして求めた分散を不偏分散と言います。