不偏分散をn-1で除して求める理由
統計の勉強を始めた時、初めに躓きそうな内容として不偏分散があります。要するに標本集団から分散を求める際は、平均を推定した分の情報量の減少を加味するために、標本サイズではなく自由度で割りましょうという内容です。このとき、「平均を推定する際に標本からデータ1つ分の情報が使用されているため、分散を求める際はnではなく(n-1)で割る」と教えられるでしょう。
言葉で教えられると結構あっさりとしているのですが、数式できちんと追っていくとこれがなかなか大変です。以前に勉強した時のメモが出てきたので、texを思い出しながらおさらいしてみます。
であるとき、
から、 が導けます。分散とは平均値からの偏差の二乗の期待値であるため、
が得られ、右辺の3つの項をそれぞれ計算すれば良いとわかります。ただしここで、 とします。
①
まず①ですが、これは下記のように求められます。
②
次に②ですが、これはと展開し、右辺の2つの項をそれぞれ求めます。
1.
であるため、
2.
以上の1、2より、 となります。
③
最後に③ですが、下記の通りとなります。
以上までの①、②、③から下記:
が得られ、標本分散を推定する際には真の分散からだけ小さくなっていることを考慮する必要があることがわかります。そのためを求めるにはを乗じる必要があり、をで割らなければなりません。このようにして求めた分散を不偏分散と言います。