統計コンサルの議事メモ

統計や機械学習の話題を中心に、思うがままに

平均の影響を考慮した分散の比の検定

こんにちは、ushi-goroshiです。
最近、家のベランダからすぐの所にクモの巣ができたので、巣のメンテナンスをしているクモを日々微笑ましく見ています。
我が家のベランダに接近しない限り。。。


さてタイトルの件ですが、以前に友人から相談を受けた際の回答についてメモしておきます。

一般に分散の大きさの違いを検定する場合、手法としてはF検定があります。
しかし、例えば大きく平均が異なる二つの集団において、平均値の影響を考慮しつつ分散の大きさの違いを検定できないだろうか?というのが友人の疑問でした。



この相談を受けた時、私は「近似ではあるが、可能」と答えましたが、同時に友人が仮定している内容について疑問を持ちました。
この友人は対象となるデータが「正規分布にしたがう」という前提で話を持ちかけてきたのですが、正規分布は平均と分散が独立であるため、平均値の影響など気にせずにそのままF検定を掛けるのが筋だと思われたためです。

よくよく話を聞いてみると、友人の疑問は例えば「日本人とアメリカ人の身長に関するデータ」のようなもので、要するにデータの分散がスケールに影響される類のものでした。
これは正規分布ではないため、そのままF検定を当てはめるのは不適当であるように思えます。


少し考えた結果、友人には以下の3つのアイディアを提供しました:

  1. 検定はあきらめて、変動係数を用いて比較する
  2. 観測値の対数を取ってから分散を求め、F検定を行う
  3. 観測値を各集団の平均値で割ってから分散を求め、F検定を行う

このなかでは2が最も良いように思えます。
というのも対数変換した観測値の標準偏差は元の観測値の変動係数に近似するため、平均値のスケールを合わせつつ分散比が検定できると考えたからです。

 \rm{log}x_{i} = \rm{log}\bar{x} + \rm{log} \left\{ 1 + (x_{i} - \bar{x})/\bar{x} \right\} \sim \rm{log}\bar{x} + (x_{i} - \bar{x})/\bar{x}

上記の式の最右辺は、x=1とした一次のテイラー展開による近似です。
3も処理としては似たようなものなのでこちらでも良いと思ったのですが、それぞれを異なる値で割るのは良くないでしょう。


件の友人は上記の説明により2を選択しました。
その後の結果は聞いていませんが、何も言ってこないあたり、何とかなったのではないでしょうか。

スケールの影響を加味した分散比の検定方法についてご存知の方がいれば、ぜひ教えてください。