統計コンサルの議事メモ

統計や機械学習の話題を中心に、思うがままに

最小二乗法と解の特性

こんばんは、ushi-goroshiです。この名前の由来はそのうちに。

今日は最小二乗法によって得られる解の特性について書いておきます。

 

先日、とあるWebページを見ていると、以下のような文章が目に入りました。

残差分散が不均一であるときに最小二乗法を使うと、t値の値が信用できなくなる

みなさんはこの指摘をどう思いますか?

私は間違っていないと思います。が、そもそもの理解に間違いがあるような気がしてなりません。というのも、最小二乗法は単に「予測値と実測値の残差の二乗和を最小にする方法」であって、データに対して何も仮定を置いていないからです。

上記の指摘は「誤差分布として正規分布を仮定した検定を行おうとしている場合」には正しいと思うのですが、それは解の推定方法とは本質的に異なる話なんですよね。

つまり「最小二乗法を使う」と「t値の値が~」は異なる話題であるにも関わらず、同時に並べた上で議論しているのです。

例えばこの説明が「最小二乗法」ではなく「最尤法」であったら?

やっぱり後段の指摘は成立するので、解の推定方法の問題ではないことがわかるのではないでしょうか。

 


ついでに、このページには「最小二乗法は系列相関がないと仮定して~」との記述がありましたが、それも正しくありません。

最小二乗法はあくまで残差(二乗誤差)を小さくする推定法であって、系列相関に関する仮定を置いていないんですね。

 

これらの筆者の指摘は、「最小二乗法」ではなく「(線形)回帰分析」に置き換えると非常に腑に落ちます。
思うに、回帰分析を習得した際、「誤差に関する古典的仮定」と「解の推定方法」を同時に学んだがために、それぞれの特性を混同してしまったのではないかと推察しています。

統計の教科書を見ていると、大体の場合、線形回帰は最小二乗法で解きますし、正規方程式とか言って印象付けてくるのでそうなるのも無理はないと思います。

しかし、筆者が指摘したいのは「誤差が正規分布に従わない場合、t検定は適切でない」ということでしょうが、推定と検定は分けて考える必要があるでしょう。
誤差が正規分布に従わない系列に対して正規分布を仮定すれば、最小二乗法だけでなく最尤法やGibbs Samplingであってもt値を信用できないのは自明です。

 

なお、統計分析を実行できるパッケージの多くは、ご親切にもパラメータ(この場合、回帰係数)の隣に標準誤差やt値(あるいはz値など)を表示してくれますので、逆にこれが「推定」と「検定」を混同する要因となっている気がします。
あるいは、某パッケージで線形回帰分析を実行すると分散分析の結果まで返してくれるのですが、これもまた手法の混同の要因になっている気がします。。。

最後は余談ですが、推定と検定は別物なんですよ、という内容でした。