統計コンサルの議事メモ

統計や機械学習の話題を中心に、思うがままに

決定係数についての諸注意

決定係数R^2は線形回帰分析においてモデルの精度を表す指標の一つで、1に近いほど良いモデルであるとされます。またこのR^2は相関係数rの二乗で求めることがあります。
しかしこれらの説明は必ずしも正しいとは言えないため、注意が必要です。


まず決定係数による精度評価についてですが、これは決定係数が

R^{2} = 1 - \frac{\sigma_{e}^2}{\sigma_{y}^2}

として定義できるため、分子である残差分散が小さい*1ほどモデルの精度が良いと考えられることによるものだと思うのですが、この定義では「誤差を過剰に説明してしまう」こと、すなわち過学習(overfitting)に対する考慮がありません。

通常、統計モデルは以下のように数式内に明示的に誤差項を含めます:

\bf{y} = \bf{Xb} + \bf{e}

なおここで\bf{e}が誤差項を示しています。
これは統計学においては全体平均からの誤差を「系統誤差」と「確率誤差」に分け、真に確率的に生じるものを誤差項とするためですが、上記の決定係数の式に含まれる残差分散はこの項に由来する分散を指しています。

しかし確率誤差は確率的に生じるものでコントロール不可能であるため、真の誤差分散の部分についてはどんなモデルであっても説明できないし、すべきでありません*2。したがって決定係数の上限は誤差分散の大きさによって制限を受けるわけです。

ところが、通常は自らが扱うデータについて、この誤差分散を正確に知ることはできません。そのため例えば自然科学においては、他の事例や論文に広く通じることで自身のデータから推定された誤差分散や決定係数が疑わしいものでないと判断しますが、ビジネスではなかなかそうもいきませんね。参考になる事例が少なく、また詳細な数値が得られることはまずないためです。
したがって実務上は上記の制限など気にする必要もないのですが、単に「決定係数が1に近ければ良いモデル、遠ければ悪いモデル」と覚えているとモデルが本来持っている説明力を見誤ってしまうことになってしまうでしょう。


次に決定係数と相関係数の関係についてですが、R^2 = r^2は常に成り立つわけではありません。例えば重回帰では成立しないのですが、その他にも成立しない場合があるため単にこのような覚え方をしてしまうのはよろしくないでしょう。これに関しては私も知らなかったことが多々あるため、以下のURLを是非ご参照ください。大変参考になるページです。

note.chiebukuro.yahoo.co.jp

*1:すなわち回帰式によって全変動を誤差なく説明できている状態

*2:この誤差項の部分までを説明してしまっている状態を過学習と呼びます