リッジ回帰の解の特性 - 統計コンサルの議事メモ

SAPのソリューションに「InfiniteInsight」というものがある。旧KXENをSAPが買収したもので、搭載されているアルゴリズムはサポートベクターマシンの開発者（VapniK）によるものらしく、統計解析に対する知識や経験なしに高精度のモデルを作成することができるらしい。

さて、このInfiniteInsightでは「分類・回帰」に類するものに対する分析では「リッジ回帰」が適用されるという話を耳にした。事の真偽はさておき、この「リッジ回帰」に思うことを述べてみる。

まずリッジ回帰とは何かと問われると、「L2ノルムの二乗を正則化項（ペナルティ）として与える罰則付き最小二乗法」である。いわゆる縮小推定法の一種で、学習データへの過適合を防止するために用いられたりするのだが、これはデータに対して過適合を生じたり多重共線性が問題となるような状況では一般にパラメータの絶対値が大きくなりやすいため、パラメータスペースに制約を設けることが可能なためである（ちなみにL1ノルムを罰則として与える方法をLasso回帰と呼ぶ）。

ここで思うのだが、リッジ回帰（Lassoも）を適用しようと考えている人は「汎化誤差を小さくする可能性が高まる代償として、不偏性や有効性を失っている」ことにまで考えが及んでいるのだろうか？

誤差が正規分布にしたがう変数に対して最小二乗法により解を推定した場合、この解はBLUEとなり、不偏性や有効性・一致性を備えることが知られているが、リッジ回帰ではそこに正則化項を加えることでパラメータが極端な値を取ることを防いでいる。もちろんこの解は不偏推定量ではないため、解の期待値が真の解と一致しないことを容認していると言える。そこまで踏まえ、それでもなおリッジ回帰を選択したというならば良いのだが、これまでに見てきたケースでは多くの場合、そこまで考えたものではなかった。交差検定による検証を行った結果、テストデータに対する予測性能が高くなることから「汎化性能が高い」→「良いモデル」という安直な考えによるものであったと思う。

近い話では、昨今の機械学習の流行に対しても似たような思いを持っている。Kaggleのようなデータ解析コンペでは様々なアルゴリズムを組み合わせた予測モデルを作ることがトレンドであるようだが、そのような方法で求められた解には一体どのような意味があるのだろう？

統計学における「モデル」という言葉の意味をもう一度よく考えてみたい。