読者です 読者をやめる 読者になる 読者になる

ushi-goroshiの雑記帳

統計や機械学習の話題を中心に、思うがままに

統計モデルに思うこと

統計

機械学習人工知能が認知されるにつれ、従来のデータ分析者が使用していたモデルという言葉の意味が変わってきたように思います。今日は自分なりに、統計モデルの意味について考えてみます。

「統計」の意味

はじめに「統計」の意味について考えてみましょう。
「統計」とは、「統(す)べて計る」と書きます*1。「統べる」とは「多くのものを一つにまとめる」ことを意味し、「計る」は「基準をもって度合いを調べる」ことを指します。したがって統計とは「数多くのデータを一定の基準によって一つ(または少数)の情報にまとめること」であると言えるでしょう。

実際、近代統計学が発展した1800年代後半~1900年代前半では、多数の標本から得られたデータの特性を表現できるような統計量の開発が、ピアソン(Karl Pearson)を中心に行われてきました。このような統計学は''記述統計学''と呼ばれ、モーメント法と呼ばれる手法の開発などその後の統計学の発展の基礎となりました。

現代においても、統計学の目的が「データの特性の表現」である点は変わりません。
フィッシャー(Aylmer Fisher)以降、統計学は記述よりも推定にその重心をおく傾向が強くなりましたが、その目的はあくまでも「パラメータ(母数)の正確な推定」にあるためです。

確率分布

それでは、統計モデルはなぜデータを要約することができるのでしょうか?数千、数億といった多数のデータが持つ情報を、わずかな数値で表現することができるのはなぜでしょうか?

答えは、「対象となるデータが確率分布に従っているため」です。確率分布に従う変数であるならば、その出現頻度を少数の数値によって予測することが可能となります。このような数値、すなわち確率分布の形(特性)を決定する値をパラメータと呼び、このパラメータを厳密に知ることができれば、たとえ膨大なデータに適用したとしても、偏りのない予測値を得ることが可能となるでしょう。
したがって統計解析、特にモデリングにおいては、データが従う確率分布をよく理解し、パラメータに影響する要因を探し出すことが目的となります。

統計モデル

以上のような背景から、統計モデルには以下のような特性が求められます:

  • 母集団のしたがう確率分布を適切に仮定できている
  • 母集団のしたがう確率分布のパラメータを正確に推定できている
  • 説明要因(推定対象)は少なければ少ないほど望ましい(統計の本質がデータの要約だから)

また現代の統計解析では:

  • 解析結果から得られた知見を最大限利用することができる

ことも求められます。したがって「現象をより良く説明できるモデル」よりも、「モデルを扱う人が運用しやすい」モデルの方が望ましいこともあります。


以上が私の統計モデルに対する考えです。統計モデルとは単に確率変数間の関連性を表したものではなく、以上のような背景を踏まえた上でさらに自身の信念・仮定・制限を表現したものと言えます。モデルとは、背景にある事象を簡略化した表現なのであるから、単に予測精度が高いだとか、コントロール可能な変数だけを含めるべきだとか、新しい知見を発見するための方法などといった考え方に、私は与しません*2

おまけ

母集団がしたがう確率分布のパラメータを知ることはできません。したがって、「正しい」モデルを作成することは、現実的に不可能です。それならば、我々が扱うモデルは「皆等しく」間違っているのでしょうか?

決してそうではありません。やはり、データの特徴も考えずに作成したモデルと、十分に吟味を行ったモデルとでは精度が違ってくるでしょう。ボックス(George Box)曰く、All models are wrong, but some are useful.です。解析者に求められるものというのは、この"useful"なモデルを追求することなのではないでしょうか。

*1:東京都総務局統計部 http://www.toukei.metro.tokyo.jp/manabou/tyuu/sirou2/ippo2/towa2/ma1207t211.htm

*2:なおこの辺りはモデルに対する哲学的なものなので、どれが正解といったものでもないと思っています