無作為抽出と無作為割り当て - 統計コンサルの議事メモ

こんにちは、ushi-goroshiです。
今日は（も）統計のお話。

有名なオンライン講座のcourseraでは統計学の講義もいくつかあります。
そのうちの一つ、Duke Universityの「Data Analysis and Statistical Inference」はRを使いながら統計の勉強ができる非常に親切な講義ですが、先日、この講義を見ていた際に無作為抽出と無作為割当の話がありました。
非常に大事な話なので、当ブログ本来の目的でもある備忘録として整理しておきます。

無作為抽出

無作為抽出とは、標本抽出の対象となる集団（いわゆる母集団）から標本を選ぶ際、すべての標本から無作為に抽出することを指します（そのままですが）。
ここで『無作為』とは「選択される確率が全ての標本でそれぞれ等しい」ことを意味しており、要するに、誰しもが皆平等である、という状態です。

このようにして抽出された標本は母集団を代表する集団となるため、ここから得られたパラメータをもって母集団の性質を推測すること、すなわち一般化が可能となります。
逆に抽出方法に偏りがあった場合、結果を母集団全体に適用することが難しくなり、汎化性能が低くなります。
ちなみに無作為抽出と言っても方法はいくつかあったりします（クラスターサンプリングとか）。

無作為割当

無作為割当とは実験計画でよく使われる手法で、対象となる被験者・標本を無作為に複数のグループのうちの一つに割り当てることを指します（無作為の意味は上と同じです）。
十分に大きなサイズの標本を完全に無作為にグループに割り当てることで、グループ（例えば薬の投与の有無）以外の条件を揃えることが可能となります。
これによりコントロールしたい条件以外の影響を排除することができ、因果関係を明らかにすることができます。
（こういう書き方をすると「統計学では因果関係を証明できない」との批判を受けそうな気がしますが、疫学者達の功績を称える意味でも強調しておきたかった。）

無作為抽出と無作為割当はこのような違いがあります。
考えればわかることですが、これまであまり意識することがなかったので反省を込めて書いてみました。

おしまい。