統計コンサルの議事メモ

統計や機械学習の話題を中心に、思うがままに

21世紀の相関係数

こんにちは、ushi-goroshiです。


相関係数と言えばPearsonの積率相関係数(Excelの関数ではCorrel)が有名ですが、この値は2つの変数間の「直線的関係」しか見れないため、数値をそのまま信用すると痛い目にあったりします(非線形の関係を見逃してしまうので)。


そこで2011年に考案されたのが「最大情報係数(MIC)」で、表題の通り、21世紀の相関係数なんて呼ばれたりします。
大変便利なことにRではPackage化されており、以下のように簡単に計算できます:

install.packages("minerva")
library(minerva)

dir <- "C:/~~/Desktop"
setwd(dir)

dat <- read.csv("sample.txt", header=F)

## MIC
mine(dat)$MIC

## 通常の相関係数
cor(dat)


参考:
http://takehiko-i-hayashi.hatenablog.com/entry/20130426/1366948560