統計コンサルの議事メモ

統計や機械学習の話題を中心に、思うがままに

21世紀の相関係数

こんにちは、ushi-goroshiです。


相関係数と言えばPearsonの積率相関係数(Excelの関数ではCorrel)が有名ですが、この値は2つの変数間の「直線的関係」しか見れないため、数値をそのまま信用すると痛い目にあったりします(非線形の関係を見逃してしまうので)。

続きを読む

IBMが機械学習用のライブラリSystemMLをOSS化

こんばんは、ushi-goroshiです。
12月に入るとあっという間にクリスマスな雰囲気ですね。今年のプレゼントは何にしようか。。。


さてタイトル。
先日のGoogleに続き、今度はIBM機械学習のライブラリ(SystemML)をOSS化するそうです。

japan.zdnet.com

このSystemMLというライブラリは聞いたことがなかったのですが、少し調べた限りではSparkのMLlibで競合するとのことでした。
そこでもう少し調べたところ、SystemMLのリファレンスが。

SystemML Algorithms Reference - SystemML 0.8.0

一方、Spark MLlibはと言うと。

MLlib | Apache Spark

うーん、似ている・・・ような。


ところでこのSystemMLは先日のTensorFlowと異なりディープラーニング用というわけではないようで、上記のリファレンスを見る限りニューラルネットに対応していないようです。
ではIBMニューラルネットを開発するものはと言うと、System Gというのがあるようです。

IBM System G | Neural Network Toolkit


ところで、他社と比較するとAppleの動きが遅いように思うのですが、いずれ動きがあるんでしょうか。

Googleが人工知能ライブラリTensorFlowをオープンソース化

こんにちは、ushi-goroshiです。
少しずつ寒さが増しており、夜、帰宅すると眼鏡が曇る日々がやってきました。


さてタイトル。
GoogleがTensorFlowという人工知能ライブラリをオープンソースで解放したというニュースが流れていました。
しかも商用利用可!ということで、多くの企業が関心を持ちそうです。

japanese.engadget.com


Mac/Linux環境があればインストール ~ テストは簡単にできるようで、「試してみた!」的な記事がいくつか出ていますね。
私の勤務先はWindows環境しかなく、しかもVM系のソフトのインストールは禁止なのでなかなか試せませんが、これは気になります。

TensorFlowもそうですが、Theanoやchainerなどのディープラーニングのフレームワーク/ライブラリはWindows環境だとインストールで躓くことが多いので、ぜひLinux環境を用意してほしいと切に願う今日この頃です。
せめてMacを用意してくれれば。。。



参考:
http://googledevjp.blogspot.jp/2015/11/tensorflow-google.html
http://www.wired.com/2015/11/google-open-sources-its-artificial-intelligence-engine/

平均の影響を考慮した分散の比の検定

こんにちは、ushi-goroshiです。
最近、家のベランダからすぐの所にクモの巣ができたので、巣のメンテナンスをしているクモを日々微笑ましく見ています。
我が家のベランダに接近しない限り。。。


さてタイトルの件ですが、以前に友人から相談を受けた際の回答についてメモしておきます。

一般に分散の大きさの違いを検定する場合、手法としてはF検定があります。
しかし、例えば大きく平均が異なる二つの集団において、平均値の影響を考慮しつつ分散の大きさの違いを検定できないだろうか?というのが友人の疑問でした。

続きを読む

はてな記法の練習

こんばんは、ushi-goroshiです。
先日動物園に行ってきまたのですが、ushiが見られず残念でした。


ところで、はてなではrのソースコードをハイライト表示できたり、latexの数式表現ができるらしいのでこの記事で少し練習してみました。
備忘録を兼ねて記事として残しておきます。


やっぱりlatexでの数式表現は良いですね。

続きを読む

最小二乗法と解の特性

こんばんは、ushi-goroshiです。この名前の由来はそのうちに。

今日は最小二乗法によって得られる解の特性について書いておきます。

 

先日、とあるWebページを見ていると、以下のような文章が目に入りました。

残差分散が不均一であるときに最小二乗法を使うと、t値の値が信用できなくなる

みなさんはこの指摘をどう思いますか?

続きを読む