統計コンサルの議事メモ

統計や機械学習の話題を中心に、思うがままに

ggvisによるRで可視化

面白いパッケージを発見したので紹介。可視化のための機能を提供してくれるもので、{ggvis}というもの。もしかすると{ggplot2}を超えるかもしれない。使い方が非常にシンプルで、思想として{ggplot2}に似ているので慣れた人にはスイッチしやすいと思う。dply…

Anscombeの例

二変数間の関連性の強さを評価する上で最も良く使われる指標は、間違いなくPearsonの積率相関係数、いわゆる相関だと思う。Excelでも関数により算出でき、関連の強さを-1〜1で評価できるというお手軽さが受け入れられやすいのだと思う。さて、この相関は直線…

Ad-Stock効果を推定しつつ回帰を回したい③

Marketing Mix Modelingにおける広告の累積効果の推定について、以下の記事を書いた。ushi-goroshi.hatenablog.com ushi-goroshi.hatenablog.com本日はこの続きで、同じような条件で作成したデータに対してstanを用いたベイズ推定を実施したので、その内容を…

Ad-Stock効果を推定しつつ回帰を回したい②

先日、Marketing Mix Modelingにおける広告の累積効果(Ad-Stock効果)の推定について以下のような記事を書いた。ushi-goroshi.hatenablog.comその後も推定方法について調べていたところ、以下のような記事を発見した:www.mm-lab.jp要するに一期前の目的変…

Keras for R

RstudioがR上でKerasによるディープラーニングのモデルを構築するためのライブラリ{keras}を公開した。R Interface to Keras • keras以前から{tensorflow}を使えばtensorflow::import(module = "keras")でKerasを導入することができたようだが、{keras}を先…

帰無仮説は採択できない

統計的仮説検定は通常、以下のような手順に従って行われる: 帰無仮説を設定する 対立仮説を設定する 検定統計量を設定する 有意水準を設定する 実験やデータ解析によって検定統計量を求める 帰無仮説を真と仮定した時の検定統計量の得られる確率を求める 設…

Ad-Stock効果を推定しつつ回帰を回したい

最近ずっとMarketing Mix Modeling(MMM)をやっている。その中で広告効果(いわゆるROI)を推定しているのだけれど、広告の効果というものは出稿した時点だけでなく将来に渡って影響を及ぼすため、過去の広告の累積による影響(いわゆる残存効果・Ad-Stock…

dplyr::filterの注意点

R

最近すっかりHadley信者になってしまいデータ加工にもdplyrをよく使っているのだけれど、filterで少し躓いてしまったのでメモ。まずは{dplyr}と{dtplyr}を読み込む: library(dplyr) library(dtplyr) やりたかった処理とは以下のようなもので、irisを例とす…

summaryの罠

R

年月を6桁の数値(YYYYMM)で表すために以下のように書いて何気なくsummaryを実行したところ、思わぬ挙動となった。 > Year <- rep(2012:2016, each=12) > Month <- rep(1:12, 5) > YM <- Year * 100 + Month > summary(YM) Min. 1st Qu. Median Mean 3rd Q…

SparklyrによるApache Sparkのインストールとロジスティック回帰の実行

{sparklyr}というパッケージを使うことでWindowsであってもApache Sparkのインストールが簡単にできる。また{sparklyr}にはSpark MLlibの機械学習用の関数がラップされており、それを使ってみた結果を記しておく。基本的にはRstudioの{sparklyr}の紹介ページ…

Microsoft R Clientによる大規模データの分析

R

Revolution Analyticsを買収したMicrosoftが、Revolution R Openに代わりMicrosoft R OpenというRのラッパーのようなものを出している。それに更に大規模データ分析用の独自開発パッケージを追加したMicrosoft R Client(MRC)というツールがあり、MRCの独自…

人工知能と機械学習とDeep Learning

「人工知能(AI)による業務改革!」「Deep Learningを搭載した○○!」みたいな記事は巷に溢れかえっているが、そういった記事を見るにつけ思うのが「人工知能と機械学習、Deep Learningなどのアルゴリズムの区別ってどうなっているんだろう?」ということで…

RでTensorFlow

知らない間にRでTensorFlowが使えるようになっていたので触ってみました。それにしてもRStudioは相変わらずイイ仕事をしますね。まずは以下の通り、RStudioのGitHubからTensorFlowのライブラリをインストールします。なおこのライブラリはあくまでPCに事前に…

optimってあんまり信用できないなぁ、って話

タイトルの通りです。仕事で使うことがあったのでRのoptimを使って回帰を解いてみたのですが、これが意外に安定しません。変数の数なのか、ダミー変数が含まれるとダメなのか、原因についてはよくわかりませんが想定以上に解がバラついてしまいました。実行…

リッジ回帰の解の特性

SAPのソリューションに「InfiniteInsight」というものがある。旧KXENをSAPが買収したもので、搭載されているアルゴリズムはサポートベクターマシンの開発者(VapniK)によるものらしく、統計解析に対する知識や経験なしに高精度のモデルを作成することができ…

できないと言ってはいけません

仕事をしていて思ったことを。統計分析が求められる場面というものはいくつもあるが、その中で最もメジャーと言ってよいものの一つが「将来予測」だと思う。身近なもので言えば株価や天気で、「明日はどうなるか?」という問いについて、モデルは一つの答え…

Data Scientist Workbench

こんなサービスがあることを最近知った。 ■Data Scientist Workbench datascientistworkbench.com IBMが提供しているサービスで、ブラウザ上でRStudioやJupyterが実行できる環境を提供してくれる(無料で!)。分析手法よりもHadoopやSparkなど大規模データ…

RでBI

忙しかったので久しぶりの更新です。 最近Rでこんなパッケージを発見して驚いた。その名もrpivotTable。なんとRでTableauのようなBIツールを再現してしまうという夢のようなパッケージだ。パッケージのインストールから実行までは以下のようになる: install…

遺伝的アルゴリズムで変数選択を行うパッケージ

遺伝的アルゴリズム(GA)をRで実行するためのパッケージを探していたら、GAによる変数選択という非常に興味深いものを発見した。パッケージ名はGALGO。Genetic Algorithms to solve Optimization problemsらしい。早速使ってみたが、インストールに少し手間取…

母数の意味

母数という言葉は誤用が多々あるように思います。例えばデータの大きさの話をしている際に「このデータは母数が小さいから~」「十分な母数を確保して~」みたいな言い方をする人をよく見かけるのですが、統計学において「母数」とは「パラメータ」と訳し、…

決定係数についての諸注意

決定係数は線形回帰分析においてモデルの精度を表す指標の一つで、1に近いほど良いモデルであるとされます。またこのは相関係数の二乗で求めることがあります。 しかしこれらの説明は必ずしも正しいとは言えないため、注意が必要です。

不偏分散をn-1で除して求める理由

統計の勉強を始めた時、初めに躓きそうな内容として不偏分散があります。要するに標本集団から分散を求める際は、平均を推定した分の情報量の減少を加味するために、標本サイズではなく自由度で割りましょうという内容です。このとき、「平均を推定する際に…

データ分析にあたっての参考書籍

データ分析に興味を持ち始めた方から、参考となる書籍についての質問を受けることがあります。統計や機械学習、データ分析に関する本は世に溢れているので、どれを読めばよいか困りますよね。そんな時にいつもお薦めしている本が2冊あります。 ①統計学入門 …

Google's R style Guide

R

プログラミングは人によって色々と「お作法」が異なっているため、他人の書いたコードを見ると非常に勉強になったり、はたまた困惑したりします。 個人の趣味や絶対に他人が関わらない範囲であれば構わないのですが、チームでプロジェクトに入った時などは、…

60 R Language Tips

R

RであれPythonであれ、プログラミング言語というのは多くの人がハマりがちなポイントがありますよね。そのようなときは先人の残した知恵に頼るのが良い解決策であり、Tipsが集積された資料があると大変うれしいですね。というわけでこれ。60 R Launguage Tip…

Caffeその②

前回(Caffeその① - ushi-goroshiの雑記帳)の続きです。

Caffeその①

ディープラーニング、特に画像認識で大変メジャーなライブラリであるCaffeを使用してみましたので、その際の手順をメモしておきます。今回はインストール。

統計モデルに思うこと

機械学習や人工知能が認知されるにつれ、従来のデータ分析者が使用していたモデルという言葉の意味が変わってきたように思います。今日は自分なりに、統計モデルの意味について考えてみます。

人工知能って何ですか

今日、ニュースを見ていたらこんな記事がありました。人工知能が株式市場で存在感、学識者驚く的中率68%-将来8割可能も - Bloomberg株式の将来予測に人工知能を用いることで上昇/下降を精度よく的中させることが可能であるとのことです。私は投資家ではな…

Mac Book Airを買いました

Mac

こんにちは、ushi-goroshiです。 先日は冬とは思えないぐらいに暖かい日があり、春を感じる今日この頃です。突然ですが、Macデビューを果たしました。 Mac Book Airを買いました。これまでずっと何をやるにも会社貸与のPCを使用していたのですが、Windows環…

無作為抽出と無作為割り当て

こんにちは、ushi-goroshiです。 今日は(も)統計のお話。 有名なオンライン講座のcourseraでは統計学の講義もいくつかあります。 そのうちの一つ、Duke Universityの「Data Analysis and Statistical Inference」はRを使いながら統計の勉強ができる非常に…

SAS + R

ushi-goroshiです。 あけましておめでとうございます。 最近知ってとても衝撃だったのですが、統計解析ソフトとして有名なSASがなんと無料で使えます。 SAS University Edition 無償の統計ソフトウェア SAS University Edition | SAS インストールなどを解説…

21世紀の相関係数

こんにちは、ushi-goroshiです。 相関係数と言えばPearsonの積率相関係数(Excelの関数ではCorrel)が有名ですが、この値は2つの変数間の「直線的関係」しか見れないため、数値をそのまま信用すると痛い目にあったりします(非線形の関係を見逃してしまうの…

IBMが機械学習用のライブラリSystemMLをOSS化

こんばんは、ushi-goroshiです。 12月に入るとあっという間にクリスマスな雰囲気ですね。今年のプレゼントは何にしようか。。。 さてタイトル。 先日のGoogleに続き、今度はIBMが機械学習のライブラリ(SystemML)をOSS化するそうです。japan.zdnet.comこのS…

Googleが人工知能ライブラリTensorFlowをオープンソース化

こんにちは、ushi-goroshiです。 少しずつ寒さが増しており、夜、帰宅すると眼鏡が曇る日々がやってきました。 さてタイトル。 GoogleがTensorFlowという人工知能ライブラリをオープンソースで解放したというニュースが流れていました。 しかも商用利用可!…

平均の影響を考慮した分散の比の検定

こんにちは、ushi-goroshiです。 最近、家のベランダからすぐの所にクモの巣ができたので、巣のメンテナンスをしているクモを日々微笑ましく見ています。 我が家のベランダに接近しない限り。。。 さてタイトルの件ですが、以前に友人から相談を受けた際の回…

はてな記法の練習

こんばんは、ushi-goroshiです。 先日動物園に行ってきまたのですが、ushiが見られず残念でした。 ところで、はてなではrのソースコードをハイライト表示できたり、latexの数式表現ができるらしいのでこの記事で少し練習してみました。 備忘録を兼ねて記事と…

最小二乗法と解の特性

こんばんは、ushi-goroshiです。この名前の由来はそのうちに。 今日は最小二乗法によって得られる解の特性について書いておきます。 先日、とあるWebページを見ていると、以下のような文章が目に入りました。 「残差分散が不均一であるときに最小二乗法を使…

ブログ開設

統計、機械学習、データサイエンス、科学哲学、IT、 色々なテーマを、思うままに。