統計コンサルの議事メモ

統計や機械学習の話題を中心に、思うがままに

樋口先生退任記念シンポジウム参加記録

11/5に開催された元統計数理研究所の所長である樋口先生の退任記念シンポジウムに参加してきましたので、そのメモを共有しておきます。ご参考まで。やっぱり長らく研究をされてきた方のお話というのは面白いですね。

ご挨拶

統数研 椿広計 氏

バイオインフォマティクスベイズモデリング

東京大学 井本清哉 氏

  • 樋口先生との共同研究
    • ベイジアンネットワークによる遺伝子ネットワークの推定
      • 遺伝子間の因果関係(制御関係)
      • グラフ構造の推定
      • ヒトゲノム、21000個の遺伝子
        • それらが複雑に関係し合う
        • たかだか有限のデータでは推定できない
      • ネットワーク構造の事後確率
      • 生物学的知識、他のデータで事前確率を構成
        • 結合配列
        • タンパク質の相互作用
        • 進化情報
        • データベース
        • 遺伝子ノックダウン
      • バイオインフォマティクスベイズモデリングの格好の応用対象であり、問題の宝庫
      • マイクロバイオームを含んで「私」
      • 健康や病気をデータ化できる時代が来た
    • データ同化による細胞内分子シミュレーションモデルの構築
    • インフルエンザ感染拡大エージェントベースシミュレーション
      • インフルエンザの拡大を抑えるためには会社員のワクチン接種が有効
  • 予測だけを目的としたら、AI(機械学習技術)は人を超えたかも
    • Kaggle、AutoMLがコンペで2位になった
  • ゲノム医療、理由が説明できないと医療に入っていくことは難しい現状
    • 医療分野で AI は Augumented Intelligence
    • 人の能力を向上させるもの
  • 医科学研究所、2900万件の医学論文を学習
  • 思考のリミッターを外しなさい by 樋口先生

消費者行動理解のためのベイジアンモデリング

筑波大学 佐藤忠彦 氏

  • マーケティングに関わる領域も最近は樋口先生の表芸になってきている
  • 能書き
    • マーケティング、現実の市場で発生する現象
    • 問題を解決するために以下の問いに答える必要がある
      • マーケティングを取り囲む環境は?
      • 市場はどこにある?
      • 敵は誰?
      • 顧客はどこに?
      • 顧客の嗜好は?
      • 消費者の価格反応は?
      • 広告、販促への反応は?
      • ものやサービスを選ぶ基準は?
    • 上記は経験や感覚で評価できるか?
      • 科学的アプローチが必要
    • 消費者を理解する = 仮説を発見する
    • 消費者を理解する ≠ 真の姿を解明する
    • 消費者理解のプロセス
      • 複数のモデルを立て
      • 全てのモデルを推定・比較し
      • この時点でもっとも妥当と考えられる構造の推定
      • 情報の変換
      • 結果の活用
    • 現在持ちうる知識で記述能力・汎化能力が高いモデルを選ぶ
    • 消費者理解のキーワード
      • 消費者異質性
      • 時間的異質性
      • 潜在変数
    • パラメータがいっぱいで普通のモデルでは対応できない
    • 事後分布が関心の対象
    • 樋口流ベイジアンモデリング
      • 理論のみならずドメイン知識に基づく
      • こんな構造はないか、あんな構造はないか、という構成的なモデリング
  • マーケティングの事例①:佐藤、樋口(2009)
    • スーパーで牛乳を購買する確率が、潜在変数である家庭内在庫量/消費量の推移に基づき変化する構造
    • 一般状態空間
    • 店に来て牛乳を買う状況
    • n時点での在庫量 = 前日開始時点での在庫量 + 購買量 - 消費量
    • 消費量 = 残っている量 * 消費率
    • 店に来る効用、牛乳を買う効用
    • 動的に変化する
    • 在庫量が変化すると購入確率がどのように変化するか
  • マーケティングの事例②:宮津、佐藤(2015)
    • スーパーにおける購買個数が、心理的財布の状況により変化する構造
    • 給料日直前、給料日
    • 25、10、17日を起点とした3つの累積購買金額の線形結合で柔軟に構成する
    • 閾値ポアソン回帰
      • 心理的財布が閾値に到達しているか否かで行動が変わる
  • まとめ
    • Supply Side Thinking ではなく Demand Side Thinking
    • ぐにゃぐにゃモデルのすすめ
    • ベイズモデリングが有効

固体地球科学とデータ同化

東京大学 長尾大道 氏

  • 北川源四郎 時系列解析プログラミング
  • データ同化
    • 数値シミュレーションと観測データの融合
    • 大規模な状態空間モデルと大規模データ
  • 四次元変分法
  • データ同化入門

樋口先生とブリジストンと私

ブリジストン 花塚泰史 氏

  • 樋口先生と10年以上の関係がある
  • タイヤ事業が8割、多角化事業が2割
  • 売り切り型からソリューションプロバイダーとして
  • 状態空間モデルとカーネルマシンを併用した・・・
  • ブリジストンでの事例
    • タイヤ、ほぼ唯一の電子化されていない部品
    • CAISによる安全・安心なモビリティ社会への貢献
      • インテリジェント化したタイヤ
      • 空気圧、温度を拾うのに加え、タイヤ内のセンサーから
        • 磨耗状態推定
        • 路面状態推定 → 自動車の制御へフィードバック
          • 加速度
          • 路面状態に応じて波形が特徴的に変化
            • ウェット、凍結
            • 周波数領域において特徴的な波形
          • Windowをシフトしながら
          • カーネルSVM
            • (速度によって)系列長が異なるものを比較
            • グローバルアライメントカーネル
              • 計算量がでかい
              • リアルタイムでやりたい
            • 窓同士の類似度
            • ドライとウェットを分類する判別問題
          • GAカーネルの高速化
            • 類似度を計算する窓を制限する
            • タイヤの波形は特徴的な2つのピークが出るので・・・
          • 元のGA、93.9%で判別できるがタイヤ100回転分の時間が必要
          • 工夫により96.9%、タイヤ一回転分ぐらいで判断できるようになった
            • 7種類に判別
          • 冬季道路管理の最適化への適用
            • 路面のメンテナンス
              • 巡回車に乗っている人の目で判断
            • 北海道で実用化されている
              • ISCOS
    • 次世代のデータサイエンティスト育成
      • 社内研修
  • 将来的な発展
    • センシング技術
    • 解析、予測
    • デジタルサービス

ベイズモデリングと歩んだ30年

中央大学 樋口知之 氏

  • 平成元年に入所、平成31年に退任
    • 200MBのデータ解析に大型計算機が必要だった時代
  • 人間の未来予測は当たらない
  • モデルとモデリング
    • 何が違うのか
      • 常にモデルを改良する姿勢
      • ものの見方、捉え方を柔軟に変化
      • 思考のプロセス自体を科学する
    • モデルを比較するための羅針盤としての情報量基準
  • 赤池先生との出会い
    • 多変量自己回帰を応用したセメント工場、火力制御
    • 船のオートパイロット(北川先生)
  • 当時
    • 支配方程式がない、計算コストが大
  • 生成モデルと識別モデル
    • 生成モデルはデータが生成される過程
    • 識別モデルはデータやパラメータを与えたときにどのように識別されるか
    • 後者が簡単(機械学習コミュニティで盛ん)
    • 統計の人たちはデータがどんな機序で生まれたのかに強い関心がある
  • 頻度主義 vs ベイズ主義
  • ベイズの定理がなぜ役立つか?
    • コンピュータの性能向上
      • 周辺尤度の計算
    • 高精度センサーのコモディティ化
      • 尤度関数
    • ストレージの廉価化
      • 細かい情報を保存
  • 1980年代の統数研
  • 統数研
    • 統数研の助手は世界でもっとも恵まれている
    • 人材採用方針
      • 数理統計、確率論
      • 物理、計算科学、計算機科学
      • データの質、量の観点で大きく変化のある分野から
    • 赤池先生
  • アカデミアから産業界への人材流出は欧米でも同じ
    • クロスアポイント
  • メゾスコピックモデリング
    • 数理表現された法則
    • 第一原理法則
  • 演繹と帰納
  • 逐次データ同化技術
    • KFとPFの間にある
    • 状態ベクトルの次元数、アンサンブルメンバー数
  • 統計的推論法のパラダイムシフトを促す外的要因
    • ビッグデータ
    • データ駆動サービス社会
      • 因果から相関へ
    • 目的特化型計算機
  • 分析者の技術から計算パワーへ
  • 力学的ダウンスケーリング
  • エミュレーション、仮想計測
  • やっていること
    • GANを使ってエミュレータを作る
    • 深層学習と状態空間モデルの融合
    • 高等教育
  • 機械学習と統計
    • Data driven vs Science driven
    • Predictive model vs Descriptive model
    • Correlation vs Causality
    • 認識科学から設計科学
    • 対象理解から帰納の最適化
    • 「真のモデルなど存在しない」という見方は、当面の問題のイメージ能力の欠如

AI社会での数理モデリングと現場主義の意義と価値

東京大学 合原一幸 氏 東北大学 早瀬敏幸 氏 大阪大学 鷲尾 隆 氏 ブリジストン 花塚泰史 氏 中央大学 樋口知之 氏

  • 分野横断的なアプローチで豊富な共同研究実績の持ち主
  • 合原氏
    • 数理工学
      • 統計とは兄弟みたいな
      • 暮らしを変える驚きの数理工学
      • ニューラルコンピュータ
      • アルファ碁解体新書
    • AIと人間の共同作業、協働
      • Pair Go
      • ファッション
        • GANでデザイナーっぽいデザイン
  • 早瀬氏
    • 流体力学、制御工学、生体工学
    • データ同化
  • 鷲尾氏
    • 演繹的なモデリングの自動化
      • 要素還元主義・普遍主義
      • 外挿に利用可能
      • 深い理解が可能
    • 帰納的なモデリング
      • 高精度な近似はできるが外挿できない
      • XAIの観点から、浅い理解しかできない
    • 演繹的モデルと帰納的モデルのより広範な融合
  • 三者は生成モデルにこだわりがある
  • 3つのお題(6つの事前質問から)
    • 現場主義
      • 1.現場主義とKKDの違いは? 現場主義に重要性について
      • 2.学生や研究者に現場主義をどう教育していくべきか?
        • 樋口
          • 現場に出向く研究者魂
          • 現場の人と厳しく議論できるコミュニケーション力、分野跳躍力
          • 本質的な課題を数理の問題にしたてるセンス
          • しつこさ
        • 鷲尾
          • 向こうの分野の研究者に統計や機械学習を教えた方が良いという経験
          • 現場を知っている人の方がよく使える
        • 合原
          • 中小企業において、社長が現場を見に行く
            • そうすると階層構造にショートカットが生まれる
        • 早瀬
          • 研究時間が減っていて、研究に割ける時間がない
        • 花塚
          • ブリジストンでの取り組み
            • 工場のオペレーター、タイヤ館の店員
            • 何に困っているか、ソリューションが役にたつかを話を聞きに行く
            • 障害
              • 相手が自分のナレッジを理解していない
              • KKDが正しいかの見極め
            • ドメインの知識を作り手側が持っていないといけない
      • コミュニケーションが取りづらい相手は?
        • 無茶振りする(合原)
          • 専念しても一年かかるようなもの
          • データ化されていないものを大量に持ってくる
          • 割ける時間の中でうまく成果が出るテーマ選び
          • 他の人に無茶振りしてみる
            • その人だったら無茶ではないかもしれない
            • 人脈づくり、人的ネットワーク
              • 有名な人を知っているだけではダメ
              • あの人はいま時間がある
        • 分析・テーマの振り返りが繰り返されるので、じっくり取り組む必要がある(鷲尾)
    • 人とAI
      • 3.複雑な現象を数理モデルで表現する意義は?
      • 4.今後の研究スタイルはどう変わっていくか?
        • 合原
          • Data drivenは実用上は問題ない
          • そこから法則をスッキリ抜き出すことができれば面白い
          • シンプルな非線形性で抜き出したい
          • ニューラルネットは完全にTransparent
            • 言葉にできないだけ
        • 鷲尾
          • 機械学習の研究者が精度を競っているので精一杯
          • 最近XAIが成長してきた
          • 中身を理解しやすいモデルはどうやって作るか
          • 現在の機械学習は、現実との引き合わせができていない
        • 花塚
          • 製造業においてはケースバイケース
        • 早瀬
          • 順モデルなのか逆モデルなのか
          • どのような過程で生まれたのか説明される必要がある
          • 現実のシステムがもつ因果
    • 教育システム
      • 5.分野横断的な学術体系をどのようにして教育システムに組み込むか
      • 6.10年後に国立大学はどのような姿になっているか
        • 東北大学では全員にデータサイエンス系の講義を受けさせることになる(早瀬)
        • オーストラリアの某大学は数学科を三等分している(合原)
        • 若い人を早めに独立させる(合原)
          • 教授、准教授、助教みたいな階層構造をやめる
        • 数学が苦手な人たちにいかに脱落させないか(鷲尾)
          • OJTとして授業より前に使ってもらう
        • 古典的製造業は縦割りがピシッとしている(花塚)
          • 物売りからこと売り、ソリューションやるなら横串が必要
          • サプライチェーンの初めから終わりまでを担う
            • それがデータサイエンス組織
          • コミュニケーションを密にして話をしにいく
          • 現場ごとにデータサイエンスを理解している人が必要
          • CoEとしての機能
          • 育成
            • CoE
              • 高度な手法を理解できる
            • 現場
              • 話を理解できる人を多く育てる
              • 裾野を広げる
          • 知っている人をいかにつなげていくか
      • 統数研に期待すること、文科省に頑張ってほしいこと
        • 予算(合原)
        • 日本のトップの研究所として世界をリードする研究(早瀬)
        • 地道に学問を究めるところが魅力(鷲尾)
          • 外にアピールして外部資金を獲得
          • 基礎研究を地道にコツコツと続けられる
        • リカレント教育(花塚)
          • DSを外から取ってくるのは至難
          • 社内だけでの教育も困難
            • アカデミアとの連携