統計コンサルの議事メモ

統計や機械学習の話題を中心に、思うがままに

応用統計学フロンティアセミナー「データサイエンスと応用統計学」参加記録

10/19に開催された応用統計学フロンティアセミナーに参加してきましたので、そのメモを共有しておきます。話を聴きながらのメモなので単語しか書けず意味がわかりにくいところもありますが、ご参考まで。なおセミナーの様子は以下のtogetterでまとめられていますので、そちらも合わせてご覧ください。

togetter.com

データサイエンスにおける応用統計人材の育成

横浜市立大学 岩崎学 氏

  • これまでとこれからの統計的データ解析

    1. 研究目的の設定
    2. データ収集法の立案(実験、観察、調査)
    3. データの収集(モニタリング)
    4. データの電子化
    5. データのチェック・マージ
    6. データの集計とグラフ化(記述統計)
    7. 統計的推測ないしは予測(推測統計)
    8. プレゼン・文章化、意思決定(終了もしくは最初に戻る) → 役に立たないと意味がない
  • いまのデータサイエンス、データありきになっているかもしれない

    • 推測統計の部分にフォーカスが当たっている
    • 全体の流れを見ることが大事
  • データサイエンスとは?

    • 統計学 + 情報科学)* 社会展開
    • 理系的な要素と文系的な要素の両面
      • 文理融合は当然
  • 横浜市立大学での状況

    • 線形代数の学部生の試験成績、文系と理系でほとんど差がない(120点満点で76 vs 72とか)
    • 2020年、大学院
      • ヘルスデータサイエンス専攻(医学部があるので)
      • データサイエンス専攻(M20名、D3名)

楽天技術研究所におけるデータサイエンスおよび統計の様々な応用事例

楽天 森正弥 氏

  • 1.3Bユーザー、48Kの店舗(ビジネスパートナー)

  • 250Mのアイテムについて需要予測

    • 価格、在庫の調整
    • 非線形回帰。基盤を作ったロシア人が手作業でフィッティング。DLに勝つ。
  • 金融市場予測

    • Now-Cast
      • Forecastに対してNowcast
      • 今の状態を推測する
      • Hal Varian
      • 独自の景気動向指数
        • Google
        • 東大
        • 48Kのビジネスパートナーのデータを使って
        • 8000カテゴリの売上データ
        • LASSO回帰
          • 2521のカテゴリ
          • MAE0.4%
          • 宝石、エアコン、ワークステーション、コメディのブルーレイが売れるとCIが良くなる
          • 交互作用は見てない
        • DL派が増えた
          • データぶっこもうぜ
          • 丁寧な分析はしなくなった
    • 会社の株価
      • 売上と株価、2ヶ月のラグ
      • 相関が0.96
      • でも予測精度は芳しくない
    • 化粧品会社の株価
    • 多段のDoc2Vecでメーカー名のリンキング
    • 楽天トラベルのデータ、インバウンド

自動車とデータサイエンス

日産自動車 上田哲郎 氏

  • Connected Carのエキスパート、ITのエキスパート
  • 自動車、AI/ITに関しては新卒の人たちの方が専門性高い
  • 今はリアルタイムで車の車種まで特定できる
    • 二週間でインターンが片付ける
    • 正答率93.6%
    • アテンション層4000次元で車を分類できる知識構造ができているのでは
      • メーカーらしさを表すベクトルができている?
        • 今まではアンケートしかなかった
        • アテンション層4000次元を可視化
          • tSNE
          • 三次元:
            • メーカーらしさ?
            • 時間変化?
          • 二次元:
            • 車の向きが揃っているクラスターができる
            • ドアが開いている
          • 海外メーカーはクラスターが分かれる
          • 日本車は特徴ない?
      • このような手法は客観的に思える
  • BigData、 AI、IoT
    • Corporate Value
    • Customer Value:Autonomous Drive、Connected Car, Electric Car, MaaS
  • 箱根登って下るとバッテリー回復するので沼津まで行ける
  • シミュレーションではなく過去のリーフのデータから、どこまで行けるか示せる
  • ProPilot 2.0
    • マジでやばい
    • ハンドルから手を離して良いと言っている(高速に限る)
    • ドライバーを監視している、前方を見ている限り
    • Adaptive Cruise Control
      • 単眼可視光カメラで前方の車との距離を測る
      • ナンバープレートのサイズがわかっているのでカメラの画素数から車間距離がわかる
  • AI
    • データ型
      • 言語:✖︎
      • 時間:▲
      • 空間:●
    • 能力
      • 生成:次元拡張
      • 認識次元圧縮
    • 上の軸をマトリックスにする
  • オイルフィルターの真贋判定
  • 空気抵抗を計算で求める
    • スパコンでも数日かかる
    • CADとCdの関係性
    • Voxel dataとCdの関係性を学習
    • 精度はまだまだ
      • R値で0.7(R2のこと?)
  • GANで車のデザインを生成
  • 画像の生成を三次元に拡張する
    • 内装とかもできる
    • フランスから来たインターンの学生
    • VRに展開
      • VRの中で白板に書くと目の前に現れる
    • Voxel Data との関係性がわかってるので、手書きで書いた絵の空気抵抗がわかる
  • データアナリスト
    • 問題のモデル化
  • 人材育成
    • 自動車業界、サプライヤーが持ってくる
    • うまくいってない
    • データを使っていて車に興味を持っている人に来てもらいたい
  • 自動車がなくなっていく?
    • MaaS、CASE
    • 痛し痒しと思っている
    • 体力のあるうちに全部やっておこう

企業ビッグデータから捉える企業活動と未来の活用可能性

帝国データバンク 中川みゆき 氏

  • 帝国データバンク保有するデータ
    • 調査員が現地に足を運んで入手した、ネットでは得られないデータベース
    • 100近い項目
    • 定量、定性
    • 中小企業が99%
    • 年間60万件超の調査
  • 活用事例

早稲田大学におけるデータサイエンス人材育成への取り組み

早稲田大学 松嶋敏泰 氏

  • 大隈重信統計学
    • 統計院を設立
      • 統計センターの前身
  • DSとは
    • Interdisciplinary Field
    • concept to unify
    • 日本だとSexiest Jobで広まったので、ビジネスの面が強い
    • Fourth paradigm of science
      • メタサイエンス
      • 知覚と思考の拡大
  • 早稲田のフォーカス領域
    • 専門性(応用先)
    • データサイエンス
  • 教育
    • 学内が中心
      • 理念
        • コンピュータにぶち込んで答えを出す、というのは×
        • 理論を押さえる
        • 座学だけでもダメ
        • 理論、専門、スキル
      • e-learningで実施
        • モジュール化されたコンテンツを組み合わせて
        • 様々なバックグラウンドに対応
    • 学外
      • 高校生
      • 社会人
      • 他大学
      • 企業
    • データサイエンスコンペティション
      • 参議院選
      • 精度がよかったチームは3人しか当落を外してなかった(最優秀ではない)
      • 政経のチームがPythonでコードを書いている

学校における「統計」教育の課題 我々は木に縁りて魚を求めてはいないか

代々木ゼミナール 西岡康夫 氏

  • 初等・中等教育の現状
  • サッカー、世界で活躍できるようになった理由は多くの子供がサッカーをやるようになったから
    • 棟梁レベルのDSを多く育てるなら裾野を広げないといけない
    • 国によってはエリート制を採用しているが、日本のカルチャーに合わないのでは
  • 教育改革
    • センター試験の廃止
      • 混沌の極み
      • 大学入学選抜は暗記、再生
        • ドーリットル、甚兵衛、小ピピン
      • 理系尚もて数学す、況や文系をや
    • 統計が入ってきた
      • 産業界の要請
        • 教員研修や教職課程のカリキュラム改革
          • まったく進んでない
          • 統計のイロハのイもダメ
    • 若者の強い自己否定感
      • 大学入試結果による序列付けが原因であるとされた
        • できません、を前提に話はじめる
        • ダニングクルーガー効果
          • できない人に限って自己肯定感が強い
      • 生産性
        • AIからIA
          • Intelligence amplifier
          • AIをうまく使う
      • 必要とされる理由
        • 第四次産業革命
          • アロ・ポイエティック(他者制作的)
          • オート・ポイエティック(自己制作的)
        • 論理国語、文学国語(非論理国語?)
        • STEM、STEAM教育
          • AIの苦手項目
            • 発問、小情報からの創意、独自指標の創出、規範の再構築、定義不明瞭
          • 数学の教師が統計を担当というのは物理の教師が生物を担当するようなもの
            • 演繹的推論、帰納的推論
          • やりたくない理由
            • 自信がないのでやりたくない
              • 統計的仮説検定を背理法として解説
            • 統計の諸概念をビルドアップ型で授業したいが、カリキュラムが対応してない
              • ネイピア数の存在が、積分の前に出てくる
              • 統計がベクトルを追い出した、と言われている
              • 理論的な扱いに深入りせず、という要領が出てる
            • そもそも生徒は統計は選択されないのでは
              • センターの2Bで選択問題、統計を選択するのは3.5%で、かつ平均点も低い
              • ベクトルが苦手な学生が選択?
              • 問題が長い
              • 捨象力は試されるので良い
            • 9/74校(2014年)しか推測統計を出さない

岩崎先生あいさつ

  • Technologyは変わっていくがPrincipleは変わらない