統計・機械学習OverView

OverView 統計学機械学習 与えられた「Data」から人がわかる最もらしい答え[命題]を見つける ↔ 与えられた「Data」から、”次の個体”の性質を予測する

記述統計

keywords

  • 中間値
  • 平均値
  • 最頻値
  • 4分位点
  • 分散

分散

σ2 = {Σ(Xi-μ)2}/n [μ: データの平均値 Xi: 各データ]

標準偏差

σ = ({Σ(Xi-μ)2}/n) ^ 1/2 [μ: データの平均値 Xi: 各データ]

記述統計 → すべてのDataが観測できている場合

推測統計

一部のDataに対する分析から全体を推測する

P値 → P値をデータ分析者が決め、それに従って信頼区間などが決まる。

ex. 標本平均が50, 元の集団が正規分布 P値が 5 → 45~50 母集団平均 P値が 0.01 → 40~60 母集団平均 とか。

P値を下げると、その分「正確な値を取ろうとする」ため、分析の結果出てくる信頼区間が大きくなる(不確かな幅を大きくせざるをえない)

ノンパラメトリック手法の方が、頑健である(どんな分布にも対応できる)が、検出力が低い(peakyに反応しない) → みたいデータの特徴に反応し辛い → 前提(正規分布)を落としているため

統計学における「誤り」

第一種過誤 または偽陽性 -> 帰無仮説が実際には真であるのに棄却してしまう過誤 第二種過誤 または偽陰性 -> 対立仮説が実際には真であるのに帰無仮説を採用してしまう過誤

Keywords

  • ベイズ統計 → 古典統計 + α
    • 頻度主義では不確かさの定量化はランダム性のみに基づくのに対し、ベイズ主義では情報が不足していることにも基づくとし、不確かさの定量化を広く考える。
    • 事前分布
  • 分布

  • 検定

    • 母集団に対して, 要素xが有意に異なる、ということ
    • 帰無仮説 ↔ 対立仮説
  • 回帰分析
    • 5つぐらい統計的仮説がある
    • 多重線形性
    • 単回帰、重回帰
  • 変数の尺度、質
  • 時系列データ ARMA, ARIMA

データサイエンティストの極意

  1. 分析力
    1. モデルを理解し、データセットと仮説があればoutputできるか
  2. システム力
    1. データセットの収集、継続的な運用のためのシステム要件定義ができるか
      1. オンライン学習: Spark
      2. バッチ学習 : Hadoop
  3. 戦略立案力
    1. 必要なDataの判断、仮説立案力、それをビジネスにどうフィードバックさせるか

機械学習

  • 教師あり学習
  • 教師なし学習
  • 強化学習

  • 教師あり学習

-> 「被説明変数」的答えありきでStartする

よく使われるジャンル

分類回帰, Ranking

カーネル関数 soft-margin hard-margin

Neural Network

入力層 隠れ層 hidden parameter 出力層 Back

  • 教師なし学習
  • 強化学習
  • Back Propagation
  • 学習立
  • parameter最適か
  • 損失関数
  • 抽象化
  • 次元削減

Random Forest

アンサンブル学習 -> 学習器をたくさん作って木をたくさん作る

  • ROC曲線
  • NLP
  • 次元の呪い(説明変数を多くするほど汎化性能が低下する、計算量が多くなる)を脱却できる

ROC曲線

判別木の性能評価

  • 適合率 Precision
  • 再現率 Recall
  • 正解率 Accuracy
  • AUC

true-positive false-positive false-negative true-negative のマトリクスで見る Area Under Curve http://qiita.com/kenmatsu4/items/550b38f4fa31e9af6f4f

教師なし学習

Un Supervised Learning

  • 教師あり学習の最適化 → 損失関数を最小化している、と考えられる「間違って分類するcaseをなるべく減らそう!」

  • 教師なし学習

    • 高次元データから低次元データにどうやって落とすか
    • parameter目線
    • なんでもいいから、分けろ。
    • 必ずしも人間に把握できる分類とは限らない
  • k-means法

  • 主成分分析
  • 自己組織化Map

k-means法

再現性があんまない 各データのベクトルのユークリッド?距離をとる 近いものをピトピトピト 雪だるま 重心が平均

主成分分析

ベクトルの射影? なるべく情報量の損失が少なくなるように 回帰分析っぽい?

自己組織化Map

Neural Networkの一部 一個選ぶ 周りにおすそ分け

強化学習

-> 教師あり学習の一部と見る人も多い 教師あり学習 → 「答え」を与える 強化学習→ 「報酬」を与える

ミソ → 「報酬をどう決めるか」

ex. 将棋 どの手がいいのか?

昔: 「銀が王の周りにいると。。。」 「駒得...」

強化学習: 中盤から相互にランダムに駒を動かし続けて 「その手によって盤の評価スコアが上がったか下がったか」を見る