pub:2016.7.17/upd:2017.11.4

【要約】戦略的データサイエンス入門

ビジネスに活かすコンセプトとテクニック

Contents

はじめに:データ分析思考

データサイエンスの力を手に入れることは、業界に変化をもたらす力を手に入れるということである。

DDDとデータサイエンス

DDDの文脈においてデータサイエンスは「決断の自動化」をもたらす。

評価ビジネスとデータサイエンス

この手法によれば「何かを評価する仕組み」はことごとく機械化できる。実際にDDDによって金融ビジネスにパラダイムシフトをもたらわれた。

システムが信用力を評価する精度や速度が十分に向上したことで、金融は評価の品質が価値を持つビジネスからシェアのビジネスに変化した。

意思決定のためのデータサイエンス

解析基盤を支える技術は進化しているが、データ分析の基本原則は20年前から変化していない。

  • 解析の目的を定め、理論的かつ明確に段階分けされたプロセスに従うことで、体系的な処理を行うこと
  • ITを活用して巨大なデータから個々のデータが持つ有益な属性を見つけること
  • モデルはある程度汎用的である必要がある。そのデータセットにしか適用できないようなモデルをつくること(オーバフィッティング)を避けること
    − 分析ソリューションを作り上げたり、結果を評価する際には背景を十分理解すること

なお、データマイニングの成果をもとめることと、意思決定を行うことは別のプロセスとして考えるべきである。

データサイエンスが提供するソリューション

ビジネスの課題をデータマイニングの課題に変換してソリューションを適用する。

実際の作業プロセス

5つの作業プロセスをループさせて、より良いモデルを作り上げていく。

  • ビジネスの理解
  • データの理解
  • データの準備
  • モデリング
  • 評価
  • 適用

データマイニングが提供する手法

データマイニングは、分類、回帰、類似性マッチング、クラスタリング、共起グルーピング、プロファイリング、リンク予測、データ削減、因果モデリングの手法を提供する。

分類

データをあらかじめ用意されたクラスに分類すること。
教師あり学習が基本。

回帰

特定の量に対して、予測推定値を算出すること。
教師あり学習が基本。

類似性マッチング

類似するデータを発見すること。

クラスタリング

分類の基準を与えずに分類を行うこと。

共起グルーピング

データ間の関連に対して分類を行うこと。インバスケット解析とも呼ばれる。

プロファイリング

特定のグループの典型的な行動や傾向を見つけること。

リンク予測

データ間の関連の予測。リコメンデーションなど。

データ削減

極力特徴を損うことなくデータ量を小さくすること。

因果モデリング

因果関係を見つけ出すこと。
教師あり学習が基本。

予測モデリングの手法

予測モデリングでは、相関の分析から教師ありセグメンテーションを行う

予測モデルとは何か?

わからない値(目的変数)を見つけるためのルールや数学的な記述のこと。

予測モデル作成例: クラス分類における分割統治法

以下、1と2の手続きを繰り返し、分割に用いたルールを整理したものをモデルとする方法を分割統治法(ツリー帰納)と呼ぶ。

  1. 分割された集団のエントロピーが小さくなるように特定の属性でデータセットを分割
  2. 全ての属性での分割完了後に、分割されたグループにおける最大多数であるものを特定しクラスとする

モデルをデータにフィットさせる手法

線形判別器によるモデル作成

「分割統治法による分類」の他に、各要素に重み付けを行って分類するための境界線を算出する手法がある。こうした手法は「線形判別器による分類」と呼ばれている。
「サポートベクタマシン(SVM)」、「ロジスティック回帰」、「ニューラルネットワーク」はこの分類手法に属する技法である。

サポートベクタマシン

以下のルールに従って、極力マージンが大きく、最もペナルティが小さくなるように決定境界を定める線形判別器。

  • 分類されたデータと境界線のマージンが最大になるようにする
  • 分類に失敗するデータに対して、損失関数を用いてペナルティを設ける

さらに、複数の関数(核関数)によって決定境界を手法は非線形サポートベクタマシンと呼ばれる。

ロジスティック回帰

決定境界からの距離が離れるほど、”確率的に”分類が成功しているように決定境界を定める線形判別器。

ニューラルネットワーク

多重化された線形判別器。分類を行なった後に、さらに別の線形判別器を用いてシーケンシャルに分類を行い、結果を総合する。

オーバーフィッティングの評価と回避

オーバーフィッティングとは?

実用性があるモデルには汎用性を求められる。一方でモデルは有限のデータを元にして作成されるため、その母集団の特殊性が強くモデルに反映されてしまうと汎用性が失われることになる。

この現象をオーバーフィッティングと呼ぶ。

ホールドアウトによるオーバーフィッティングの評価

データから一部を取り出してホールドアウトとして、モデル作成の元となったデータから隔離する。

オーバーフィッティングが起こると、ホールドアウトに対してモデルを適用すると分類結果の誤差が大きくなる性質を利用して、モデルがオーバーフィッティング状態にあるか評価を行う。

交差検証法による評価

データを5-10程度にあらかじめ分割して番号を割り当て、分割されたデータの1つをホールドアウトとして用い、その他のデータを元にモデルを作成する手法。

5分割を行なったとすれば、5つモデルを作成してそれぞれのホールドアウトで評価する。

その後、各ホールドアウトを用いたオーバーフィッティング度の評価結果が5つ得られるが、このデータの精度と分散から評価を行う。

精度が高く、分散が少ないほど汎用性があるモデルであると言える。

学習曲線

モデルの元とするデータを大きくしていったとき、精度の向上は徐々に緩やかになっていく。

この曲線を学習曲線と呼ぶ。

オーバーフィッティングの回避

ツリー帰納法利用時の回避

ツリーが複雑になるほどオーバーフィッティングが進むため、何らかの基準を用いてツリーの成長を止める。

  • 仮説検定法: 分岐ごとにp値を用いた仮説検定を行い、一定のp値で成長を止める
  • 刈りこみ法: 成長しすぎた枝をモデル全体での精度が落ちないように移植したり削除したりする

汎用的な回避手法

モデルの元とするデータの次元の数を制限することで、モデルの汎用性を保つことができる。

  • 逐次前進法: 一定の精度が得られるまで次元を加えていく方法
  • 逐次後退法: 一定の精度が維持できる限界まで次元を削る方法

類似度・近傍・クラスタ化

近傍点による分類

クラスを分類したいデータに近接する(距離が小さい)データのクラスを参照して分類を行う手法。
複数の点を参照して、近接するほど重み付けをする方法もある。

このような手法はk-NN分類器と呼ばれる。
kはk番目に近接するデータの意味。kが小さくなるほどオーバーフィッテイング傾向が出やすくなる。

距離の概念の選択

近傍点による分類を行う際には、分析の目的に相応しい距離概念を選択する。

  • マンハッタン距離: 別名L1ノルム。次元ごとの差の絶対値の合計
  • ユークリッド距離: 別名L2ノルム。幾何学的最短距離
  • コサイン距離: ベクトルのなす角度が小さいほど近接していると見なす距離。文章の類似度などに用いられる
  • ジャッカード距離: 集合対に対して適用される距離。積集合/和集合
  • レーベンシュタイン距離: 文章の類似度などの評価に用いられる距離。2者を一致させるために必要な挿入、削除、置換回数の合計の最小

クラスタリング

分類するクラスのラベルが決定していない場合(教師なし学習)では、クラスタリングの技法を用いることで分類できる。

階層クラスタリング

距離が小さいデータををまとめていくことでデンドログラム(階層図)を作る方法。

k平均法

以下の手順を1からはじめ、2、3、4反復することでクラスタリングを行う方法。

  1. データ空間にk個の任意のデータ(以下、代表点)を置く
  2. 代表点のうち、最も近い点に各データを所属させてクラスタとする
  3. クラスタ毎のセントロイド(重心)を算出する
  4. セントロイドを代表点とする

意思決定のための分析思考Ⅰ: 良いモデルとは何か?

多くの利益を生むモデルが好ましいモデルといえる。
モデルのもたらす利益は混同行列と期待値を用いて評価される。

混同行列と期待値

正しく分類された回数と、誤って分類された回数を行列としたもの。

例えば、陽性と陰性へのクラス分けであれば (真陽性、偽陽性、偽陰性、真陰性) それぞれを分類数に置き換えたものを混同行列と呼ぶ。
また、混同行列を用いて期待値計算を行うことでモデルの評価を行うことが出来る。

期待損益は、真陽性、偽陽性、偽陰性、真陰性それぞれのケースにおける損益予想値に置き換えて混同行列と組み合わせることで算出できる。

モデル性能の可視化

モデルの性能はビジネス的な観点を含めてとらえた場合と、純粋なモデルの性能比較の観点でとらえた場合で評価が異なってくる。
複数のモデルの特性を比較する場合には利益曲線やROC曲線を用いる。

利益曲線

利益曲線はビジネス上の意思決定に用いるモデル性能のビジュアライゼーションである。
例えば顧客リストについて獲得利益の期待値が高い順にDMを送付した際に積算される利益が最大となる点を可視化出来る。

ROC曲線

ROC曲線は利益曲線のようにランダムに分類を行う分類器からの分類性能の乖離を可視化するビジュアライゼーションである。
乖離度合いはランダムに分類を行う分類器と比較して、どれだけ正しい分類を行うことができたかの比率で表されリフト値と呼ばれる。

エビデンスと確率

あるデータインスタンスの未知値を判定するために、エビデンスを整理する技法がデータサイエンスであるとも言える。
このとき未知値の判定に対して、諸々のエビデンスには確率的な結合の強さが存在するものと前提する。

エビデンスの確率的な結合の強さを評価する場合は、一般にベイズ分類器を用いる。

テキスト表現とテキストマイニング

要約は省略。

意思決定のための分析思考Ⅱ: 分析思考から分析工学へ

データサイエンスの技法をビジネスソリューションとして取り入れる。

その他データサイエンスの問題と技法

  • アンサンブル手法: 異なる技法による複数のモデルから算出された結果を協調して用いる意思決定に用いる方法

データサイエンスとビジネス戦略

ビジネスへの適用事例と注意点

  • 競合優位獲得すること
  • データサイエンスチームを育てること

REFERENCE

Leave a Reply

Your email address will not be published.