過去の機械は人間から知識(データ)をインプットし、作り出されてきた。簡単な例であれば「電卓」をイメージすると分かりやすいです。
電卓は求められた計算を行う事は出来るが、翻訳などの語学変換はできない。電卓は「計算」と言う決められたルールしか使うことが出来ない。機械の学習とは、決められたルールを与える事であった。
近年の「機械学習」とは研究分野の一つとなり、コンピューター自身が学び判断していくまでに進化している
機械学習の発祥
アメリカの計算機科学者のアーサー・サミュエルが1959年に一般紙に対するインタビューとして、機械学習を「明示的にプログラミングすることなく、コンピュータに学ぶ能力を与えようとする研究分野」と定義した事から始まる研究分野で、機械学習とは言葉の通り「機械(コンピューター)が学習する」ことです。
では機械が学習するためにはどのような方法をとるのか順番に解説していきます
機械(コンピューター)の進化
機械は人間から知識(データ)を与え続け進化してきました。学習の元となるデータ処理を行い。結果を算出する単純なものでした。
機械学習の開始
機械進化の分岐点となるのは「機械に学習能力を持たせること」に成功。これにより、機械に「明示的にルールを与えなくても自ら判断することが可能」になりました。このことを「機械学習(machine learning)」と呼んでいます。
機械学習アゴリズム
機械にどんな学習能力を持たせたかは「機械学習アゴリズム」と呼ばれており、そこから学習手法が分類されています
アゴリズムとは「ある関連分野において、問題を解くための手順を定式化した形で表現したもの」なので、今回の場合は「機械学習の方法(手順)」と考えていただければ分かりやすいと思います。
機械学習アゴリズムには、まず「教師あり」「教師なし」に分類されます。そのほかにも「強化学習」「マルチタスク学習」「トランスダクション(トランスダクション推論)」などがあります
機械学習の「教師あり学習」「教師なし学習」の違い
これは簡単に入力データ(問題)の「答えが有るか、無いか」の違いです。
この2つは膨大なデータ(問題)をどう処理するかが変わってくるため、答えを求めている場合は「教師あり学習」で学習された機械(コンピューター)で無ければ全く機能しません。
しかし、市場調査などの答えが無い場合は、調査結果に対し「法則や特徴」を見つけ出す為であれば「教師なし学習」の機械(コンピューター)に入力することで、法則や特徴が算出されるという考えです。
データに対し何を求めるか
すでに答えまでの手法があるのであれば、膨大なデータであっても、「教師あり学習」の機械学習を行うことで、効率的に答が算出されます。答えが無い場合は、その膨大なデータから法則や特徴を探す事を行う為、「教師なし学習」の機械学習の方が有効です。
教師の「あり」「なし」で様々な手法があったので一覧を作成しました
教師あり学習の手法
- 決定木
- 正則化
- 線形回帰
- ランダムフォレスト
- パーセントロン
- ロジスティック回帰
- ニューラルネットワーク
- サポートベクターマシン
- ナイーブベイズ(単純ベイズ)
- k近傍法(kNN)
教師なし学習の手法
- クラスタリング
- GMM(混合ガウス)
- 自己組織化マップ
- 強調フィルタリング
- アソシエーション分析
- PCA(主成分分析)
- LDA(線形判別分析)
- LSA(潜在意味解析)
- NMF(非負値行列因子分解)
- k-means(k平均法)
- LLE(次元圧縮)Locally Linear Embedding
- t-SNE[ティースニー] (t-Distributed Stochastic Neighbor Embedding:高次元データの可視化
【おまけ】非線形成分を考慮した次元削減
- Isomap
- Locally Linear Embedding
- Modified Locally Linear Embedding
- Hessian Eigenmapping
- Spectral Embedding
- Local Tangent Space Alignment
- Multi-dimensional Scaling
- Random Forest Embedding
- MDS(多次元尺度構成法)多変量解析の手法
機械学習をマーケティングに活用する
統計学とデータ分析を掛け合わせた「データマイニング」と呼ばれる技術があります。
データマイニングとは、CRM(Customer Relationship Management)「顧客1人ひとりの深い理解に基づく企業と顧客の長期的かつ良好な関係を形成する手法」をサポートする技術です。
データマイニングのイメージ
データマイニングのイメージは「広大な鉱山から金脈を見つける」と言うよりは、「ゴミだらけのジャングルから、栄養満点の果実を見つけ出す」イメージです
データマイニングの特徴
データマイニングは完璧な市場分析ではありません。膨大なデータから特徴量を抽出し、新たな発見を導き出すものですが、見つけ出せないこともあります。
統計解析とデータマイニングの違い
統計解析は少ないデータの中から仮説検証する事でデータマイニングの膨大なデータ量の中から特徴量「知識発見」をする事で意味が違います。なので、データマイニングの目的(解析結果)によって利用方法が変わり、データマイニングで求めている結果が「仮説検証」なのか「知識発見」なのか2つの種類に分けられます。
仮説検証的データマイニング
目的変数があり、購買量や顧客の反応を予測したり、 そのために顧客を分類したりするものです。回帰分析、決定木、ニューラルネットワークなどの多くの手法は、 目的を持ってモデルを作るために使われます。
- 推定、把握(量的変数)
どのエリアでどのような商品がどの程度売れているのかといった、 量的な数値を推定したり把握したりするもの - 分類、抽出(質的変数)
そのエリア別に売れている商品や商品カテゴリーを抽出し、 分類、整理して分析するもの - 将来の予測
将来の売上高や売れ筋商品などを何らかのモデルを作って予測する
知識発見的データマイニング
目的変数がなく、得られたデータから有用なルールやパターン、 類似性などを見つけ出そうというもので、代表的な手法としてマーケットバスケット分析に用いられるアソシエーション分析があります。
- アソシエーションルール策定
同時に何と何が買われているかなどを探索的に知ること - クラスタリング
購買動向などから似たような人をグループ化し、グループ毎に最適な施策を打とうというもの
「分類」と「クラスタリング」は一見クループ分けという面では同じ様に感じますが、「分類」はあらかじめ定義された定義やルールに従って分けられ、「クラスタリング」では定義やルール自体を発見して分けられる違いがあります
2つのマイニングデータを活用
- グループの特徴を推測する(プロファイリング)
データマイニングを市場調査に活用
データマイニングはマーケティングの基本戦略「STP(セグメンテーション、ターゲティング、ポジショニング)」や「4P分析」を可能にします。
マーケッティング戦略を立てる際に以下の様な課題が予想されます
商品について知りたい
どこでどの商品がどれくらい売れているのだろうか。
→推定、把握
自社の商品はどのように分類すればよいのだろうか。
→分類、抽出
今後力を入れるべき重点商品はどの商品なのだろうか。
→分類、抽出
この商品は将来どの程度売れるのだろうか。
→将来の予測
どの商品とどの商品が一緒に買われているのだろうか。
→アソシエーションルール策定
新商品の評判はどうだったのだろうか。
→グループの特徴を知る
顧客について知りたい
この顧客はどんな商品を買ってくれているのだろうか。
→推定、把握
優良な顧客、離反しかけている顧客は誰なのだろうか。
→分類、抽出
この商品は将来どの顧客が買ってくれるのだろうか。
→将来の予測
どの顧客クラスターにはどの商品をお薦めすればよいだろうか。
→クラスタリング
自社の顧客は性年代別、地域別にどんな人なのだろうか。
→グループの特徴を推測する
この様にデータマイニングを導入し、適切な分析を行うことにより、効果的に解決策が見つかるでしょう
機械学習を導入しマーケッティングを制する
膨大なデータから導き出される販売戦略は優秀なコンサルが必要ですが、これらの機械学習の手法を取り入れる事で改善されることがお分かりいただけたでしょうか。すでにGoogleやAmazonといった企業は導入しており、更に磨きをかけ続けています。
企業としては優秀な人材(プログラミング)や環境(コンピューターや大量のデータ)が必要とされるが、大規模なイメージではなく今の会社の範囲で導入することで効率改善されるのではないだろうか。