「データマイニング」という言葉が世間から注目を集めるようになってしばらくが経ちました。今では誰もが携帯電話をポケットに入れて持ち運んでいるように、インターネットの普及や情報通信技術の進歩がますます進んでいますよね。こうした技術の進歩によって、データの収集が細かく即時的なものになっています。
例えば、Amazonや楽天市場といったオンラインショッピングをイメージしてみましょう。利用者がショッピングを楽しめば名前や性別、年齢などはもちろん、どのように商品ページへたどり着いたのか、どの商品を閲覧したか、閲覧時間、閲覧したページなど、利用者の行動履歴を即時的に収集することが可能になっています。
こうした膨大な量のデータ収集の流れを背景に「データマイニング」という言葉が非常に注目されているのです。今回は「データマイニング」についてお伝えします!!
一言で言うと「データマイニング」とは・・・
データから価値ある知見を発掘するデータマイニング
前述したオンラインショッピングの例のように、膨大な量のデータを収集することが可能になった今日。このような大量のデータをビッグデータと呼びますが、ビッグデータからどんな価値を引き出すかが重要視されています。
つまり、データ分析を通じて価値ある知見を導き出し、ビジネス領域で実際にその知見を活用していくことに注目が集まっているのです。この「データを分析して価値ある知見を導き出す」という過程や手法のことを、一般的に「データマイニング」と呼んでいます。
何千人、何万人の行動履歴を収集して蓄積したデータを分析すれば、今まで気づきもしなかった、人々の傾向やパターンが見つかったり、あるデータとデータの間に新たな関係性が見えるなど、データから導き出された知見が将来の大きな価値へと繋がります。
マイニングは「採掘する」という意味です。「ビッグデータ」については以下のページで詳しく解説しています。
データマイニングには様々な手法があり、詳細を理解するためには統計や数理の専門的な知識が必要です。
ビッグデータが注目されて、今では「データドリブン(Data Driven)」という言葉を聞くことも出てきました。データドリブンというのは、企業の意思決定はデータから始めるべし!という考え方のことを言います。つまり、従来の勘や経験をもとに意思決定をするのではなく、データマイニングを通じて得られた知見に基づいた意思決定を重視するという考えです。
データに対する意味づけをするのは人間の仕事
データマイニングで出てくるデータは全て相関関係を示すものだけである、という点は注意が必要です。
例えば、ショッピングの大量の顧客データを分析していて、「ビールを購入する人がピーナッツも購入する」という相関関係を示すデータが出てきた段階で、「ビールを購入する人はピーナッツを食べたくなる」という因果関係を推測するのは早計です。
- 相関関係:統計やデータ的に「AとBに関連性がある」という関係
- 因果関係:統計やデータ的に「AがBの原因だ」という関係
もちろん、食べたくなる人は存在するでしょうが、簡単に結びつけてしまうと正しい因果関係は導き出せません。実際には、「ビールを購入するとおつまみが欲しくなる」→「おつまみとしてピーナッツが含まれている」というのが正しい推測でしょう。
実際に調べてみれば、ピーナッツ以外にもおつまみに該当する商品がビールと一緒に購入されているはずです。おつまみの中で一番利益率の高いものをビールの近くに配置することで、利益率を高められるでしょう。
データマイニングによってデータの相関関係を見つけて、そこに意味を見つけ有効活用するのは人間の仕事です。
ビッグデータを持っているだけでは何の価値もありません。データマイニングによって価値ある情報を取り出して初めてビッグデータは意味を持つのです。
「機械学習」と「データマイニングの違い」
AI(人工知能)の中心となる技術として機械学習があります。機械学習とは、データからそこに潜むパターンや傾向を見つけてプログラムに学習させていく技術のことを言います。機械学習は、データから新しい知見を導き出すという意味で、データマイニングの中の一つだと言えそうです。
「機械学習」については以下のページで詳しく解説しています。
まとめ
つまり、「データマイニング」とは、
コメントをどうぞ