最近、ビジネスの場で「ビッグデータ」という言葉が話題になることが非常に多くなっていますよね。GoogleやFacebookは検索と無料アプリケーションによって蓄積した膨大なデータを基に広告ビジネスを行っていますが、これはビックデータの身近な例でしょう。
大量のデータを分析することで、人手でのデータ分析では知り得なかった知見を得ることがビッグデータの考え方です。総務省の発表している「企業等におけるビッグデータの活用状況」によると、「経営全般」、「企画、開発、マーケティング」などの領域で、8割近くの企業がデータを活用しているとのこと。
更に企業では、どんなデータをビックデータとして分析利用しているのかという点について「顧客データ」「経理データ」の従来から社内に蓄積されているデータが多く分析に活用されている一方で、新たに「センサーデータ」「GPSデータ」といった位置情報に関連するデータなどの利用目的も増えてきています。GPSデータ単体では、特定期間の人の動きが分かるだけですがデータを組み合わせると前後の人の動きによる効果算定をする重要なデータになるでしょう。
この様に、データを企業や社会の課題に照らし合わせて分析にすることにより、新しいサービスを作ることができるかもしれません。この記事では、そんなビッグデータの基本についてまとめているので、今までビッグデータって何?と感じていた人でも、概要を掴むことができるかもしれません。。
そこで今回は、今話題のビッグデータについて、事例も合わせて解説します。最初にビッグデータの定義から確認し、どの様に活用されているのかを見ていきましょう。
そもそもビッグデータの定義とは
ビッグデータとは「ビッグ」+「データ」を合わせた言葉ですから、大量のデータのことを表現しています。IT用語辞典では
「従来のデータベース管理システムなどでは記録や保管、解析が難しいような巨大なデータ群。明確な定義があるわけではなく、企業向け情報システムメーカーのマーケティング用語として多用されている」
引用:「IT用語辞典 e-Words」
と定義しています。
少しわかりにくいので、もう少し明確な定義として、以下2つの特徴を持つデータをビックデータと呼ぶことが多いです。
ここでの非構造化データとはテキストデータや、画像などです。とは、企業の会計システムのデータなどは、会計処理の為に、予め定義されたフォーマットに沿っているデータを定形的なデータとし、日々のトランザクションをを蓄積し集計したものが「時系列性がある」と当てはまります。
一方で売上データと、非構造データであるお客様の来店データやECサイトのWeb閲覧履歴など、様々な種類のデータを総合的に保有し分析しようとなれば、非定型ですがまたリアルタイムに結果を求められますよね。これがリアルタイム性です。
ビックデータを分かりやすく理解できる例は、米国のスーパーマーケットの「おむつとビールの法則」です。おむつの売上とビールの売上それぞれの売上を見ている場合は、単一の目的ですが、商品間の売上相関を分析した結果、商品間のおむつとビールが一緒に売れる傾向が見つかりました。
子供を持つ父親がおむつを買いにきた際に、ついでにビールを購入しているという仮説を立て、おむつとビールを並べて陳列すると、売り上げが上昇したというエピソードです。これらはビッグデータを使って、保管されている商品ごとの売上結果では見いだせない相関関係の分析により、新しい付加価値を生みました。
ビックデータの定義が理解できたところで、ビックデータという言葉がいつ頃から使われる様になったのか、見ていきましょう。
ビッグデータの歴史
「ビッグデータ」は比較的新しい考え方ですが、最終的に分析する目的で大量の情報を収集・保管するという取り組み自体には、長い歴史がありました。この概念が普及したのは、2000年代初めに業界アナリストのダグ・レイニー(Doug Laney)氏が、現在主流となっているビッグデータの定義を3つのVで表現しています。
- データ量(volume):通常のコンピュータ処理量を上回る大量データであり、企業が収集しているビジネス・トランザクション、ソーシャルメディアなどの大量のデータの保管をすること。新しいテクノロジー(Hadoopなど)によってこれが、可能となってきました。
- データ生成速度(velocity):データを適切なタイミングで取り扱うこと
- データ多様性(variety):非構造化データなどのあらゆるフォーマットのデータを取り扱うこと
つまり、テキスト、画像、音声など非構造化の大量のデータを使って、必要なタイミングで迅速に分析し、それぞれのデータには無い新しい付加価値を提供するということです。この3つの考え方は、現在でもビッグデータに関する標準的な考え方となっています。
日本の新しい技術は、米国に比較して10年遅れて波及するといわれますが、ビックデータについても同様でした。日本では、テラデータなど外資系のITベンダーが2011年から「Big Data元年」と言ったのが始まりです。
そして、2011年の秋に経済新聞などでもビッグデータについて複数回にわたって取り上げられたことで、徐々に企業の間で、浸透しました。ITベンダーが広く宣伝することで浸透した言葉としては、「ICT」や「DX」なども該当しますが、今ではシステムに関わる誰もが知る用語になっています。
では、そんなビックデータを活用すること、つまり分析を行うことによって、何ができるのか?をみていきましょう。
ビッグデータの使い方〜分析で何ができるのか〜
ビックデータは、先にあげた特性の「3つのV」のVolume(データ量)、Velocity(多様性)、Variety(データ生成速度)のいずれかを持っており、その分析による結果も関連性があります。
Volume(データの多様性)により可能となる分析
テキスト、画像、音声といった多様な情報を元に分析を行うもので、一見関連していないデータを元に課題や施策を見出す手法。小売店舗での利用を例にとると、店舗内に設置したカメラの情報、IoTデバイスの情報、POS情報、天気の情報などを複合的に掛け合わせて販売状況の分析、予測を行います。
Volume(データ量)により可能となる分析
膨大なデータ量から時系列のデータを元に将来の予測を行う手法。Yahoo! JAPANでは、時期別・都道府県別のインフルエンザの患者数と相関の高いキーワード検索数から、インフルエンザの感染数の予測値を示しています。過去のインフルエンザの発生件数をもとに、インフルエンザの「流行期」「拡大期」「蔓延期」「減衰期」の推移を予測するビックデータ分析をしています。
Velocity(データ生成速度)により可能となる分析
リアルタイムで収集できるデータを元に予測を行う手法。Amazonで買い物を行う場合に、利用者の過去の検索履歴・購買履歴を元に、おすすめ商品を表示します。このリコメンドAI(人工知能)はリアルタイムなビックデータ分析を元に実現しています。
多種多様なデータから、何らかの意味のある結果を導く、大量のデータから将来の予測をする、そして、リアルタイムにそれを提供するといった付加価値を提供できることが、ビックデータの分析から得られる成果でしょう。
次に、この様な分析を各業界ではどの様に活用しているのか事例を見てみましょう。
ビッグデータの活用事例・最新ニュース
- 小売:レコメンド、行動ターゲッティング広告、顧客離反分析
- 交通:渋滞予測、テレマティクスサービス
- 農業:農業ICT
- 製造:故障予測、異常検出
- 金融:不正検出、株式市場の予測
- 健康・医療:最適治療(電子カルテ等活用)、風邪の流行予測
- セキュリティ:不審者監視
これらの業界では多種多様なデータからの分析、将来の予測をする、そして、リアルタイムな提供をする分析に基づいています。ビジネスにおける分析や将来予測を行う為に活用されてきたビックデータですが、その考え方を広く社会の課題にも適用して課題解決を図る動きが出てきました。
実際に新型コロナウイルスの世界的なパンデミックに対しても、ビックデータを活用した取り組みが行われています。2020年3月から、感染者爆発を防ぐ為に国や自治体から外出自粛要請が出ました。その要請に基づいて、国民はどの様な行動をしているのか?日々の体調はどうなのか?などの実態の把握が必要となりますよね。
同じく、新型コロナウイルス感染症に関する人の流れの変化を、位置情報のビックデータから解析した事例があります。クロスコミュニケーション社が、位置情報データ活用プラットフォーム「 Location AI Platform™ 」の特徴エリア別定点観測機能を使用し、位置情報ビッグデータを取得しました。
これは全国の観光地・繁華街などでの人流変化を、政府の基本方針発表があった2月25日前とその後の3月第一週の変化を比較調査し、その結果を発表しました。
- 新宿歌舞伎町エリアでは約35%減少、銀座では約30%減少
- 小中高等学校の休校が始まった3月2日から都内の住宅地近接公園へ人が集まる傾向など
位置情報のビッグデータをAI(人工知能)により分析することで、人の動きを迅速に把握することが可能となり、国民に対する更なる警鐘を呼びかけたり、更なる国・自治体からの施策や要請を検討する根拠になるかもしれません。
社会課題を解決する為にビックデータが活用されていることを見てきましたが、今後もビックデータは浸透していくのか確認しましょう。
今後のビッグデータ解析を活用した未来とは
ビジネスや社会の中で活用できるデータは、今後もますます増加することは間違いありません。「IoT(Internet of Things=モノのインターネット)」と呼ばれる動きが加速していくからです。家電、自動販売機、カメラなど、店舗、街中、オフィスに設置してある様々な機器からのデータ取集が可能な仕組みつまり、「IoT」がどんどん投入されています。
その例として、AliPayの一つの機能である“芝麻信用”というシステムがあります。人の信用に度合いを「学歴」「勤務先」「資産」「返済」「人脈」「交際」の6つの項目によって、どれだけ信頼できるかを計量化しています。日本のクレジットカードの与信確認の考え方を更に、明確に定量化したものです。
今後は、こうしたデータをビジネスと社会の課題にどの様に活用していくのか、主体者側の分析のやり方に依存するでしょう。また同時に、データサイエンティストと呼ばれる統計学に強い分析を専門とするプロフェッショナルも必要となります。データサイエンティストは国内で25万人不足するといった予想もあるので、データサイエンティストの分析ノウハウをシステム化するようなAI(人工知能)も今後開発されるかもしれません。
- ビッグデータとは、従来では処理できないような大量のデータであり、非構造・非定型なデータでリアルタイム性の特徴を持っている
- ビッグデータは、業界アナリストが2000年に3つのV(Volume,Velocity,Variety)で表現したことがきっかけで広まり、日本では2011年頃からITベンダーの宣伝広告から広まった
- ビッグデータができることとは、企業でのWeb分析や顧客分析・予測以外にも、農業や交通渋滞の解消を目的とした分析・予測にも広く活用されている
- ビッグデータを使って、昨今では、新型コロナウイルスの対策の為の位置情報分析にも使われている
- 今後ビッグデータを使って、IoTデバイスやAIとの組合せにより、社内課題を大きく変える開発が行われていく
ビッグデータ活用は、今後も、非定型な多くのデータを組み合わせ、従来では解決できなかった新ビジネスを生み出す可能性が期待されています。また、あらゆる社会的な課題を解決するための手段としてもビッグデータ活用は進むに違いありません。