「データクレンジングやらなくちゃいけないけど何が何だかわからない!」と、データ分析や機械学習で避けても通れないステップ、『データクレンジング』。
データ分析や機械学習を仕事にしている人の作業時間の8割近くがデータの処理に割かれていると言われており、こういった処理なしにいい結果を出すことはできません。
しかしデータをどう扱えばいいかがわかりづらかったり、役に立つツールやきちんと勉強できる本があまり知られていないのも事実。
そこで今回はデータクレンジングにはどのような方法があるか、どのようなツールがあるか、そしてどういった本で勉強するのがおすすめかご紹介します。
それではまず、そもそもデータクレンジングとは何かからお伝えしましょう。
データクレンジング(データクリーニング)とは?
まず初めにも言及したようにデータの分析や機械学習を進めていくためにはデータを綺麗な形に加工していく必要があります。
そうならないようデータを加工する一連の流れを「前処理」といいデータクレンジングもその処理の一つです。
このステップを足掛かりにデータをつなぎ合わせたり別のものに変換させるなどの処理に繋げていくことになります。
データ分析する際に知っておきたいデータクレンジングの方法
前の章でデータクレンジングは「データを補ったり修正すること」とお伝えしました。でも具体的にどうすればいいか。方法について状況別に見ていきましょう。
欠損
欠損とは「なくてはならないところでデータが抜けている」という状態です。
これに対処する方法は大きく分けて二つ。
まずは欠損のあるデータごと消してしまうこと。これによって揃っているデータだけを残し次に進むことは可能。ただし、欠損に伴い削除するデータが多くなると今後の学習や分析に支障が出る危険があります。
もう一つは代表値で埋めること。具体的には欠けているデータを平均値やデータを小さい順から見てちょうど中央にあたる中央値、データの中で一番多く出てくる値である最頻値です。これによってデータごと削除し学習や分析に支障が出るリスクを抑えることができます。
表記ゆれ
表記ゆれとは「同じものを意味しているけれど書き方が違っている」という状態です。
人間でしたら同じことを言ってるとわかりますがプログラム側は同じ認識ができず混乱する原因にも。
これに対処するためには名称の統一や表記ゆれに対する対応表の作成をしたり、複数の単語がくっついてしまっている場合は単語レベルに分割します。
外れ値
外れ値とは値の中でも他のものと大きくかけ離れてしまっているもののこと。
他のデータと比べ明らかにおかしいものについては異常値と考え削除してしまっても問題はありません。
異常値と断言できない場合にはまずは外れ値の検出やヒストグラムなどの手法を使い数値が離れている理由を考察すること。
明らかに異常値と考えられる場合は削除し、そうでなければ対数変換などでデータを修正していきます。
データクレンジングのツール3つ
ここまでデータクレンジングの方法を状況別に見ていきました。こういった処理を手軽に行ってくれるツールがあるので今回は3つご紹介しましょう。
Talend Data Preparation
Talend Data PreparationはTalendという会社が提供しているツール。
Cloud Dataprep
Cloud DataprepはGoogleのパートナーであるTrifactaが運営するサービス。
規模の大小に関わらずサーバーなしで利用できることに強みがあります。
Tableau Prep
Tableau PrepはTableau Prep BuilderとTableau Prep Conductorの2つからなるツール。
データクレンジングを学べるおすすめ書籍3つ
データクレンジングのツールをお伝えしましたが自分でもできるよう勉強したい人も出てきますよね。
そこで今度はデータクレンジングについて学べる本を3冊ご紹介します。
前処理大全[データ分析のためのSQL/R/Python実践テクニック]
この本ではデータクレンジングをはじめとする前処理の効率的な進め方について網羅的にまとめられています。
この本の特徴はPython,R,SQLの3パターンで記述されていることです。
バッドデータハンドブック――データにまつわる問題への19の処方箋
この本では19人のデータ分析の専門家によるデータクレンジングについての教訓や方法論が詳しく書かれています。
そしてこれらは各人の経験によって得られたもの。
欠測データ処理―Rによる単一代入法と多重代入法―
この本ではデータクレンジングについてRで説明がされています。
メインに据えているのは欠損の取り扱いについて。
今回はデータクレンジングにスポットを当て、そもそもデータクレンジングとは何か、方法やおすすめのツール、書籍をご紹介しました。
こういった処理を手軽に行ってくれるおすすめのツールは「Talend Data Preparation」、「Cloud Dataprep」、「Tableau Prep」の3つ。自学におすすめの本は「前処理大全[データ分析のためのSQL/R/Python実践テクニック]」、「バッドデータハンドブック――データにまつわる問題への19の処方箋」、「欠測データ処理―Rによる単一代入法と多重代入法―」の3つでプログラミング言語に応じ選んでいくのが妥当です。
データクレンジングはデータを扱う基本でありつつ奥が深いのできちんとできるようになっておきましょう。