教育

データクレンジング/データクリーニングとは?重要ワードを楽々理解

整ったデータのイメージ

「データクレンジングやらなくちゃいけないけど何が何だかわからない!」と、データ分析や機械学習で避けても通れないステップ、『データクレンジング』。

データ分析や機械学習を仕事にしている人の作業時間の8割近くがデータの処理に割かれていると言われており、こういった処理なしにいい結果を出すことはできません。

中村
中村

しかしデータをどう扱えばいいかがわかりづらかったり、役に立つツールやきちんと勉強できる本があまり知られていないのも事実。

そこで今回はデータクレンジングにはどのような方法があるか、どのようなツールがあるか、そしてどういった本で勉強するのがおすすめかご紹介します。

それではまず、そもそもデータクレンジングとは何かからお伝えしましょう。

データクレンジング(データクリーニング)とは?

まず初めにも言及したようにデータの分析や機械学習を進めていくためにはデータを綺麗な形に加工していく必要があります。

というのも例えばデータの中で「2020」と同じ数字があったとしても半角(2020)やカンマをつける(2,000)といった表記の違いだけでこういった数字を本来意図したとおりに見ていくのが難しくなるから。

そうならないようデータを加工する一連の流れを「前処理」といいデータクレンジングもその処理の一つです。

データクレンジングで行うのはデータを補ったり修正したり消したりすること。

このステップを足掛かりにデータをつなぎ合わせたり別のものに変換させるなどの処理に繋げていくことになります。

データ分析する際に知っておきたいデータクレンジングの方法

大量のデータ

前の章でデータクレンジングは「データを補ったり修正すること」とお伝えしました。でも具体的にどうすればいいか。方法について状況別に見ていきましょう。

欠損

欠損とは「なくてはならないところでデータが抜けている」という状態です。

これに対処する方法は大きく分けて二つ。

まずは欠損のあるデータごと消してしまうこと。これによって揃っているデータだけを残し次に進むことは可能。ただし、欠損に伴い削除するデータが多くなると今後の学習や分析に支障が出る危険があります。

もう一つは代表値で埋めること。具体的には欠けているデータを平均値やデータを小さい順から見てちょうど中央にあたる中央値、データの中で一番多く出てくる値である最頻値です。これによってデータごと削除し学習や分析に支障が出るリスクを抑えることができます。

表記ゆれ

表記ゆれとは「同じものを意味しているけれど書き方が違っている」という状態です。

例えば会社名を書く時「株式会社○○」と書く場合や「(株)○○」と書く場合もありますよね。

人間でしたら同じことを言ってるとわかりますがプログラム側は同じ認識ができず混乱する原因にも。

これに対処するためには名称の統一や表記ゆれに対する対応表の作成をしたり、複数の単語がくっついてしまっている場合は単語レベルに分割します。

そしてそれらを基にプログラム上で置換処理を一括で行うのが有効です。

外れ値

外れ値とは値の中でも他のものと大きくかけ離れてしまっているもののこと。

これにも異常値と呼ばれる入力や測定ミスによる場合と本当に大きく離れている場合のふたパターンが存在します。

他のデータと比べ明らかにおかしいものについては異常値と考え削除してしまっても問題はありません。

異常値と断言できない場合にはまずは外れ値の検出やヒストグラムなどの手法を使い数値が離れている理由を考察すること。

明らかに異常値と考えられる場合は削除し、そうでなければ対数変換などでデータを修正していきます。

データクレンジングのツール3つ

ツールのイメージ

ここまでデータクレンジングの方法を状況別に見ていきました。こういった処理を手軽に行ってくれるツールがあるので今回は3つご紹介しましょう。

Talend Data Preparation

talend data prep

Talend Data PreparationはTalendという会社が提供しているツール。

機械学習を土台としたスマートガイドに強みがあり視覚的な検出と併せ短時間で異常のあるデータを見つけることができます。
また、会社や組織全体でデータを活用しやすくなるよう配慮されているのも魅力的な点です。

Cloud Dataprep

cloud data prep

Cloud DataprepはGoogleのパートナーであるTrifactaが運営するサービス。

規模の大小に関わらずサーバーなしで利用できることに強みがあります。

データの型や異常なデータなどをすぐに検知できるだけでなく、どうデータを変換させるか予測や提案をしてくれるのも見逃せない特徴。
コードを書かず数回のクリックで処理ができるのでプログラミングが苦手という人でも使いやすくなっています。

Tableau Prep

tableau prep

Tableau PrepはTableau Prep BuilderとTableau Prep Conductorの2つからなるツール。

Builderの方ではデータの行、列、全体のプロセスの3つが同時に画面表示されています。異常のあるデータが自動的に表示されるのは勿論、修正すればすぐに反映されるので3つの表示からすぐに結果を確認することができます。
Conductorの方では進捗の共有をしたり、スケジュールの設定から実行に至るまで一連のステップの管理なども行うことができるのも特徴。2つを利用することで時間のロスを抑えることができます。

データクレンジングを学べるおすすめ書籍3つ

本

データクレンジングのツールをお伝えしましたが自分でもできるよう勉強したい人も出てきますよね。

そこで今度はデータクレンジングについて学べる本を3冊ご紹介します。

前処理大全[データ分析のためのSQL/R/Python実践テクニック]

この本ではデータクレンジングをはじめとする前処理の効率的な進め方について網羅的にまとめられています。

この本の特徴はPython,R,SQLの3パターンで記述されていることです。

なので使っている言語に応じて最適なコードの書き方や考え方を学ぶことができます。
Amazon.co.jp: 前処理大全[データ分析のためのSQL/R/Python実践テクニック] eBook : 本橋 智光, 株式会社ホクソエム: Kindleストア
Amazon.co.jp: 前処理大全[データ分析のためのSQL/R/Python実践テクニック] eBook : 本橋 智光, 株式会社ホクソエム: Kindleストア

バッドデータハンドブック――データにまつわる問題への19の処方箋

この本では19人のデータ分析の専門家によるデータクレンジングについての教訓や方法論が詳しく書かれています。

そしてこれらは各人の経験によって得られたもの。

事例が豊富であるだけでなく、データを扱う上でやってはいけないことなど対処法を幅広く学ぶことができます。
Amazon.co.jp: バッドデータハンドブック ―データにまつわる問題への19の処方箋 : Q. Ethan McCallum, 磯 蘭水, 笹井 崇司: 本
Amazon.co.jp: バッドデータハンドブック ―データにまつわる問題への19の処方箋 : Q. Ethan McCallum, 磯 蘭水, 笹井 崇司: 本

欠測データ処理―Rによる単一代入法と多重代入法―

この本ではデータクレンジングについてRで説明がされています。

メインに据えているのは欠損の取り扱いについて。

データに欠損があった場合取り除いたり平均で埋めるなどの処理に終始しがちなことについての問題点とより良い解決方法について言及されています。
ウェブ上で手に入るデータを用いて解説するので実際に手を動かしながら学べるのも魅力的な点です。
Amazon.co.jp: 欠測データ処理: Rによる単一代入法と多重代入法 (統計学One Point 5) : 高橋 将宜, 渡辺 美智子: 本
Amazon.co.jp: 欠測データ処理: Rによる単一代入法と多重代入法 (統計学One Point 5) : 高橋 将宜, 渡辺 美智子: 本

 

仕事がうまくいってるビジネスマン

今回はデータクレンジングにスポットを当て、そもそもデータクレンジングとは何か、方法やおすすめのツール、書籍をご紹介しました。

データクレンジングでは欠損、表記ゆれ、外れ値といった状況に応じデータを消したり埋め合わせたり修正したりといった処理をし分析や学習の足がかりとしていきます。

こういった処理を手軽に行ってくれるおすすめのツールは「Talend Data Preparation」、「Cloud Dataprep」、「Tableau Prep」の3つ。自学におすすめの本は「前処理大全[データ分析のためのSQL/R/Python実践テクニック]」、「バッドデータハンドブック――データにまつわる問題への19の処方箋」、「欠測データ処理―Rによる単一代入法と多重代入法―」の3つでプログラミング言語に応じ選んでいくのが妥当です。

中村
中村

データクレンジングはデータを扱う基本でありつつ奥が深いのできちんとできるようになっておきましょう。

トップへ戻る
タイトルとURLをコピーしました