オタフ☆クラブ

Kaggle入門編!初心者向けの住宅価格予測コンペに挑戦してみました

住宅価格予測のイメージ

世界中のデータサイエンティストたちが、惜しみなくそのスキルを競い合うデータ分析コンペのKaggle(カグル)。メダルあり、賞金ありとゲームのような性質もあるため、いまKagglerになりたい人がどんどん増えています。

Kaggleで作成したコードはそのまま実際の仕事にも活かせるため、自身のスキルアップにも大きく貢献してくれたり、Kaggleで獲得した経歴や称号は自身のデータスキルの証明にもなるため、就職や転職の際のアピールポイントにもなりますよね!

ネットやSNSの発展に伴い、ビッグデータがどんどん増えているため、データ分析できる人材がとても重宝され、あらゆる企業が続々とKagglerの確保にも力を入れているのです。

Kaggleのコンペは通常1〜3ヶ月ほどのものが多く、スケジュールなどを見据えて、参加するコンペを見極めることも重要でしょう。

一人でがっつりやり込むことも出来ますし、世界中のデータサイエンティストたちと国境を越えてタッグを組み、コンペに参戦することも出来ます。時差の関係など色々大変なこともあるようですが、それを置いてもとにかく面白そうな雰囲気のほうが強いです。

とにかくKaggleすごい・・!!((((;゚Д゚))))でもってデータサイエンティストって響きがかっこよすぎる。。

でも「Kaggle気になるからやってみたいけど、何から初めていいのか全然わからない・・」

そこで、そんなあなたのために、プログラミングもKaggleも超入門者である私が、Kaggle入門者向けの住宅価格予測コンペのチュートリアルにチャレンジしてみました!ぜひ一緒にやってみましょう♪

ちなみにKaggleのアカウント作成から、入門者向けチュートリアルのタイタニックコンペへの参加方法は別記事で紹介していますので、まだの方は先にそちらをご覧ください☆

Kaggleの入門者向けチュートリアル「住宅価格予測コンペ」とは

住宅のイメージ

Kaggleの入門者向けコンペで調べると、タイタニックコンペと同じように「住宅価格予測コンペ」が出てきます。このKaggleの「住宅価格予測コンペ」とは何なのでしょうか?

Kaggleには入門者向けに常に開放されているチュートリアルコンペがあり、その1つが「住宅価格予測コンペ」です。「住宅コンペ」「土地コンペ」「不動産価格予測コンペ」などいろいろな呼ばれ方をしていますが、正式名称は「House Prices: Advanced Regression Techniques」。

これは与えられたデータをもとに、住宅の価格を予測するコンペで、これは回帰問題のチュートリアルです。

ちなみに入門者向けチュートリアルコンペのもう1つは「タイタニックコンペ」です。タイタニックのほうはクラス分類のチュートリアルとなっています。

前回の記事でアカウント作成の方法と一緒にご紹介しています。こちらもぜひやってみてくださいね(*´ω`*)

タイタニックコンペ:クラス分類問題のチュートリアル
住宅価格予測コンペ:回帰問題のチュートリアル

今回の記事も、前回のタイタニックの記事と同様に入門者向けです。もともと用意されているサンプルデータをSubmit(提出)し、ランキングに自分の名前を表示させることのみを目標としています。

Kaggle入門に最適!House Pricesコンペをやってみよう

では、早速Kaggle入門にぴったりな住宅価格予測コンペをやってみましょう☆下のリンクからHouse Pricesコンペの公式ページへいけます。

データタブからサンプルデータをダウンロードしておこう

House Pricesコンペの「Data」タブをクリックしてみましょう。ページの中ほどに、Data Sourcesというところがあります。(ちょっと左寄りです)

手順1のイメージ

そこを見てみると・・

  1. sample_submission.csv
  2. test.csv
  3. train.csv
  4. data_description.txt

と、書いてあるのが確認できます。この一番上にある「sample_submission.csv」が今回使用するサンプルデータです。

手順2のイメージ

「sample_submission.csv 1459 x 2」と書いてあるところをマウスで触ると、一番右側に小さくダウンロードのマークが表示されます。これをクリックしてDataを必ずダウンロードしておきましょう。
(「ダウンロード」や「デスクトップ」など、ダウンロードした保存先も確認しておきましょう)

サンプルデータをアップロードしよう

サンプルデータはダウンロードできたでしょうか(*´∀`*)それではそのままページの上部に移動し、右上にある水色の「Submit Predictions(予測を送信する)」ボタンをクリックします。

手順3のイメージ

ページの中ほどにダウンロードのマークがある場所があります。ここから、先ほどダウンロードしておいたサンプルデータをアップロードしていきます。

では、ダウンロードマークをクリックしましょう。あらかじめ保存しておいた、先程のサンプルデータを選択して、アップロードします。

手順4のイメージ

サンプルデータ名の左端にチェックマークがついていることを確認したら、下の方に水色のボタン「Make Submission(提出する)」があります。これをクリックしましょう。

ページ上部の方に緑色のラインで「Complete」と表示されたら完了です!これでDataのアップロードが完了できましたヽ(=´▽`=)ノ

手順5のイメージ

自分のランキングを確認してみよう

「Complete」と表示されると、そのすぐ下に「Jump to your position on the leaderboard(リーダーボードの自分の位置にジャンプする)」のリンクがあります。そこをクリックしてみてください。

ランキングのイメージ

自分の名前が載ってるー!((((;゚Д゚))))これでランキングに自分の名前を表示させることができました♪

Kaggleのアカウントを作成し、タイタニックコンペと住宅価格予測コンペにSubmitできたあなたは、これでKagglerとしての第一歩を踏み出せました☆「全然物足りないよー」という方は、いろいろデータを編集して順位の変動を楽しんでみてくださいね(*´∀`*)

住宅価格のイメージ

今回は、前回のタイタニックデータコンペと同様に住宅価格予測コンペにSubmit(提出)することだけを目標にしました。タイタニックコンペにもすでに参加済みなら、今回は以前よりもはやくSubmit出来ますよね。

タイタニックコンペではサンプルデータ提出にかなりの日数を費やしましたが、今回の住宅価格予測コンペではタイタニックのやり方と同じなので、数分で完了できました^^;これでKaggle入門の超初級編はばっちりです!

前回と今回と、2つのKaggle入門コンペに参加することで、私もアカウント作成前よりも少しKaggleの雰囲気に慣れてきました(^^)引き続きプログラミング初心者の方にもわかりやすいように、Pythonの学習やKaggle入門について学んだことをシェアしていきたいです!

超スローペースなので「物足りない・・(´・ω・`)」という方は、ぜひ他の超精鋭エンジニアメンバーの皆さんの記事などを参考にしてみてくださいね☆Python言語を操って、Kaggler目指して頑張りましょう!

燃やせ探究心!突き詰めろ美しきソースコード!オタフ☆クラブ

コメントをどうぞ

トップへ戻る
タイトルとURLをコピーしました