データ分析の世界的コンペ、Kaggle(カグル)。上位入賞すれば賞金やメダルが貰える、世界中のデータサイエンティストたちの戦いの場であり、今とてもアツいコンペです!
一人で参加するもよし、チームで参戦するもよし。初心者にとっても、ベテランの方たちの最新データ解析を勉強できるので、Kaggler(Kaggleをやる人)になりたい人が急増中なのです!
でも、いざKaggleのサイトに行ってみるとまさかのオール英語・・!
「アカウントの開設からもう無理だ・・(T_T)」
そんなあなたのために、今回はKaggle初心者向けにアカウントの開設方法から、チュートリアルのタイタニックデータ提出方法までをご紹介します♪
タイタニックコンペとは
「Titanic: Machine Learning from Disaster」のこと。
Kaggleの初心者向けのコンペの1つ。タイタニック号の乗客の生存予測をするコンペです。
通常、Kaggleのコンペは開催期間が決まっていますが、このタイタニックコンペは常に開放されている状態です。そのため、初心者向けチュートリアルのような位置づけでもあります。
Kaggleがはじめての人は、ぜひやってみましょう☆
Kaggle初心者はまず何をすれば良いの?
「Kaggleをやってみたい!でも何から始めたら良いのか全くわからない!!」
そこで、まずKaggle初心者が最初にやっておきたい流れをご紹介します。
- Kaggleアカウントの開設
- タイタニックコンペにデータ提出
- 住宅価格予測コンペにデータ提出
まずはこの3つを目標にしましょう。
Kaggle初心者用の入門チュートリアルはタイタニックと住宅価格予測コンペ
Kaggleでは、初心者向けに入門用のコンペが2つ用意されています。それが「タイタニック」と「住宅価格予測」のコンペです。
これらのコンペにそれぞれデータ提出を完了すれば、晴れてあなたもKagglerとしての第一歩を踏み出すことが出来ます!
「なんだか難しそう・・((((;゚Д゚))))」
と思うかもしれませんが、大丈夫です!Kaggle初心者向けの入門編だけあって、とても簡単です。
もともと用意されているデータをぽんっと提出すれば完了なので、あっという間に終わります。ランキングに自分の名前が出ると嬉しくなりますよ♪
今回はアカウントの開設方法からタイタニックデータの提出までをご紹介しますので、頑張っていきましょう!
Kaggleアカウントの開設方法
では、早速Kaggleのアカウントを開設していきましょう。今回はメールアドレスで新規登録していきます。
まずはKaggleのトップページに行きましょう。
今回は新規登録なので一番右上の水色のボタン「Register(登録)」を選択します。(ページ中央にある「Register with Email」でもOKです)
次にGoogleアカウントか、メールアドレスかどちらで登録するか選択する画面になります。今回はメールアドレスで登録しますので、下の「Register with your Email」を選択しましょう。
ユーザーネームやディスプレイネーム、メールアドレスにパスワードを入力する画面になります。ちなみにUsernameは登録後の変更ができませんので、注意しましょう!
- Username:ユーザー名。登録後は変更ができないので要注意。
- Display Name:Kaggleサイトの中での表示名になります。登録後の変更もOK。
- Email Address:登録するメールアドレスを入力。
- Password:7文字以上で入力しましょう。
入力したらチェックボックスにチェックを入れ、「Get Started(始める)」を選択しましょう。入力完了すると、Kaggleのプライバシーポリシーの確認画面になります。
一番上と、一番下にある「I agree.(同意する)」に2つチェックを入れ、「Create Account(アカウントを作成する)」を選択しましょう。
読み込みに時間がかかることがありますので、しばらく待ちます( ^^) _旦~~
遅い場合は、メールボックスを見てみましょう。
Kaggle signup confirmationから「Welcome!」とメールが届いていればOKです。メールを開くと「Your Kaggle account (あなたのアカウント名) has been created.Click below to activate it:(Kaggleのアカウントが作成されました。有効化するには下をクリックしてください)」とあります。
水色の「Active」ボタンを選択しましょう。
すると、Kaggleのサインアップページに飛びます。「私はロボットではありません」にチェックを入れ、「Verify Account(アカウントを確認する)」を選択します。
この画面になれば、アカウント作成完了です!ヽ(=´▽`=)ノ
Kaggle初心者向け入門コンペタイタニックデータの提出方法
Kaggleのアカウントが開設できたら、さっそく初心者用の入門コンペ「Titanic: Machine Learning from Disaster」をやっていきましょう。タイタニックとは、あの有名なタイタニック号のことです。
乗客のデータから、生存率を予測するコンペとなっています。でも、初心者用のコンペですので今回はサンプルデータを提出して、ランキングに自分の名前を表示させることを目標にしていきます。
慣れてきたらいろいろデータを触って、順位を上げることを目標にしてみてくださいね。
タイタニックのコンペに参加する
では、早速タイタニックのコンペに参加しましょう。下のページからタイタニックのコンペに行けます。
するとこの画面になりますので、「Join Competition(コンペに参加する)」を選択してください。
何やらものものしいポップアップ画面が出ますが、「By clicking on the “I understand and accept” button below, you are indicating that you agree to be bound to the competition rules.(下の「同意する」ボタンをクリックすると、コンペのルールに従うことを承諾したことになります)」と書いてあります。もちろんコンペの規約には従わなければいけませんので、「I Understand and Accept(理解して同意します)」を選択しましょう。
これで、無事タイタニックコンペに参加が完了しました(*´∀`*)
Kaggleでコードを書く練習をしてみよう
Kaggleでは、プログラミングでPythonのコードを実行するための「環境構築」が不要です。環境構築とは、プログラム開発のための初期設定のことです。
文字通り、プログラミングするための環境を作ることですね。初心者にはいきなりハードルが高いとも言われている環境構築ですが、そんな大変な初期設定をしなくてもいきなりPythonのコードが書ける環境を整えてくれています。
では、KaggleのKernel環境でPythonのコードを編集する練習をしてみましょう。コンペの中にある「Notebooks(元・Kernels)」を選択しましょう。
(一番上の黒いバーの中にもありますが、そちらではない方です)
右端にある水色の「New Notebooks(元・New Kernel)」を選択しましょう。
すると「Script」か「Notebook」かを選択する画面になります。言語は「Python」を使うのでそのままでOKです。
また、Jupiter Notebookを使用したいので、そのまま「Notebook」にチェックが付いていることを確認したら、下の「Create(作成する)」ボタンを押しましょう。
これでJupiter Notebookが現れました。たくさん並んでいるコードを一度全部消して、「print(“Hello,Kaggle”)」と入力してみましょう。
そしてその上に小さくある、再生ボタンのような三角のボタンをクリックしましょう。コードを書く枠の左隣にある水色の三角ボタンでもOKです。
すると、黒い枠の中に「Hello,Kaggle」と表示されました。これでばっちりです!
KaggleのJupiter Notebookを使い、Pythonのコードを書いて実行することができました(*´∀`*)
タイタニックのサンプルファイルを提出して順位に載ってみよう
Kaggle上でPythonコードを書く練習ができたところで、いよいよタイタニックのデータを提出してKaggleの順位に自分の名前を表示させてみましょう!ではタイタニックのコンペに戻り、「Data」タブを選択します。
ページの中間くらいに「Data Sources」と書いているところがあります。ここに・・
- 「gender_submission.csv」
- 「test.csv」
- 「train.csv」
と3つのデータがあるのが確認できます。一番上にある「gender_submission.csv」が今回提出するサンプルファイルです。
マウスで「gender_submission.csv 418×2」とあるところに触ると、小さく右にダウンロードマークが出てきますので、それを押してこのデータをダウンロードしておきましょう。(後ほど使用します)
タイタニックコンペのトップページの一番右にある「Submit Predictions(予測を送信する)」をクリックします。
ページの中央辺りにデータをアップロードする場所があります。
アップロードのマークをクリックし、あらかじめダウンロードしておいた「gender_submission.csv」を選択してアップロードします。
データがアップロードされていることを確認できたら、一番下にある「Make Submission(提出する)」をクリックします。
「Complete」と表示されたら完了です!その下にある「Jump to your position on the leaderboard(リーダーボードの自分の位置にジャンプする)」をクリックしてみましょう。
はい!自分の順位が表示されました!
ランキングに自分の名前が載ると嬉しくなりますねー(*´ω`*)
これでタイタニックのサンプルデータ提出と、ランキングに載ることが出来ました!
今回は、Kaggleのアカウント作成から初心者向けチュートリアルの「タイタニック」のコンペのデータ提出方法をご紹介しました。サイト内は全部英語ですので、はじめは戸惑ってしまうかもしれませんが、そこまで難しくないかと思います。
タイタニックコンペのデータ提出も、今回はとにかくSubmit(提出)することだけを目標にしました。ですので、いきなりPythonのコードを書く必要もありませんでした。
予め用意されているサンプルデータを提出するだけでしたので、Kaggleのコンペの雰囲気を掴みたい初心者にはまず通っておきたい道と言えるでしょう。無事にタイタニックデータが提出できたら、次はおなじく初心者向けチュートリアルである「住宅価格予測コンペ」のデータ提出もやってみましょう!
コメントをどうぞ