最近、じわじわと認知度が広まりつつあるKaggle(カグル)。「なんか名前は聞いたことある」「むしろ最近Kaggleの存在を知って興味津々なんだけど!」という方も多いのではないでしょうか。
そもそもKaggleとは、改めて一体何なのでしょう?簡単に言うとデータ分析や予測モデリングのコンペ大会であり、よく例えられるのは「データサイエンティストたちの天下一武道会」です(*´艸`*)
そこで今回は、Kaggle初心者さんがスタートダッシュするための基本情報を総まとめ!これを読めばアカウント開設から、自分でコンペを選ぶところまでバッチリ☆
Kaggle初心者の私が、Kaggleの基礎からコンペの種類までを徹底解説します!
Kaggleとは世界中の企業とデータサイエンティストたちを結ぶプラットフォーム
いま巷で盛り上がりが加速しているKaggle(カグル)。世界の企業と、データ分析のプロたちを結びつける巨大なプラットフォームです。
この中で行われているのは、あらゆる企業が提示する様々なデータ分析コンペ。常時10〜20程度開催されているこのコンペで、その腕を競い合っているのが世界中のデータサイエンティストたちです。
コンペ開催中は、現時点での自分の順位が確認できますので、モチベーションを保ちながら予測モデリングの精度を極限まで高めていけます。またコンペ終了時、上位のデータサイエンティストたちやそのグループには、なんと賞金も出るのです!
データ分析にも熱が入るというものですね(*´ω`*)
現に日本のいくつもの企業は今、「Kaggler(カグラー:Kaggleをやる人のこと)」の確保にも力を入れていますし、世界中の強豪データサイエンティストたちと戦えるKagglerは、企業にとって非常に魅力的な人材なのです。
Kagglerへの一歩を踏み出そう
さて、Kaggleへの興味が深まったところで、さっそくKagglerへ向けて第一歩を踏み出しましょう(^^)Kaggleのアカウントを開設し、有名な初心者向けチュートリアルを2つクリアすれば、晴れてあなたもKaggleビギナーです☆
以下の記事を読めば、ばっちりアカウント開設からチュートリアル2つはクリアできます♪早速チャレンジしてみましょう!
ちなみにKaggleの公式サイトはすべて英語ですが、大丈夫です!グーグル翻訳という素晴らしいツールがあります!(*´∀`*)
「英語?読み書き全然できるけど?」と言う方以外は、グーグル翻訳がとても役に立ちます。Kaggleをやっているとどうしても英語は必須になりますので、まだの方はブックマークしておきましょう。
Kaggleの中のDiscussion(ディスカッション)内では、あらゆる質問が飛び交っています。ここではベテランだけではなく、初心者の方ももちろん質問してOKです!
またKaggleの中のNotebooks(元・kernel=カーネル)にはすでに諸先輩方による予測モデルが公開されていますので、初心者のうちはかなり大変ではありますが、そのコードを一行一行読み解くことで、最新のデータ分析の手法が学べます!Kaggle初心者さんは、ここでありがたく勉強させていただきましょう。
まずプログラミング言語のPythonを勉強しよう
Kaggleをやる前に、そもそもプログラミングを全く勉強したことない方はまずPython(パイソン)というプログラミング言語を一通り勉強しましょう。Pythonとはプログラミング言語の中でも今一番熱く、Pythonを使える人材は各企業でも確保に力を入れてるほどです。
私もプログラミングは全くやったことなかったのですが、Pythonを楽しく学べる方法をこちらの記事で紹介しています。プログラミング初心者の方はぜひ読んでみてくださいね(*´ω`*)
機械学習やAI(人工知能)、ライブラリや統計学についてざっくり学ぼう
本格的にKaggleをやる前に、AI(人工知能)、機械学習、Pythonのライブラリ、統計学などについてざっくり大まかなところを把握しておくと良いでしょう。KaggleのNotebooks(元・kernel)やDiscussion、プログラミング言語の知識共有サービスQiitaなどでも調べられます。
ちなみに機械学習については、codexa(コデクサ)の無料動画(一部有料)などを見て学習するのもおすすめです。他にも書籍など、苦手意識が少なく取り組めるものを選ぶと学習が継続しやすくなります(^^)
Kaggleのコンペの種類を見てみよう!
それではKaggleのコンペの種類について解説していきましょう。ちなみに公式サイトにもコンペの種類について書かれていますが、要約してお伝えします(*´ω`*)
- Pythonは一通り学習できた
- 機械学習やAI(人工知能)、ライブラリや統計学などについてもさらっと概要は把握できた(この時点ではひとまずざっくりでOK)
- Kaggleのアカウントを開設して、初心者向けチュートリアルを2つ完了した
という方は、いよいよ自分でコンペを選べるようになります♪Kaggleのトップページから上の方にある「Competitions」をクリックしてください。
するとこのような画面に。「2 Entered Competitions」のところには、すでに参加しているコンペが表示されています。
初心者向けチュートリアルのタイタニックコンペと、住宅価格予測コンペが表示されていますね(^^)まだの方は慣れるためにも先にやっちゃいましょう☆
そしてその下にあるのが、現在開催中のコンペです!「16 Active Competitions」とあります。
今は16のコンペが開放中であることがわかります。ちなみにそのさらに下に行くと過去のコンペも見ることが出来るのです。「333 Completed Competitions」とあるのは、333の過去コンペがあることを表しています。
またコンペの名前の一番右側に、賞金額と現在参加中のチームの数が表示され、そしてコンペ名の下に赤、黄、緑、青で何やらカテゴリらしき表示がありますよね。
これらについてカンタンに解説していきます(*´ω`*)
Kaggleの中で一番ポピュラーな種類で、本格的な機械学習の課題コンペ。
もう1つのポピュラーなカテゴリ。実験的性質があり、基本的には賞品やポイントなどは提供されない。
Kaggle初心者向けの入門用コンペ。通常のコンペは期間が限られているが、チュートリアル的な意味合いがあるため、基本的に常に開放されている。賞品やポイントは手に入らない。ちなみに提出したデータの有効期限は2ヶ月間。2ヶ月をすぎるとランキングから除外される。
楽しみながらやるタイプのコンペ。入門向けコンペの「Getting Started」の次はこちらのカテゴリがおすすめ。Kaggle初心者はやっておきたいところ。賞品や少額の賞金などが出るところもある。
つまり、Kaggle初心者がチャレンジするべき順番はGetting Started→Playgroundというわけですね。タイタニックコンペと住宅価格予測コンペが終わったら、他のGetting Startedをやって、それが終わったらPlaygroundに挑戦してみましょう!ヽ(=´▽`=)ノ
今回はKaggle初心者による、Kaggle初心者のための基礎をまとめました。これを読めばKaggleの概要から、自分でコンペを選ぶところまではバッチリですね☆
では、おさらいしてみましょう!
ちなみに、カテゴリ横に「8days to go」などと書かれているのはコンペの締切のことです。「8days to go」の場合、「このコンペはあと8日」ということですね(^^)
「Ongoing」は「継続中」のことです。わからない英単語はどんどんグーグル翻訳を使って慣れていきましょう☆
さあ、これであなたも駆け出しのKagglerです!データサイエンティスト目指してスキルを磨いていきましょうヽ(=´▽`=)ノ
コメントをどうぞ