テクノロジー

【保存版】機械学習に欠かせない!AIサンプルデータセット一覧

【保存版】機械学習に欠かせない!AIサンプルデータセット一覧

AI(人工知能)のアプリを作成するときに必ず必要になるものに学習データがあります。AI(人工知能)の性能はサンプルデータとしてどのようなデータを利用して学習するかで大きく変わり、実際、本年度のAI(人工知能)のコンテストで突然、中国の研究グループが上位に入賞するようになったのもこのAI(人工知能)の学習に必要なサンプルデータが非常に多く集められたからともいわれております。

GoogleやMicrosoft、Amazon等の大規模にWebサービスを展開している企業では内部に非常に多くのデータを持っているので必要に応じてAI(人工知能)の学習の為のサンプルデータを準備することは可能でしょう。

しかし、企業に属さない個人の研究者やこれからAI(人工知能)を研究する人にとってこれらのデータは入手できないので、公開されているサンプルデータを利用する必要があります。

この記事では、AI(人工知能)の学習をはじめとしたデータ分析に利用できる、公開されているサンプルデータについてご紹介します。

それでは、AI(人工知能)の学習やデータ分析に利用できるサンプルデータに関して見ていきましょう。

Scikit-learnに入っているサンプルデータセット

データのイメージ

最初に紹介するのはAI(人工知能)の開発言語として人気の高いPythonのライブラリのScikit-Learnに付属しているAI(人工知能)のサンプルデータに関して紹介します。

scikit-learnには全部で下記の5種類のデータセットが入っており簡単なコードで呼び出すことができます。

但し、

データセットとしては全体的に数がそれ程多くは無いので本格的なAI(人工知能)のアプリのテストというよりは、基本的なアルゴリズムの検証に利用するレベルでしょう。
  1. アヤメの観測データ
  2. ボストン住宅価格
  3. 糖尿病患者の診断データ
  4. 数字の手書き文字
  5. 生理学的特徴と運動能力の関係

Scikit-learn

Kaggleのチュートリアルで利用するデータセット

パソコンのイメージ

次に紹介するのは、機械学習のコンペサイトで有名なkaggleのチュートリアルで利用される、AI(人工知能)を用いてデータ分析を行うためのサンプルデータです。

Kaggleのチュートリアルで最初に挑戦するのはタイタニック号の生存予測と中古住宅の価格予測でしょう。
このデータセットは分析のコンテストのデータなので、実際には予測に役に立たないデータや、欠損値が含まれている場合等があり、AI(人工知能)にデータを学習させる前段階で、どうデータを整えるのか(前処理)から考えるサンプルデータになっており、単純なサンプルデータにはなっていません。

※ちなみに、データの前処理については下記の記事で紹介しています。

Kaggleではこの他、実際のコンテストデータやサンプルデータが提供されており、興味があれば実際のサイトを確認してみるのも良いでしょう。

kaggle

画像系のサンプルデータセット

画像が並んでいるイメージ

ここまで、Scikit-learn、Kaggleと説明してきましたが、今度は画像解析のAI(人工知能)の為のサンプルデータセットを紹介します。

画像系で一番有名なデータセットはMNISTですが、これ以外にもCIFAR-10やFood-101等のサンプルデータがあります。

MNISTは0~9までの手書き文字でScikit-learnに入っているデータとほぼ同じもので、CIFAR-10は飛行機、自動車、鳥、猫、鹿、犬、カエル、船、トラックの10種類の32×32の画像で、Food-101は101,000個の食品画像を101個のカテゴリでラベリングしたデータセットになります。

MNIST以外はそれなりのデータ量を持っているので画像処理のAI(人工知能)のテストでは有効に利用することができるでしょう。

MNIST

為替・株式のデータセット

金融のデータのイメージ

為替・株式のデータセットに関しては様々なデータ公開されており、無料で利用可能ですが、ここではYahooファイナンスのデータに関して紹介します。

Yahooファイナンスでは1983年から現在までの35年近くの株式データを公開しております。ファイルで入手するためにはYahooファイナンスのプレミアム会員になる必要があり入手は容易ではありませんが、少しコードを書ける人であれば、簡単に入手のできる株式データです。

為替・株式は時系列分析の研究に非常に役立つデータなのでAI(人工知能)で株式予測に興味が無くても、時系列分析や、回帰予測に関して興味があるのなら一度は入手して分析してみると良いでしょう。

Yahoo!ファイナンス

その他のサンプルデータ

動画のイメージ

その他にも、顔や医療、動画といったAI(人工知能)を用いてデータ分析するためのサンプルデータは存在しており、サイトを探すと非常に多くのサンプルデータが入手可能。ここで紹介したサンプルデータ以外も探すことをお勧めします。

 

データのイメージ

この記事では、AI(人工知能)を実装するための代表的なライブラリscikit-learnに付属するサンプルデータ、Kaggleのチュートリアル、画像系、為替・株式のデータセットの紹介をしました。

冒頭でも紹介した通り、AI(人工知能)のアプリケーションを作成する場合、多くのサンプルデータを使用してAI(人工知能)に学習させ分析精度を上げて行く必要があります。個人の研究者ではなかなかAI(人工知能)の学習に必要なデータを収集することは難しいでしょう。その為、ここでは無料で利用できるサンプルデータを紹介しました。

今後、自分でAI(人工知能)のアプリケーションを作成する機会があったならば、ここで紹介した内容を参考に自分の目的適したサンプルデータを用意してテストして、AI(人工知能)を実装するスキルアップに役立てていきましょう。

トップへ戻る
タイトルとURLをコピーしました