AI(人工知能)のアプリを作成するときに必ず必要になるものに学習データがあります。AI(人工知能)の性能はサンプルデータとしてどのようなデータを利用して学習するかで大きく変わり、実際、本年度のAI(人工知能)のコンテストで突然、中国の研究グループが上位に入賞するようになったのもこのAI(人工知能)の学習に必要なサンプルデータが非常に多く集められたからともいわれております。
GoogleやMicrosoft、Amazon等の大規模にWebサービスを展開している企業では内部に非常に多くのデータを持っているので必要に応じてAI(人工知能)の学習の為のサンプルデータを準備することは可能でしょう。
しかし、企業に属さない個人の研究者やこれからAI(人工知能)を研究する人にとってこれらのデータは入手できないので、公開されているサンプルデータを利用する必要があります。
この記事では、AI(人工知能)の学習をはじめとしたデータ分析に利用できる、公開されているサンプルデータについてご紹介します。
それでは、AI(人工知能)の学習やデータ分析に利用できるサンプルデータに関して見ていきましょう。
Scikit-learnに入っているサンプルデータセット
最初に紹介するのはAI(人工知能)の開発言語として人気の高いPythonのライブラリのScikit-Learnに付属しているAI(人工知能)のサンプルデータに関して紹介します。
scikit-learnには全部で下記の5種類のデータセットが入っており簡単なコードで呼び出すことができます。
但し、
- アヤメの観測データ
- ボストン住宅価格
- 糖尿病患者の診断データ
- 数字の手書き文字
- 生理学的特徴と運動能力の関係
Kaggleのチュートリアルで利用するデータセット
次に紹介するのは、機械学習のコンペサイトで有名なkaggleのチュートリアルで利用される、AI(人工知能)を用いてデータ分析を行うためのサンプルデータです。
※ちなみに、データの前処理については下記の記事で紹介しています。
Kaggleではこの他、実際のコンテストデータやサンプルデータが提供されており、興味があれば実際のサイトを確認してみるのも良いでしょう。
画像系のサンプルデータセット
ここまで、Scikit-learn、Kaggleと説明してきましたが、今度は画像解析のAI(人工知能)の為のサンプルデータセットを紹介します。
画像系で一番有名なデータセットはMNISTですが、これ以外にもCIFAR-10やFood-101等のサンプルデータがあります。
MNIST以外はそれなりのデータ量を持っているので画像処理のAI(人工知能)のテストでは有効に利用することができるでしょう。
為替・株式のデータセット
為替・株式のデータセットに関しては様々なデータ公開されており、無料で利用可能ですが、ここではYahooファイナンスのデータに関して紹介します。
為替・株式は時系列分析の研究に非常に役立つデータなのでAI(人工知能)で株式予測に興味が無くても、時系列分析や、回帰予測に関して興味があるのなら一度は入手して分析してみると良いでしょう。
その他のサンプルデータ
その他にも、顔や医療、動画といったAI(人工知能)を用いてデータ分析するためのサンプルデータは存在しており、サイトを探すと非常に多くのサンプルデータが入手可能。ここで紹介したサンプルデータ以外も探すことをお勧めします。
この記事では、AI(人工知能)を実装するための代表的なライブラリscikit-learnに付属するサンプルデータ、Kaggleのチュートリアル、画像系、為替・株式のデータセットの紹介をしました。
冒頭でも紹介した通り、AI(人工知能)のアプリケーションを作成する場合、多くのサンプルデータを使用してAI(人工知能)に学習させ分析精度を上げて行く必要があります。個人の研究者ではなかなかAI(人工知能)の学習に必要なデータを収集することは難しいでしょう。その為、ここでは無料で利用できるサンプルデータを紹介しました。
今後、自分でAI(人工知能)のアプリケーションを作成する機会があったならば、ここで紹介した内容を参考に自分の目的適したサンプルデータを用意してテストして、AI(人工知能)を実装するスキルアップに役立てていきましょう。