AI(人工知能)に関する記事を読んでいると、「訓練データ(学習データ、トレーニングデータ)」という言葉をよく目にしますよね。これらの言葉は全て同じものを意味していますが、AI(人工知能)によほど興味のある方でなければ、「一体どんなデータなの?」と疑問に思われることが自然でしょう。
「訓練データ(学習データ、トレーニングデータ)」は実用的なAI(人工知能)を実装する上では非常に重要な役割をしています。こうした単語を一つ一つ理解していくことで、もっとAI(人工知能)が興味深く、面白くなっていくかもしれません。
そこで今回は「訓練データ(学習データ、トレーニングデータ)」についてお伝えしていきます。
一言で言うと「訓練データ(学習データ、トレーニングデータ)」とは・・・
実用的なAI(人工知能)を作るために、コンピュータを訓練させるために用いるデータです。
訓練データ(学習データ、訓練データ)を理解するためには機械学習の理解から始めていく必要があります。
機械学習とは、AI(人工知能)を実現するための技術の一つで、現在非常に世間から注目を集めています。厳密には異なりますが世間で言われているAI(人工知能) = 機械学習と理解して頂いて問題ないでしょう。
そして機械学習がどういうものかを簡単に説明すると、コンピュータがデータからデータに潜むパターンや傾向を見つけ出して、その結果を元に未知のデータに対して予測を行なっていくのです。
これもイメージだけをサクッとお伝えすると、例えばこのようにデータがあった場合に、
次のようにデータの傾向やパターンを掴むような線を引くこと、つまり線を表現する数式(モデルと言います)を求めることが、機械学習でやっているに相当します。
ちなみに、このようにデータのパターンや傾向を掴む(学習と言います)ためにはたくさんのデータが必要で、この学習のために使用するデータが訓練データ(学習データ、訓練データ)と呼ばれています。
こんな風に適切な線を引く、つまり適切な機械学習モデルを構築するには訓練データを増やすことが効果的ですが、「本当にこのモデルが訓練データだけじゃなくて未知のデータにも適合するのか?」を確認するためのテストデータも必要です。
そのため、通常機械学習モデルを構築する際には、データを「訓練データ」と「テストデータ」に分割します。
つっちー
機械学習やモデル構築についてもっと詳しく知りたい方はこちら
まとめ
つまり、訓練データ(学習データ、トレーニングデータ)とは
機械学習モデルを構築する際に、モデルの学習用として活用するデータのことを言います。
コメントをどうぞ