最近のニュースでは、「データ活用」や「データ分析」など、データという言葉をよく耳にしますよね。データとは、数字や記号で表された事実で、身近なところだと天気の気温や湿度、テストの点数などがデータになります。現在、さまざまな分野でデータを分析して活用が進められています。
そして、データを活用するために使われているのがAI(人工知能)。AI(人工知能)は、目的に沿った予測や分類ができるようにするため、機械学習で過去のデータを学習します。
そんな有効利用されているデータの1つが時系列データ。時系列データは、AI(人工知能)の学習手法の機械学習でも使う機会が多いです。そのため機械学習を行うなら時系列データについて学んでおきましょう。
そこで今回は、時系列データとその分析方法などについてお伝えします。
時系列データとは
時系列データとは、一定の間隔(1分、1時間、1日、1か月、1年など)で測定されるデータのことです。これは時間が進むにつれて変化し蓄積されるデータで、例えば気象観測の1時間ごとに観測する気温や湿度などが時系列データになります。
そして、時系列データが変化する要因が次の4つです。
- 傾向変動:長期的に見た大きな変化、上昇(増加)か下降なのかの傾向を表す
例:人口増加、GDPの成長など - 循環変動:ある周期性を持っている変化、上昇と下降の動きをセットで含む
例: 3~10年程度の期間で繰り返し起こる景気循環など - 季節変動:季節で繰り返される変化、1年周期の変動パターンを見るのが特徴
例:ゴールデンウィークや夏季休暇、年末年始の旅行者数など
- 不規則変動:短期的な変化、上記の3つでは説明できないことを示すもの
例:自然災害の影響を受けた株価変動など
そして、このような時系列データを分析することを時系列分析といいます。
時系列分析とは
時系列分析とは、時系列データが時間とともに変化する要因を発見するための分析です。では時系列分析について、野菜の白菜で説明しましょう。
白菜といえば、寒い冬の食卓に並ぶお鍋に欠かせない定番食材ですよね。そんな白菜は今年の7月下旬から価格が上りはじめ、昨年の9月よりも3割から4割も高くなっています。この価格高騰の要因は夏の「干ばつ」と「ひょうの被害」。
この場合で、7月からの白菜の価格変化が時系列データ、その要因を解明するのが時系列分析です。そして、このような時系列分析でわかった要因をもとに、今後の売上予測や販売戦略に活用できます。
では実際に、時系列分析を応用していることを紹介しましょう。
時系列分析を応用するとできること
時系列分析は、次のようなことに応用されています。
不動産価値の将来予測
大和ハウスグループの株式会社コスモスイニシアは、時系列分析のAI(人工知能)を用いた投資シミュレーションで、不動産価値の将来予測ができる『VALUE AI(バリューアイ)』をサービス提供しています。このシステムでは各不動産の時系列データを使って時系列分析を実施。その結果から現在と将来に予測できる課題を見つけ出し、今後の不動産経営の計画立案などに役立てられるサービスです。
農作物の生産予測
富士通は、高知県とITベンチャー企業の株式会社Nextremerと共同で、時系列分析にAI(人工知能)を使った農作物の生産量予測ができる「高知県園芸品生産予測システム」を開発しました。農作物の販売取引で有利な条件を得るためには、2~3週間先までの出荷量の把握が必要ですが、従来では難しい状況でした。このシステムでは農作物の生育から出荷までのデータを一元管理するので、生産管理の効率化と3週間先までの生産量予測が可能になり、農作物の単価上昇も期待できます。
株式取引
NECは、株式取引に時系列分析とAI(人工知能)を使用した「AI売買審査支援サービス」を提供しています。このサービスでは時系列データを分析して、不公正な取引の見せ玉*1・仮装売買*2などを検出。その検出したことの根拠も導き出します。
2020年1月より株式会社SBI証券では、AI売買審査支援サービスの運用を開始し、金融取引でのリスク・不正への対策業務の効率化を期待しています。
これらの時系列分析を応用したサービスには、時系列データが使われています。その時系列データには、各企業などで蓄積してきたものを使う場合や、Webサイトで公開されているオープンデータが使用されています。
このうちのオープンデータは、無料で機械学習に必要な多くのデータを使えるので非常に便利です。そこで次は、すぐにでも時系列分析に使える無料の時系列データを紹介しましょう。
すぐに使える時系列データ
では、すぐに機械学習でも使えるオープンデータの時系列データが次の3つです。
日本銀行:時系列統計データ検索サイト
日本銀行は、私たちが普段使っているお金(紙幣・貨幣)の発行や、日本国内の物価や金融システムの安定を図る役割をしています。その日本銀行のWebサイトから、為替相場(円と外国通貨との交換比率)、企業物価指数(企業間取引での商品価格の変動)、国内銀行の預金・現金・貸出金など、日本銀行に蓄積されている金融関連の時系列データをダウンロードできます。
気象庁:過去の気象データ
気象庁が蓄積してきた過去の気象の時系列データを使用できます。Webサイトでは、目的に合わせて観測地点・項目・期間・表示オプションを選択。例えば、観測地点を東京都の羽田、項目を気温、期間を最近1年、のように目的に合わせて選択し時系列データをダウンロードします。
政府統計の窓口
政府統計の窓口は、総務省統計局が整備している政府統計のポータルサイトです。このサイトでは、政府機関が実施してきた統計調査の時系列データを利用できます。そのデータには日本の総人口や就業率、食料自給率などがあります。
今回紹介した3つのように無料で利用できる時系列データは、他にもあるので目的に合うものを探しましょう。では次に、時系列データを使って分析する方法を紹介します。
時系列データを使って時系列分析をする方法
主な時系列分析に使用されている方法は、次の5つです。
- ARモデル(自己回帰):時系列分析の手法の中で基本になるのがARモデル、過去の時系列データを使って現在の値を回帰分析(予測)する
例:失業率や株価の分析に使用されている - MAモデル(移動平均):MAモデルは時系列データの、ある期間のデータを平均した値で表す方法、細かく変化しているデータの傾向をわかりやすくしたい場合に用いる
例:株価や気温の変化 - ARMAモデル(自己回帰移動平均):ARMAモデルは、ARモデルとMAモデルを組み合わせた手法
例:データマイニングツール(データから有益なヒントを発掘するツール)などに使用 - ARIMAモデル(自己回帰和分移動平均):ARIMAモデルは、ARMAモデルでデータの差分(引き算)操作を加えた手法
例:株価のように何かの影響を受けて上昇・下降するトレンド(傾向)がある時系列データの分析に用いる
- SARIMAモデル(季節自己回帰和分移動平均):SARIMAモデルはトレンドを分析できるARIMAモデルに、長期的な季節による周期変動を考慮した手法
例:株価の変動を週・月・年で分析に適している
以上の5つが時系列分析で使われている主な方法です。そして次は、これらの方法を使って時系列データを分析するときにポイントがあるのでお伝えしましょう。
時系列分析をおこなうときのポイント
時系列分析を行うときのポイントは、次の2つです。
- トレンド、周期性を分析する場合は、長期間の時系列データが必要:短期間でトレンドが大きく変化していても長期間で見ると、ほとんど変化が見られない場合がある
- 一時的な影響による大きな変化:ハロウィンやバレンタインデーのようなイベントなど、一時的な影響は、その時だけ急激に需要が増えるが、その変化が大きすぎると機械学習での予測精度が悪くなる
以上の2つが時系列分析を行うときのポイントなので、これらを考慮して機械学習で時系列分析をしましょう。
さて今回は、機械学習で使う時系列データについてお伝えしました。時系列データは、一定の間隔(1分、1時間、1日、1か月、1年など)で測定されたデータです。例えば気温や湿度などの気象観測データも時系列データの1つで、時間とともに時系列データが変化する要因は、次の4つです。
- 傾向変動・・・長期的に見た大きな変化、例:人口増加、GDPの成長など
- 循環変動・・・周期性を持っている変化、例: 3~10年程度の期間で繰り返し起こる景気循環など
- 季節変動・・・季節で繰り返される変化、例:ゴールデンウィークや夏季休暇、年末年始の旅行者数など
- 不規則変動・・・短期的な変化、例:自然災害の影響を受けた株価変動など
そして、時系列データを分析することを時系列分析といいます。時系列分析は、時系列データが変化する要因を見つけ出すための分析です。その時系列分析はAI(人工知能)に使用して、次のようなサービスに応用されています。
- 不動産価値の将来予測・・・大和ハウスグループの株式会社コスモスイニシア:現在と将来に予測できる課題を発見し、不動産経営に役立てるサービス
- 農作物の生産予測・・・富士通:生産管理の効率化と3週間先までの生産量予測が可能、農作物の単価上昇も期待できる
- 株式取引・・・NEC:金融取引でのリスクや不正への対策業務の効率化を実現
以上のようなAI(人工知能)サービスを機械学習で開発する際に使用できる、次のような無料の時系列データがあります。
- 日本銀行:時系列統計データ検索サイト・・・為替相場・企業物価指数・国内銀行の預金・現金・貸出金などの時系列データ
- 気象庁:過去の気象データ・・・気象庁が蓄積してきた過去の気象の時系列データ
- 政府統計の窓口・・・政府機関が実施してきた統計調査の時系列データ(日本の総人口・就業率・食料自給率など)
そして時系列分析に使用されている主な方法は、次の5つです。
- ARモデル(自己回帰)・・・過去の時系列データを使って現在の値を回帰分析(予測)する
- MAモデル(移動平均)・・・細かく変化しているデータの傾向をわかりやすくする場合に用いる
- ARMAモデル(自己回帰移動平均)・・・ARモデルとMAモデルを組み合わせた方法
- ARIMAモデル(自己回帰和分移動平均)・・・トレンド(傾向)がある時系列データの分析に用いる
- SARIMAモデル(季節自己回帰和分移動平均)・・・ARIMAモデルに長期的な季節による周期変動を考慮した方法
これら5つの方法で時系列データを分析するときの注意すべきポイントが、次の2つ。
- トレンド、周期性を分析する場合は、長期間の時系列データが必要
- イベントなどの一時的な影響による大きな変化
時系列データは無料のオープンデータが多くあります。それらの時系列データを使えば、紹介したサービスのように、機械学習でさまざまなAI(人工知能)が作れます。なので、みなさんもお伝えしたポイントを考慮し、時系列データを使ってAI(人工知能)開発に挑戦しましょう。
【お知らせ】
当メディア(AIZINE)を運営しているAI(人工知能)/DX(デジタルトランスフォーメーション)開発会社お多福ラボでは「福をふりまく」をミッションに、スピード、提案内容、価格、全てにおいて期待を上回り、徹底的な顧客志向で小規模から大規模ソリューションまで幅広く対応しています。
御社の悩みを強みに変える仕組みづくりのお手伝いを致しますので、ぜひご相談ください。