AIとは何か

機械学習では必須の「時系列データ」とは!その使い方も合わせて解説

時計を持ったイメージ

機械学習で時系列データって出てくるけど何が何だかわからない!

機械学習について勉強していると必ずと言ってもいいくらい時系列データという用語が出てきますよね。

時系列データとはデータの中で時間とともに変化した情報も持ったもののこと。

時系列データには様々な種類やモデルがあり一言だけで済ませるとかなりふわっとした理解に終始してしまうことに。しかし用語の数は少なくなくなかなか骨が折れるというのも事実。

そこで今回は時系列データに焦点を当てこれが何を指しどのようなものがあるかを解説、使われ方や注意点だけでなくさらに学習するのにオススメの本を3冊ご紹介します。
中村
中村

それではまず、時系列データとは何かについて解説から始めていきましょう。

まずは時系列データが何か、を解説

疑問のイメージ

先程も述べたように時系列データは時間とともに変化した情報を持つデータのことを指します。

具体的には気温の移り変わりや降水状況といった気象関係や交通の状態、土地の使われ方など。どれも一時的な状態を表したものとなります。

データ集めでは人間の手で直接入力されたデータや観測センサーで集められたもの、シミュレーションモデルから作られたものなど様々な手段を用います。

中村
中村

時系列で並べることで過去の様子を分析するのはもちろん、これからどう変化していくか予測することも可能となるのです。

時系列データの種類

たくさんの時計のイメージ

時系列データの種類は大きく分けて2つ。

中村
中村

それは定常時系列と非定常時系列です。

定常性とは確率の性質が様々な時点に影響されることなく一定であるということ。

定常時系列はそういった定常性のある時系列データを指すことになります。

逆に定常性がないのが非定常時系列

確率の性質が一定ではないため様々な時点の値から影響を受けるということになります。見方を変えれば影響される要素が多いから解析する必要性が出てくることに。

実際に使われるデータは非定常時系列が多く、定常時系列に変換して解析していくことになります。

よく使う時系列データの解析モデル

パソコンのイメージ

時系列データの解析モデルにはかなりの種類があります。ここでは代表的なものを見ていきましょう。

自己回帰モデル

自己回帰モデルはAR(Auto Regression mode)と言うことのある解析モデル。

現在の値は過去の値から影響を受けて記述されるというモデルで定常時系列データの方を用います。

このモデルは時間に対し変数というある値を入れる箱のようなものをある確率の分布を線形で表示。

ここで株式相場をイメージしてみましょう。

今日値上がりするのなら明日も同じく値上がりするだろうといったイメージ。

株式相場のグラフが線形に表すというわかりやすい例となります。

移動平均モデル

移動平均モデルはMR(Moving Average model)とも言う解析モデル。

このモデルではある時点のデータを時間によって生成されたランダムな数の線形和によって表します。

今日のデータは過去の複数にわたるランダムな値に係数をかけて作られた和になっているというイメージです。

和分過程

和分過程はI(Integrated)と略称されることのある解析モデル。

これは前までの値に今の値を加算していくというもので株価のような金融取引に使うデータを用いる時系列で利用されます。
解析モデルとしては他にも自己回帰モデルと移動平均モデルを組み合わせた自己回帰移動平均モデル、2つの解析モデルに和分過程も組み合わせた自己回帰和分移動平均などもあります。

時系列データを解析するとできること

注意しているイメージ

時系列データについて種類や解析モデルについて見ていきましたがこれを通してどういったことができるか疑問が残りますよね。

時系列データを解析することでできるのはこれまでの様子を分析したり今後の予測を立てることだけではありません。

例として異常検知への活用が挙げられます。

これは他の大多数のデータと明らかに異なっている異なるデータを検出する技術のことで為替レートの急激な変化や心電図での不整脈、ワードの検索数の急激な変化といったものへの検知などで応用することが可能。

データ点や時系列を用いて急激な変化が見られる部分を異常値として認識し次の行動を考える指標とすることができるのです。

実際に時系列データを解析するときの注意点

警告のイメージ

実際に時系列データを解析する時注意しなくてはいけない点があります。

それは実際の状況をきちんと想定すること。

パンを作り店に並ぶまでを例に考えてみましょう。

ここでパンの美味しさを目的変数で表す場合温度などが説明変数。工程が多くなるほど時間がかかることは言うまでもありません。

パンの美味しさと大きく関係するのは店でまさに今並んでいる状態での気温よりも焼いた時にどれくらいの温度でしっかり焼いたか。

つまり特定の時間での目的変数と直接関係しているのは時間的に過去となる目的変数の値であることを認識する必要があります。

時系列データついてさらに学びたくなったら、この本を読もう!

書籍のイメージ

ここまで時系列データについて種類やモデル、できること、そして注意点について言及してきました。最後にさらに学習していくのにオススメの本をご紹介します。

Excelでやさしく学ぶ時系列―明日を支配する時系列

この本は時系列データについて初学者でも実際に手を動かしながら学べるよう工夫された本。

図やイラストが多く使われており、時系列データについて視覚で理解することができるのが魅力的な点。また、Excelを動かしながらの学習になるのでプログラミングにあまり馴染みのない人でも挑戦しやすくなっています。

現場ですぐ使える時系列データ分析 ~データサイエンティストのための基礎知識~

この本も時系列データの初学者でも十分に取り組みやすい本。

そもそも時系列データと他のデータは何がどう違うかや扱う時の基本的な考え方、そして分析を進めていく上で最適な手順がそれぞれ丁寧に説明されています。

今まで統計やデータ分析に触れる機会のなかった人でもわかるよう正規分布や検定といった基本的な内容も。

データを実際に見ながら出てきた結果に対し考慮すべき点、次にどのような方法があるかと言った手順も踏んで説明されているので何から始めればいいかわからないという段階の人でも理解し次のステップに進んでいくのは十分可能です。
また、この本ではRという言語で解説されていますが知らなくても問題なく読み進められます。

時系列解析: 自己回帰型モデル・状態空間モデル・異常検知 (Advanced Python)

最後にご紹介するのは「時系列解析: 自己回帰型モデル・状態空間モデル・異常検知 (Advanced Python)」。

「現場ですぐ使える時系列データ分析 ~データサイエンティストのための基礎知識~」と序盤の内容は良く似ています。大きな違いはAdvanced Pythonとあるように時系列データについてPythonで書かれており、「現場で〜」よりも触れられている範囲が広いこと。

数式や専門的な用語の出てくる頻度は高いので数学や統計学に詳しい人はこの本から、そう出ない人はこれまでご紹介した2冊をこなした後挑戦するのが最適です。

 

ピンと来たイメージ

今回は時系列データに焦点を当てこれがそもそもどのようなものであるかやどういった種類やモデルがあるかについて言及し、使われ方や実際に利用する際の注意点、さらに学んでいくのにオススメの本をご紹介しました。

時系列データは時間とともに変化した情報を持つデータのこと。

定常時系列と非定常時系列の2種類が存在し、後者が主に使われます。

モデルは自己回帰モデル、移動平均モデル、和分過程がメインとなりそれらを組み合わせたものも。

解析することでこれまでの分析や今後の予測だけでなく異常検知にも応用できます。
また、実際に解析する際は現場の状況を想定するようにしましょう。
中村
中村

おすすめの本3冊と併せ時系列データについて理解し、自分でも活用できるようになるといいですよね。

トップへ戻る
タイトルとURLをコピーしました