最近、工場や農業などでディープラーニングを使う例が増えつつありますよね。今やディープラーニングは工場の不良品検知や病変の画像診断、野菜の自動収穫などさまざまな場面で使われて、サービスや製品の向上に一役を買っています。
異常検知もそのひとつで、ディープラーニングが使われる機会が増えた技術でグッと精度が向上しました。このようなディープラーニングの普及や発展は私たちの生活を大胆そして確実に変化させていき、より豊かな社会へと成長させます。
異常検知は金融業界や製造業などさまざまな業界で使われており、異常検知について知ることは業界の動向の把握につながったり、自社の業務の効率化のために導入を検討するきっかけになったりするでしょう。
そこで今回は、異常検知の基礎知識をわかりやすく、しっかりと解説します。まずは、そもそも異常検知とは何ぞや、というところから解説しましょう。
異常検知とはどんなものか
次に、ディープラーニングを用いた異常検知の手法などの仕組みについて解説します。
ディープラーニングを使った異常検知の仕組み
外れ値検知
検出単位がデータ点の検知方法で、普段の状態では考えられないようなデータ点を検知ときに用いられる手法です。例えば、株価指数の急激な値下がり、値上がりを検知し、アラートを発生させるのに役に立つでしょう。時間に沿って集めた時系列データの中に含まれる異常なデータ点を検知する外れ値検知に対して、時間の区間を固定して定めることで、後述するk近傍を適用することができます。
異常部位検出
検出単位が点でなく範囲となる部分時系列の検出方法で、明らかに異常や変化が起きている、通常では考えられない部分時系列を検出するときに用いられる手法です。例えば、心電図のデータの急激な変化など、異常を示す部分のみを抜き出したいときに役立つでしょう。こちらも外れ値検知と同様にk近傍法を適用することができます。
変化点検知
時系列データのパターンが急激に変化する箇所を検知するときに用いられる手法です。例えば、検索エンジンによるキーワードの検索数が急激に変化した時期を検知するのに役立つでしょう。後述するホテリング理論を応用することで変化点検知を実現できます。
ホテリング理論
有名な手法のひとつで、統計モデルに基づくため人の主観に左右されずに異常値を検知することができます。そのため、ホテリング理論は異常検知のもっとも基本的な手法です。
ホテリング理論は、平均や分散といった統計学における基本的なデータの分布情報をもとに、観測値から算出した異常度によって外れ値を検知します。時間依存性の高いデータの異常検知に対する適用は不向きですが、半導体工場のような管理された安定した場所で利用実績がある手法です。
k近傍法
ホテリング理論では異常検知をおこなうデータが多数のクラスター(データ内にある集団)によって構成される場合、異常値を取り除くことができません。そこで、確率分布(現象とその現象の生じやすさをグラフや表にまとめたもの)を明確に仮定せずに、あるデータからデータ間の距離が近いデータのうち、k番目まで近いものを計算して取得し、多数決によりクラスを判定し、最終的に異常値を割り出す手法がk近傍法です。例えば、k=1の手法を最近傍法と呼びますが、最近傍法ではあるデータから一番近くのデータまでの距離が、分析者が何らかの方法で設定した一定の値を超えたら、その点は異常値とみなします。
このように、異常検知にはさまざまな手法が存在し、状況に応じて最適な手段を取ります。続いて、ディープラーニングによる異常検知のうち実用化した事例を紹介しましょう。
ディープラーニングを使った異常検知を実用化した事例
異常検知は金融業界や製造業で使われており、次のような事例があります。
ディープラーニングによりクレジットカードの不正検知の精度がアップ!(株式会社クレディセゾン)
2018年10月、クレジットカード会社の株式会社クレディセゾンがクレジットカードの不正使用検知システムである「PREDICO for Financial Intelligence」(株式会社PKSHA Technology)を導入しました。「PREDICO for Financial Intelligence」は予測エンジン「PREDICO」を金融業界向けに特化させたアルゴリズム(コンピュータによる処理の手順)で、導入にはクレディセゾンの不正使用検知システムと連携しカスタマイズをおこなっています。
ディープラーニングを使用しているので、常に最新の不正手口を学習し続け、変化に迅速に対応し、高精度で不正使用抑止をすることが実現可能になりました。これなら、クレジットカードを使う私たちも非常に安心ですよね。
光ファイバーで精密に設備・製造の保守を行う!(富士通株式会社)
富士通株式会社では、「FUJITSU Business Application Operational Data Management & Analytics 予兆監視モデル for 光ファイバー温度検知ソリューション」(以下、「ODMA予兆監視for光ファイバー」)を開発しました。「ODMA予兆監視for光ファイバー」では配管などの設備や製造装置に対して広範囲に光ファイバーを巡らせ、精密かつリアルタイムの温度測定によって精密な異常検知が可能だとか。
ところで、一見さまざまなところで活用ができる異常検知ですが、注意しなければならないこともあります。次に、どんな点に気を付けなければならないのか解説します。
実際にディープラーニングで異常検知をするときに気をつけたいこと
高精度にデータを収集できなければならない
異常検知に関わらず、ディープラーニングはデータを有効活用するためにある技術です。そのため導入する際には、高精度かつ十分にデータを計測できる環境が用意できるかが大切になります。データが高精度で収集できなかったり、十分な量を用意できなかったりすると、せっかくディープラーニングを導入しても期待したほどの成果は出ないかもしれないので、データがきちんと計測できる環境かどうか事前確認しましょう。
システムへの理解が必要である
ログ(データの記録)が生成されてから解析するまでは多少のタイムラグがあり、そのラグをしっかりと考慮してシステムを扱う必要があります。また、経年劣化などにより継続して使用するのが難しくなることを考慮して、モデル更新をする必要もあることを頭に入れておかなければなりません。
教師なし学習の場合には結果の出し方に注意が必要である
ディープラーニングにおいて、人間が正解(学習の目標)を設定せず学習をさせる教師なし学習では、人間が正解を設定する教師あり学習とは異なり、異常である確率というものは出てこないため、異常かどうかの判断には別の判断基準を必要とします。また、正解の定義のない教師なし学習では、複数の手法で判断したほうが良い結果を得られる可能性があるでしょう。
このような注意点を頭に入れて、異常検知の導入を検討する必要があります。最後に異常検知の今後の展開について解説します。
今後、異常検知はどんなところで使われるようになるか
そのような困難を乗り越えようと、数十枚の画像でも異常検知を可能にするシステム開発なども進んでおり、例えばgLupe(株式会社システム計画研究所/ISP)という異常検知システムは製造業への導入拡大に積極的です。このように、大量のデータを集められない企業でもディープラーニングによる異常検知を活用できるようなサービスを作っています。
さて、今回は異常検知の基礎知識をわかりやすく、しっかりと解説しました。異常検知とは、一連のデータの中からおかしな振る舞いをしているデータを検知する技術です。その手法は次のようなものがあります。
- 外れ値検知:データ点を検知する手法で、普段の状態では考えられないようなデータ点を検知
- 異常部位検出:部分時系列を検知する手法で、明らかに異常が起きている部分時系列を検出
- 変化点検知:時系列データのパターンが急激な変化を示す箇所を検知
これらの手法を実現するために、次のような理論や方法が存在します。
- ホテリング理論:統計モデルに基づき、平均や分散といった統計学における基本的なデータの分布情報をもとに、観測値から算出した異常度によって外れ値を検知
- k近傍法:あるデータからデータ間の距離が近いデータのうち、k番目まで近いものを取得し、多数決により異常値を割り出す
クレジットカードの不正利用や、光ファイバーを用いた温度測定による設備・製造の保守に異常検知は用いられますが、次のようなことが求められます。
- 高精度でたくさんのデータ収集
- システムの理解
- 教師なし学習の場合、適切な結果の出し方の検討
異常検知は現在も活躍している製造業でますます広まりを見せるでしょう。しかしながらどこでどのように使われるか発展途上の技術であるため、今後異常検知がどんな感じで活用されるのか、期待しましょう。