機械学習について調べる中で頑健性(ロバストネス)という用語を聞いたことがありますよね。あまり聞き慣れない単語ですが、機械学習において頑健性は非常に重要な要素ですので、本記事では頑健性についてわかりやすく解説していきます。
頑健性(ロバストネス)とは
機械学習における頑健性(ロバストネス)とはひとことで言えば、多様なデータに対して、特に学習データ内に多く存在しない傾向のデータに対して、適切に予測を行うことができる能力のことを指します。
店舗の売り上げを予測する機械学習モデルを構築する場合を考えてみましょう。
2020年の1月から過去3年間のデータを学習用と評価用のデータセットとして収集したとします。2020年1月から過去3年間のデータにはコロナウイルスが蔓延し、売り上げが大きく下がるというシチュエーションは存在しません。従ってこういった非常事態の売り上げはうまく予測を行えないことが予想されます。
しかし実際に機械学習システムを運用する上ではこのような稀な状況に対してもなるべく適切な予測を行う必要があります。そのため学習データにはほとんど存在しない状況下でも適当な予測を行える「頑健」なモデルを構築することが求められます。
頑健性(ロバストネス)がない場合に生じる問題の例
最もわかりやすい例は製造業における不良品検査でしょう。
一般に正常品に対して不良品は圧倒的に少数であることが考えられますよね。ある製品を100個作成した場合に1つの不良品が生じるような場合、そのままデータを収集すると学習データに含まれる不良品は正常品の100分の1程度しか存在しません。
そういった状況でモデルはほとんどが正常品として学習を行うため、最悪の場合は全て正常品だと予測を行うモデルが出来上がることもあります。しかし実際の不良品検査では、不良品を正常品と誤って予測することは正常品を不良品だと予測することに比べて避けなければならないことが多くなります。
このような状況下でも頑健性のあるモデルを構築するために日々データサイエンティストが様々な工夫を行なっています。
頑健性(ロバストネス)のあるモデルを構築する手法
頑健性(ロバストネス)のあるモデルを構築するために最も重要になるのは学習データと評価データの分割です。
先ほどの不良品検査の例では100個に1個不良品が発生する状況を考えましたよね。となると学習用のデータに不良品が1000個に1個しかない状況や、評価用データに不良品が1000個に1個しかないといった偏りがある状況は避ける必要があります。このように実際の運用上で起こりうる状況を考慮して、適切にデータセットを分割することが重要です。
頑健性(ロバストネス)のあるモデル構築の工夫のうち、モデル側の工夫としては一般に汎化性能の高いモデルを構築することが挙げられるでしょう。
例えばニューラルネットワークのようなモデルはモデルの表現能力は非常に高い一方で、学習データに過剰適合しやすいといった問題もあります。そのため必要に応じてロジスティック回帰のような単純な線形モデルを利用し、解くべき問題に適切にモデルの選定を行うことがあります。
また同じモデルでも正則化のように表現力に制約を加えることで汎化性能を高めたり、正則化と同じような効果が得られるハイパーパラメータの調整を行います。
まとめ
頑健性(ロバストネス)について重要な点をまとめましょう。
- 頑健性とは学習データ中に稀なデータに対しても適切に予測を行える能力のこと
- 売り上げ予測における社会状況の考慮、不良品検査における少数データへの対応などの例がある
- 機械学習システムを構築する上で、データサイエンティストはいかに頑健性の高いモデルを構築するかを日々取り組んでいる