テクノロジー

機械学習初心者が知りたい!ベイズ確率の基本と使い方まとめ

機械学習初心者が知りたい!ベイズ確率の基本と使い方まとめ

ベイズ確率ということばが、近年注目を浴びています。ベイズの定理ということばを、学校の数学で聞いたことがあるかもしれませんが、それに深く関わっています。とはいえ学校の数学というと、ちょっと尻込みしてしまう部分もありますよね。

ベイズ確率というのは、ある確率があったとして、情報が増えたときにその確率を更新する考え方です。たとえば、ある地域の人が病気である確率を考えるとき、初めの確率はその地域の病気である人の割合に等しいといえますが、その人に何らかの検査をおこなって、病気であると判定されたら、その人が病気である確率は高くなるといえます。このような情報の追加によって、初めの確率を次々に更新していこうというのが、ベイズ確率の基本的な考え方です。

こういったベイズ確率ですが、ちょっと敷居が高く感じてしまうかもしれません。でも、ベイズ確率の考え方は意外と単純。そのため、しっかり学べばすぐマスターできるでしょう。

そこで今回は、ベイズ確率とはなにか、ベイズ確率の考え方、ベイズ確率がどのように活用されているかについて、説明します。

ベイズ確率とは

確率のイメージ

ベイズ確率とは、ベイズの定理の考え方に基づいて確率を更新していくという考え方のことを指します。

ベイズの定理は、トーマス・ベイズが18世紀に示したもので、事前確率と事後確率の関係を示しています。事前確率とは、ある情報が追加される前の時点での確率で、事後確率とは、情報が追加されたあとの確率です。いくつかの事前確率から、事後確率を求めることができます。

※同じような内容で、ベイズ理論もあります。ベイズ理論に関してはこちらの記事で解説しています

たとえば、あなたが不良品の冷蔵庫をつかんだとします。市場に冷蔵庫はA社のものが70%、B社のものが30%であったとして、一方でA社の不良率は3%、B社の不良率は5%であったとしましょう。このとき、あなたがつかんだ不良品がA社製である確率はどれだけでしょうか……といった問題に解法を与えてくれるのがベイズの定理です。(この問題を解くのは今はおいておきましょう)

ここではぼんやりと眺めてもらいたいのですが、ベイズの定理をこの問題に当てはめた数式は次のようになります。

(不良品であった冷蔵庫がA社製である確率) = (ある冷蔵庫がA社製である確率)×(A社製であった冷蔵庫が不良品である確率)÷(ある冷蔵庫が不良品である確率)

そして、このときの事前確率とは、あなたの冷蔵庫がまだ不良品であると判明していなかったとき、その冷蔵庫がA社製である確率です。一方で、事後確率とは、不良品であると明らかになった後で、冷蔵庫がA社製である確率を指します。不良品という情報が加わって、確率が更新されているというのがポイントです。

ベイズ確率と主観的確率

サイコロのイメージ

さて、もしかすると「確率」というものが途中で変化しているような言い方でしたが、それも違和感を持った方もいるかもしれませんよね。なぜなら、不良品であるという情報があろうがなかろうが、目の前の冷蔵庫は同じ冷蔵庫なんですから。

つまり、ここでいう「確率」というのは、それが不良品であるという認識を持っていたり持っていなかったりするある人から見た「確信の度合い」に過ぎないといえます。これを、「主観的確率」といいます。

一方で、サイコロを振って1の目が出る確率は6分の1だといわれています。これは、「客観的確率」です。ポイントは、私たちの主観とは関係ない点。サイコロを振って1の目が出る確率が6分の1というのは、とても多い回数振って出た目の割合を測ることで定められますから、主観の入る余地はありませんよね。

ですから、これはちょっと哲学的な話になります。ただ、ここでは数学的に難解なことを考える必要はなくて、ベイズ確率というのは主観的確率の考え方を採用していて、それは見る人の情報によって確率が変化するという考え方なんだということを、ぼんやりと理解しておけば十分でしょう。

ベイズ確率を応用しよう

メールのイメージ

ここでベイズ確率の応用として、スパムメールの判別の問題を考えてみましょう。そして、ある単語に着目し、スパムメールにその単語が含まれている確率と、通常のメールにその単語が含まれている確率を算出します。

そして、新しいメールが来たとき、ある単語が含まれていたとすれば、ベイズの定理を用いることで、逆にそのメールがスパムメールである確率を求めることができるのです。詳しい式は、次の章で解説しましょう。

この方法は、実際のスパムメール判定において用いられています。ベイズの名称を取って、ベイジアンフィルタといいます。そして、こういったベイズ確率に基づく分類を複雑に組み合わせたのが、「ベイジアンネットワーク」という種類のAI(人工知能)です。

ベイジアンネットワークとは、複雑な因果関係のモデルにおける確率の推定をベイズ確率の考えを応用して行うものです。インターネット通販におけるレコメンドに応用されています。他にも、マーケティングや疾病予測の分野に活用事例があります。

ベイス確率を使った例題

回答のイメージ

さきほどのスパムメールの問題を少し考えてみましょう。

まず、あらかじめ過去の大量のスパムメール群と通常のメール群があったとします。スパムメールを見極める方法を探すために、改めて登場する単語を確認したら、スパムメール群には「儲かる」という単語が含まれる確率が50%、通常のメール群では3%であったとします。また、スパムメールが来る確率は全体の5%であるとしましょう。

すると、ベイズの定理に当てはめた場合には、「儲かる」という単語が含まれているメールがスパムである確率は、

(「儲かる」という単語が含まれているメールがスパムである確率)=(あるメールがスパムである確率)×(スパムであるメールに「儲かる」という単語が含まれている確率)÷(「儲かる」という単語が含まれている確率)

となります。つまり、

(「儲かる」という単語が含まれているメールがスパムである確率)=0.05×0.5÷(0.05×0.5+0.03×0.95)=0.467

ということで、「儲かる」という単語が含まれているメールがスパムである確率は、46.7%でした。

これは仮想の確率ですし、実際には多数の単語についてこの処理をおこなっていますが、スパムメールフィルタの基本的な原理はこういうことなんです。スパムメールフィルタくらい身近なものにも使われていると、ベイズ確率もちょっと身近に感じますよね。

まとめ

さて今回は、ベイズ確率について説明しました。

ベイズ確率は、事前確率と事後確率の関係を表すベイズの定理と深い関わりがありました。そして、主観確率という考え方に基づいていて、確率を次々に更新していこうという理念に基づいています。

ベイズ確率を活用したものの例として、スパムメールフィルタがありました。スパムメールフィルタを例に、例題を解いてみました。

ベイズ確率を応用したAI(人工知能)であるベイジアンネットワークは、さまざまな場面で用いられています。なにせ、あらゆる因果関係において、ベイズの定理は応用できますから。年齢や性別などの基本属性をもとに好みの商品を求めるマーケティングの事例もありますし、生活習慣や薬の利用状況から糖尿病の状態を予測した事例もあります。

つまりベイズ確率は、さまざまな使いみちがあり、非常に学びがいがある分野だといえます。みなさんもぜひ、ここからいろいろな情報に触れて、ベイズ確率を応用した仕組みを考えてみましょう。

トップへ戻る
タイトルとURLをコピーしました