統計や機械学習の学びを深めているときに、「バイアス」や「バリアンス」といった言葉を見かけることがありますよね。この言葉は読み方が似ているし、普段使わない言葉なので理解に苦労してもおかしくありません。
実際私も苦労しました。ただ、統計や機械学習の様々な場面で使用される言葉なので、一度理解してしまえば非常に役立つ言葉であることは間違いありません。そこで今回は、「バイアス」と「バリアンス」についてお伝えしていきます。
一言で言うと「バイアス」と「バリアンス」とは・・・
バイアスは「偏り」、バリアンスは「バラツキ」を意味する
「バイアス」「バリアンス」という言葉は、「確度」や「精度」という言葉と密接に関係しています。
まず「確度」とは予測値や測定値が真の値にどれくらい近いかを表す度合いのことで、ほとんどの場合、予測値や測定値は真の値からずれます。このズレのことを誤差といい、予測値と将来時点の実際の値とのズレを予測誤差、測定値と真の値との誤差を測定誤差と言います。この誤差が小さいほど「確度が高い」あるいは「バイアス(偏り)が小さい」と言います。
機械学習では、この逆の状態つまり「確度が低い」あるいは「バイアス(偏り)が大きい、高い」状態を学習不足と言い、訓練データにさえモデルが適合していないモデルの状態の事を表現します。
次に「精度」は、予測や測定を複数回行った場合の結果のバラツキの大きさを表す度合いです。バラツキが小さいほど「精度が高い」、あるいは「バリアンス(バラツキ)が小さい」と表現します。
機械学習では、この逆の状態つまり「精度が低い」あるいは「バリアンス(バラツキ)が大きい、高い」状態を過学習と言い、訓練データに対して過剰に適合して未知のデータに対しては上手く適合できていないモデルの状態の事を表現します。
もっと詳しく、イメージもセットで理解したい方はこちら↓
精度という用語が実際に現場で用いられる時には何を指しているのか曖昧なことが多く、文脈によって確度の意味で用いられることもあるでしょう。精度と角度の両方の意味を持ったものとして用いられることが多いようです。精度が何を意味しているのかは、その都度確認していくことが大事です。
まとめ
つまり、「バイアス」と「バリアンス」とは、
<参考>
AI(人工知能)って「なにそれ美味しいの?」ってレベルだった僕が、AIエンジニアを目指してステップを踏んだり踏まれたりしている記事を書いてます。よかったら読んでみてください(実話)。
コメントをどうぞ