はじめに
ベイズ統計学はパターン認識の分野で利用されるため、参考書を開くと序盤で解説されます。
式自体は以下で表せます。
本記事では、これの何がすごいの?という素朴な疑問に対して分かりやすく説明します。条件付き確率などは前提とさせてください。
ベイズの定理の計算例
箱の中に白い球が3つと赤い球が4つ入っていて、白い球には当たりマークがついたものが1つ、赤い球には当たりマークがついたものが3つあるとします。
当たり | はずれ | |
---|---|---|
白い球 | 1 | 2 |
赤い球 | 3 | 1 |
白いボールを引いた際に当たりがでる確率は?と言われると迷わずだと分かると思います。
これをベイズの定理に当てはめると
になります。本当に右辺はになるのでしょうか?
白が3つで赤が4つなので球が白い確率は、当たりが4つではずれが3つなので球が当たりの確率は。
そして先ほどの表を確率に変換した上で
当たり | はずれ | |
---|---|---|
白い球 | 1/7 | 2/7 |
赤い球 | 3/7 | 1/7 |
当たりを引いた際にそれが白色の確率を求めると以下になります。
よって
となり、確かにベイズの定理が成り立っていることが分かります。
なぜ有用なのか?
本題ですが、これの何が嬉しいのでしょうか?
これはずばり、左辺が求めにくいにも関わらず右辺が求めやすい場合があるからで、よくあるのはが原因、が結果の場合です。
つまり、結果としてが得られた場合にその原因がである確率を知りたい時に活躍します。
分かりやすい例として、検査薬の結果とその人の病気の羅漢率があります。
病気の人とそうでない人に対してその検査薬の結果データを事前に得ることで、検査したい人の結果からその人が病気にかかっているか否かの確率が算出できるのです。
確かに「陽性が出た時の病気の確率」というのは求めにくそうですが「病気であれば陽性が出る確率」や「病気ではないのに陽性が出る確率」はデータさえ溜めれば求めることができそうです。
終わりに
『結果から原因を探る必要がある問題』にベイズの定理が大活躍する、という点を覚えておくと勉強のモチベーションにもなると思います。
以上、ご参考になれば幸いです。