【統計】仮説検定のロジックを追いかける(2)αエラーとβエラー

前回、工場における抜き取り検査を例にとり、二項分布における仮説検定のロジックを追いかけてみました。

wanko-sato.hatenablog.com

簡単に振り返ってみましょう。
例題は次のような設定でした。

1日の終わりにn=100個の製品を抜き取り検査し、その中の不良品の数XX\geqq3の時製造工程に異常があるのではないかと判断して調査をし、X=0,1,2の場合には正常の状態であるとしてそのまま翌日の操業を続けるものとしよう。

(自然科学の統計学 p178より)

ある製造ラインの不良率が1%と仮定すると、その製造ラインから100個サンプリングしたときに不良品が抽出される確率は二項分布Bi(100,0.01)に従います。100個のサンプリング中に不良品が含まれる確率を各不良品数で計算していくと

不良個数 確率
0 0.366
1 0.370
2 0.185
3 0.061
4 0.015
5 0.003

このようになります。ここで、3個以上不良品が混ざる確率は不良品個数3以上の累積確率で計算でき、およそ7.9%になります。ここから

7.9%の確率でしか起こらない事象はめったに起こらないのだから、そもそもの仮説である「製造ラインの不良率は1%」という仮説が間違っているのだろう。

という結論を導くことになり、結果、製造工程に異常がある、と判断されるのです。
この7.9%の正体を探るのが今回の目的です。

100%正しいわけではない

二項分布Bi(100,0.01)に従って不良品が生じる製造ラインのサンプリングにおいて、3個以上不良品が検出される確率は7.9%でした。つまり、100回に7~8回は100個のサンプリング中3個以上の不良品が混ざることを意味しています。これを多いとするか少ないとするかは考え方次第です。いずれにせよ、仮に製造ラインの不良率が1%だとしても、100個のサンプリング中に3個以上の不良品が混ざることは7.9%ある、ということは変えられません。これはとりもなおさず、次のことを意味します。

100回の検査のうち、7~8回は異常がないのに異常があると判断を誤ってしまう可能性がある。

これを「αエラー」または「第一種の過誤」と呼びます。

「αエラー」または「第一種の過誤」

「αエラー」とはなんでしょうか?
ここでいっているαとは、上記の製造ラインの例題でいうところの7.9%に相当します。つまり、ある一定の確率αでしか生じない事象のことです。その事象が発生した場合、製造ラインの異常を検査する、という判断を下すことになりますが、逆に言えば7.9%は発生する確率があるため、判断を誤る可能性が7.9%ある、ということになります。このときの判断の誤りを「αエラー」または「第一種の過誤」と呼んでいるのです。

有意水準

上記の製造ラインの例題では、「100個のサンプリング中に3個以上の不良品」という基準を設けていました。この基準を有意と呼びます。製造ラインの例題の場合、7.9%以下で以上と判断するのですから、有意水準は7.9%ということになります。有意水準は「α値」と呼ぶこともあります。
製造ラインの例題では個数で有意水準を設定していましたが、通常は%で設定することが多いです。また、一般には5%または1%に設定し、それ以下の確率でしか起こらない事象が起こったときに何らかの判断を下す、という基準にすることが多いようです。
もし、製造ラインの例題で有意水準を5%に設定すると、

不良個数 確率
0 0.366
1 0.370
2 0.185
3 0.061
4 0.015
5 0.003

100個サンプリングして4個以上の不良品が出た場合にラインに異常があると判断されます。なぜなら、0個~3個の場合の累積確率が98.2%であり、4個以上見つかる確率は1.8%だからです。3個以上だと7.9%で起こりえますから、有意水準を超えません。ですから、4個以上、つまり1.8%の確率でしか起こらない事象でないと「異常がある」とは判断できないのです。

二項分布の場合、離散型の確率分布ですからこのような設定になります。連続型の確率分布の場合、ある点から無限大までの区間積分値が0.05になる「ある点」がα値になります。
※これは片側検定の場合で、両側検定の場合はそれぞれ0.025になる範囲を指します。

「正しさ」の確率

ここまでは「異常がないのに異常と判断してしまう確率」を見てきました。100個サンプリングの問題では、3個以上の不良品検出で7.9%の確率で判断を誤る、と算出されました。これは、逆に考えると、92.1%の確率で判断が正しい、ということもできるのです。なぜなら、製造ラインには「異常がある」か「異常がない」の二つの状態しかなく、その確率の総和は100%にならないといけません。ということは「異常がある」と判断して実際には「異常がない」確率が7.9%ならば、その反対に「異常がある」確率は92.1%になるはずです。したがって、「異常がある」と判断した場合に実際に「異常がある」確率、つまり「判断が正しい」確率は92.1%である、と言えるのです。

逆から見る

「異常があると判断した場合」について論じてきましたが、逆に「異常がないと判断した場合」についても考える必要があります。例題で考えてみましょう。
100個サンプリングの中に0~2個の不良が混ざる確率は二項分布Bi(100,0.01)で考えた場合、92.1%でした。これは、不良率1%の製造ラインであれは十分起こりうる事象で許容範囲内であると考えて、翌日の操業を継続します。けれど、この判断は100%正しいわけではありません。

ちょっとややこしくなってきたので表にまとめて整理しましょう。

βエラー

異常ありと判断 異常なしと判断
実際に異常あり ×
実際に異常なし ×


〇の部分が判断が正しかったケースであり、×が判断を誤ったケースです。
異常ありと判断して実際に異常なしであるケースは7.9%の確率で起こるのでした。その反対に、異常ありと判断して異常があるケースは92.1%。
異常なしと判断して実際に異常なしであるケースは92.1%でしたから、その反対の異常なしと判断して異常がないケースは7.9%になります。つまり、

異常ありと判断 異常なしと判断
実際に異常あり 92.1% 7.9%
実際に異常なし 7.9% 92.1%


という関係にあるわけです。そして、

異常ありと判断 異常なしと判断
実際に異常あり 陽性 偽陰性
実際に異常なし 疑陽性 陰性


異常ありと判断&異常あり : 陽性
異常ありと判断&異常なし : 疑陽性
異常なしと判断&異常あり : 偽陰性
異常なしと判断&異常なし : 陰性

と呼びます。このとき、異常なしと判断し、実際に異常がない確率、つまり陰性である確率をβと呼びます。今回の場合は92.1%がβです。そして、異常なしと判断し、実際には異常があった、誤った判断を下してしまう確率は1-βつまり7.9%となります。偽陰性と判断してしまうことを「βエラー」または「第二種の過誤」と呼びます。

何が違うの?

二項分布のこの例でみると、値が一緒になるためαエラーとβエラーって何が違うの?ということになりそうです。確かに製造ラインの例ではαはβの裏返しであり、何か特別なことを言っているようには見えません。自分がそもそも疑問をもった「検出力」の話をするにはちょっと不適な例のようです。そこで、次は別の例を使って考えていこうと思います。

そんなわけで次回に続きます。