【統計】仮説検定のロジックを追いかける(2)αエラーとβエラー
前回、工場における抜き取り検査を例にとり、二項分布における仮説検定のロジックを追いかけてみました。
簡単に振り返ってみましょう。
例題は次のような設定でした。
1日の終わりにn=100個の製品を抜き取り検査し、その中の不良品の数がの時製造工程に異常があるのではないかと判断して調査をし、の場合には正常の状態であるとしてそのまま翌日の操業を続けるものとしよう。
(自然科学の統計学 p178より)
ある製造ラインの不良率が1%と仮定すると、その製造ラインから100個サンプリングしたときに不良品が抽出される確率は二項分布に従います。100個のサンプリング中に不良品が含まれる確率を各不良品数で計算していくと
不良個数 | 確率 |
---|---|
0 | 0.366 |
1 | 0.370 |
2 | 0.185 |
3 | 0.061 |
4 | 0.015 |
5 | 0.003 |
このようになります。ここで、3個以上不良品が混ざる確率は不良品個数3以上の累積確率で計算でき、およそ7.9%になります。ここから
7.9%の確率でしか起こらない事象はめったに起こらないのだから、そもそもの仮説である「製造ラインの不良率は1%」という仮説が間違っているのだろう。
という結論を導くことになり、結果、製造工程に異常がある、と判断されるのです。
この7.9%の正体を探るのが今回の目的です。
【統計】仮説検定のロジックを追いかける(1)二項分布を使った例題
統計検定準一級を受けるぞ、という話を前に書きました。
勉強を進めているところでして、ひとまずは
- 作者: 東京大学教養学部統計学教室
- 出版社/メーカー: 東京大学出版会
- 発売日: 1991/07/09
- メディア: 単行本
- 購入: 158人 クリック: 3,604回
- この商品を含むブログ (83件) を見る
東大出版会の基礎統計学シリーズの統計学入門を読み終えました。入門とはいえ微積の計算がそこそこ出てくるので、微積にまったく触れたことのない、特に文系で数学を選択しなかった人にはちょっと辛い本かもしれません。
で、二冊目として基礎統計学シリーズの第三弾である
- 作者: 東京大学教養学部統計学教室
- 出版社/メーカー: 東京大学出版会
- 発売日: 1992/08
- メディア: 単行本
- 購入: 26人 クリック: 308回
- この商品を含むブログ (21件) を見る
こちらをを読み進めているところです。さすがに自然科学向けとあって微分、積分、行列演算の嵐です。まともに数学をやってこなかった自分にとってはなかなか難しい本です。数学の知識を補いつつ、なんとか頑張っていますけれども。
この本の第6章「検定と標本の大きさ」で検出力とサンプルサイズの決定方法について論じられています。自分はどうもこの「検出力」のロジックが苦手なようで、「検出力80%のサンプルサイズを云々」という話が出てもすぐにぱっと理解できないのです。統計検定を受けるにあたって、このあたり、つまり仮説検定のロジックがしっかりわかっていないとまずかろう、と思い立ちました。そこで、ブログにアウトプットすることで、ロジックをしっかりと追いかけ、考え方をしみ込ませよう、と思ったわけです。
仮説検定のロジックはそこまで複雑怪奇に入り組んでいるわけではありません。ただ、どの用語がどの確率を指しているのかを分かっていないと、論理の道筋を見失いがちです。ここでは、簡単な例題を出発点に、そのロジックを追いかけていきます。
※途中まで書いて、どう考えても長くなりそうなので、複数回に分けて書くことにしました。
続きを読む【PC】juman++のインストールがうまくいかなかった話
【自然言語処理】知識の構造化に向けた第一歩としての構文解析
【統計】統計検定準一級を受けようと思う。
会社からの指令もあり、統計検定準一級を受けようと思います。
最初はBioS受講という話もあったのですが、先々、データアナリストまたはデータサイエンティスト的な立場におさまることを考えると、BioSよりは統計検定の方がよかろう、という話に落ち着いたのでした。てことを書いちゃうと業界がばれちゃうんだろうか・・・?
また、最初は統計検定一級受験を提示されたのですが、過去問を見て、さすがにここまでばりばりの数理統計まではいらんだろう、という意見もあり、かといって二級では簡単すぎる、というので準一級。で、準一級の過去問をみたらさすがにこれを全部電卓で計算するのは(手法が全部頭に入っているわけではないので)辛そう。なので、復習と自己研鑽がてら、ここらでしっかり勉強しなおしてみよう、と思い立ったのでした。
【R】日本語文章をtext2vecで分析にかける
RMeCabなしでも、system()関数でMeCabに直接アクセスしてRで形態素解析ができるのでした。
RMeCabにはいろいろ便利な関数が入っていて、N-gramができる、とか、DTMが作れる、とか便利といえば便利です。が、個人的にはちょっと微妙だと思っております。というのも、RMeCabのN-gramは複数のN-gramを同時にできない、つまり1-gram、2-gram、3-gramを同時に作ってそのままDTMに放り込む、ということができません。
たとえば、
「今日 は 雨 です」
と分かち書きされた文は
1-gramの場合
- 今日
- は
- 雨
- です
2-gramの場合
- 今日_は
- は_雨
- 雨_です
3-gramの場合
- 今日_は_雨
- は_雨_です
とN-gramされます。残念なことにRMeCabの場合、1-gram、2-gram、3-gramの分割を同時にできず、3回の処理に分けなければなりません。
こいつぁ面倒だ。
ということで、他のパッケージで何とかできないか、と試してみたところ、text2vecパッケージを使えばうまくできたのでご報告。
続きを読む